480 likes | 644 Views
973 信息网格子项目. 基于语义的信息检索与集成. 负责人:杨广文教授 承担单位:清华大学 汇报人:杨峰 博士 2005.10.10. 汇报内容. 项目进展介绍 面向语义相关性的索引及搜索 DHT 中的语义映射模型 基于对等网络的信息服务系统设计与评测结果. 研究目的. 网格中的 P2P 覆盖网: 高效的管理和共享网格中分布式资源 分布、可扩展和自治性的 P2P Ovlerlay ,集成和管理网格中的异构信息和资源 支持大规模、可扩展的网格应用:语义网格 P2P 语义覆盖网: 识别和自组织语义相似的对等结点 准确和有效地搜索网格中的相关结点
E N D
973信息网格子项目 基于语义的信息检索与集成 负责人:杨广文教授 承担单位:清华大学 汇报人:杨峰 博士 2005.10.10
汇报内容 • 项目进展介绍 • 面向语义相关性的索引及搜索 • DHT中的语义映射模型 • 基于对等网络的信息服务系统设计与评测结果
研究目的 • 网格中的P2P覆盖网: • 高效的管理和共享网格中分布式资源 • 分布、可扩展和自治性的P2P Ovlerlay,集成和管理网格中的异构信息和资源 • 支持大规模、可扩展的网格应用:语义网格 • P2P语义覆盖网: • 识别和自组织语义相似的对等结点 • 准确和有效地搜索网格中的相关结点 • 继承P2P发现技术的优势:快速路由、准确定位、通信开销、维护代价、单点瓶颈……
项目进展 • P2P语义覆盖网(链接) • 对面向语义相关性的索引向量及搜索算法进行了研究。提出了潜在语义索引向量表示法及其分布式计算方法,给出了面向语义相关性搜索的统一基础框架,可利用索引向量实现多种启发式搜索。 • 语义DHT(索引) • 在DHT中引入了能够保留语义相似性的位置敏感散列函数替代相容散列来完成对象的组织,提出了语义映射模型并进行了验证。 • 设计并实现了广域网信息服务系统Lookup-ring
发表论文情况 • 在项目期内已发表SCI索引文章10篇。 (1)Yang GW, Shi SM, Wang DX, Huang QF, Liu XZ, DSI: Distributed service integration for service grid, JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY ,18 (4): 474-483 JUL 2003, IDS Number: 709YG (2)Shi SM, Yang GW, Yu J, Wu YW, Wang DX, Improving availability of P2P storage systems, LECTURE NOTES IN COMPUTER SCIENCE, 2834: 446-456 2003, IDS Number: BY05L (3)Liu XZ, Chen M, Yang GW Latent semantic indexing in peer-to-peer networks LECTURE NOTES IN COMPUTER SCIENCE 2981: 63-77 2004, IDS Number: BY93V (4)Chen M, Yang GW, Liu XZ Gridmarket: A practical, efficient market balancing resource for Grid and P2P computing, LECTURE NOTES IN COMPUTER SCIENCE 3033: 612-619 2004 IDS Number: BAC97 (5)Liu XZ, Chen M, Yang GW, Wang DX, Scalable resource management and load assignment for grid and peer-to-peer service LECTURE NOTES IN COMPUTER SCIENCE 3032: 552-559 2004, IDS Number: BAC96 (6)Chen K, Shi SM, Yang GW, Shen MM, Zheng WM, Improving the objects set availability in the P2P environment by multiple groups, LECTURE NOTES IN COMPUTER SCIENCE 3032: 396-403 2004, IDS Number: BAC96
发表论文情况 (7)Chen M, Wu YW, Yang GW, Liu XZ, Efficiently rationing resources for grid and P2P computing LECTURE NOTES IN COMPUTER SCIENCE 3222: 133-136 2004, IDS Number: BBB67 (8)Liu XZ, Yang GW, Hu JF, Chen M, Wu YW Title: Lookup-ring: Building efficient lookups for high dynamic peer-to-peer overlays LECTURE NOTES IN COMPUTER SCIENCE 3222: 154-166 2004, IDS Number: BBB67 (9)Chen M, Yang GW, Wu YW, Liu XZ Paramecium: Assembling raw nodes into composite cells, LECTURE NOTES IN COMPUTER SCIENCE 3222: 481-484 2004 IDS Number: BBB67 (10)Xuezheng Liu, Guangwen Yang, Ming Chen, Yongwei Wu: Efficient Search Using Adaptive Metadata Spreading in Peer-to-Peer Networks. GCC 2004:,Lecture Notes in Computer Science Volume 3251, 551-558 IDS Number: BBE85
面向语义相关性的索引及搜索 数据具有潜在语义(latent semantics)和相关性,应用语义相关性可以很大程度上提高搜索的质量和效率 提出了P2P中基于语义空间模型的潜在语义索引(LSI)的定义及迭代计算方法 给出了面向语义相关性的启发式搜索和扩展查询的统一框架。启发式搜索具有比随机搜索更高的效率
潜在语义 • P2P应用中,数据及其共享者之间具有潜在语义关联(latent semantics) • 数据相关性 • 使用者偏好相关性 • 数据与使用者的匹配关系 • 潜在语义对于信息搜索具有重要意义 • 基于相关性的匹配 • 启发式搜索 • 扩展查询
潜在语义的向量表示法 • IR领域中使用空间坐标模型刻画潜在语义,通过对关联矩阵的特征向量分解进行求解 • 由于巨大的计算量和通信开销,不能直接应用到P2P中
从传统LSI方法中得到的结论 • K维向量代表了K个正交的“意义维”,即矩阵正交化得到的特征向量方向 • 结点的偏好性由其上共享的文件所定义,而信息的潜在语义由共享它的全部Peer的偏好而得出 • 利用此结论建立P2P中的概率模型,得到P2P中潜在语义的向量表示方法
概率模型 • 潜在语义由K个正交意义类型{C1, C2, …CK }决定,每个查询属于特定的意义类型 • 结点P上发出i类型查询的概率为niP;所有类型Ci的查询中,单次查询可被数据X满足的概率为FiX • 数据 X 满足结点 P 发出请求的概率为
潜在语义向量的计算方法(1/2) • P搜索到 Xi时所使用的查询可认为是在 Xi可满足的全部查询中的一个随机采样 • 结点LSI向量
潜在语义向量的计算方法(2/2) • 数据X被结点{P1, P2,…Pm}所共享,可使用贝叶斯分析和最大化后验概率(MAP)方法来估测数据LSI • 根据MAP,X的LSI取值f X即是使观测事件“{P1, P2,…Pm}都共享数据X”发生的概率最大的f X。
LSI语义链的维护算法 • LSI构建共享链接:共享相同或类似数据的结点之间保持的指向关系 • 基于Gossip-style的基本操作: • 通过邻居交换的方式(neighbor shuffle)维护共享链接和相关结点的覆盖子图 • 利用共享链接传递消息来传递结点LSI的最新估测值 • 当收到邻居结点传来的列表时,将列表与本地保存的相关结点列表合并 • 随机替换共享链接,建立新的邻居关系 • 继续交换列表,形成Gossip随机广播 • 因为关联链接仅是辅助性的功能,不需要保证强一致性,因此维护开销较低,一般低于P2P本身连通性维护开销
基于LSI的启发式搜索 • 将传统信息获取领域(IR)中的潜在语义分析方法应用于大规模分布式对等网络上,实现对于信息源之间潜在语义关联的提取和利用。通过将信息和用户使用特性映射到降维欧式空间中的点来实现对于语义相关性的表示。 • 建立了对于潜在语义和用户使用特性的后验概率模型,使用MAP (maximizing a posteriori)进行优化求解。采用迭代算法实现了对于潜在语义表示空间的降维和求解,避免了分布式环境下SVD分解的复杂计算量。 • 通过提取的潜在语义表示来定义信息索引并指导分布式搜索,极大的提高了信息搜索效率。
P2P语义覆盖网 语义链:变盲搜索为启发式搜索 潜在语义的分布式计算方法 语义链的维护: 共享链 Gossip-style的组播算法
语义DHT 双层路由表: 底层DHT用于路由; 上层路由表:自然属性值的标识空间; 降维:高维属性空间降为一维空间; 检索:精确组播实现无冗余区域搜索。 问题: 负载均衡
语义DHT 提出了一种P2P 中严格约束的区域搜索算法。通过“无中心的资源管理基础设施”实现了结构化P2P 中多层次、细粒度的资源监测和负载迁移算法, 保证了数据按属性值自然顺序匹配到结点时的结点负载平衡,从而使所提出的查找效率为O(logN)的区域搜索算法成为可能。与现有基于双层路由表的算法相比,该算法具有更小的搜索跳数。
DHT中的语义映射模型 • 通过对特征矢量的散列映射,采用属性矢量代替DHT 使用的精确关键词,既保留了语义特性,又采用了与结点相一致的散列空间,从而不必改变底层发现算法。 • 引入LSH 代替相容散列,根据相似度以不同的概率组织对象的内容,提高了结点存储数据的语义相似度。 • 针对LSH 造成的相似度不高的数据也以相当的概率聚集到同一个结点上的问题,在发现算法中采用相似度公式过滤不符合需求的数据,保证了查询的准确性
DHT中的语义映射模型 DHT中的语义发现技术 (1)基于DHT的多关键词查询技术 全局索引,混合索引和优化混合索引 Hilbert空间填充曲线:高阶降维 (2)基于DHT的语义搜索技术 结合向量空间模型(VSM)和LSI的发现算法
DHT中的语义映射模型 DHT的相容散列理论: DHT:空间 的分割: 保证DHT空间均匀,即最大/最小分割空间比为: DHT的映射模型 • 2次相同的散列映射:节点组织;存储内容的组织 • 节点映射:保证节点加入时避免散列函数的冲突。 • 存储内容相同散列映射。 • 忽略了内容的相似特性,把内容相似的对象均匀地映射到DHT空间,造成了相容散列的均匀性和语义相似性之间的矛盾。
DHT中的语义映射模型 解决思路: • 第2次映射时保留内容之间的相似性 • 基于属性矢量和相似度的发现算法: • 特征矢量表示对象内容,散列。 • 特征矢量相似度公式表示语义之间的相似性 • 底层采用DHT发现算法
DHT中的语义映射模型 AV:=<f1,f2,f3,…fn> fi=Hash(keyi) • 发现算法: • LSI提取特征矢量,散列成AV。 • 定义属性相似度域值p,生成查询集合{AV,p}。 • lookup(fi,{AV,p }) • DHT发现算法 • 结点语义匹配公式:
DHT中的语义映射模型 发现算法的问题: • 查准率非常低:大量语义相似度低的索引发布到相同的结点上。 • 每个索引会在系统中存有m个复本。 • 提高语义相似度;减少复本。 • 新的散列函数:散列值相等的概率与内容相似度成正比。
DHT中的语义降维 • 位置敏感散列:Location Sensitive Hashing • 利用一组具有一定约束条件的散列函数来建立多个散列表,使得在某种相似度量条件下,相似的点发生冲突的概率较大,而不相似的点发生冲突的概率相对较小。 如果一组散列函数 ,对于任意一个散列函数 满足公式: 是位置敏感散列
DHT中的语义降维 • 最小独立置换(Min-wise independent permutations):构建位置敏感散列 的映射,使集合 通过散列函数 对集合 中每一个元素 的散列值 的概率相等。 为置换函数,即:
DHT中的语义降维 • 最小独立置换(Min-wise independent permutations):构建位置敏感散列 可以采用集合中对应位置的元素相等的数量来估算相似度 满足位置敏感散列函数
DHT中的语义映射模型 • 语义映射模型 • 减小查询负载 • 提高每个结点上存储数据的语义相似度。
算法分析和验证 • (1)位置敏感散列函数性能分析 相似度为p的内容获得相同散列键值的概率为: 减小 • 增加概率 • 降低结点的平均相似度 增大 • 增加查询负载 • 提高每个结点上存储数据的语义相似度。
算法分析和验证 • (2)语义映射模型验证:语义映射模型仿真器
算法分析和验证 • (2)语义映射模型验证: 实验数据: • 100个结点,10000个数据; • SHA-1生成一个种子矢量 • 随机修改种子矢量中的元素 • 在 之间随机分布
算法分析和验证 • (2)语义映射模型验证:平均相似度曲线 每结点上平均相似度: • 减小 ,增大 ,平均相似度增大。 相似度增加不明显: • 复本增加 • 相似度不高的数据相同散列概率增大
基于对等网络的信息服务系统设计与评测结果 根据前面的关键技术,已设计并实现了广域网信息服务系统Lookup-ring
总结 • 基于LSI的索引及搜索的分布式算法 • 基于负载均衡的双层路由表索引算法 • DHT中的语义映射模型 • Lookup-ring:基于语义覆盖网的P2P信息服务系统
进一步的工作 • 完善基于LSI的P2P路由算法 • 采用LSH降维技术改进DHT的ID分配算法 • 结合ImageOne仿真平台,通过仿真完善Lookup-ring,形成适用语义网格的语义索引及搜索算法 • 以P2P语义覆盖网为核心研究内容,发表2篇以上高质量的SCI论文
进一步的工作 • 完善基于LSI的P2P路由算法 • 采用LSH降维技术改进DHT的ID分配算法 • 结合ImageOne仿真平台,通过仿真完善Lookup-ring,形成适用语义网格的语义索引及搜索算法 • 以P2P语义覆盖网为核心研究内容,发表2篇以上高质量的SCI论文