浅谈链接挖掘

浅谈链接挖掘

基本概念 • 用图结构刻画"社交网络"的思路 • 一个社交网络由很多节点（Node），和连接这些节点的一种或多种特定的链接（Link）组成 • 节点表示数据实例，链接则表示实例之间存在的各种关系（Relation） • 社会网络的结构属性，如节点的度数（Degree）、连通性（Connectivity） • 子图（Subgraph）有助于我们对社团或群体行为的研究 • 链接挖掘中的数据表示 • 基本表示： • 行为者(Actor)：社交网络中的实体。 • 联系(Relation tie)：不同的社会实体通过联系连接在一起。 • 复杂的模式包括： • 二元组(Dyad)：由两个行为者及他们之间的关系组成，这是研究关系模式的基本单位； • 子图(Subgroup)：由网络中的一部分行动者和他们之间的关系组成，可以通过子图来研究社会网络中的一个小团体所具有的特征； • 图(Graph)：所有行动者及其之间的关系，分析社会网络的总体特征。

典型的链接挖掘任务介绍 • 基于链接的节点排序（Link-Based Object Ranking） • 基于链接的节点分类（Link-Based Object Classification） • 节点聚类（Object Clustering） • 链接预测（Link Prediction） • 子图发现（Subgraph Discovery） • 图分类（Graph Classification）

基于链接的节点排序(Link-Based Object Ranking) • 通过分析图中的链接结构，根据某种衡量节点重要性的度量对图中的节点进行排序，这种可度量的重要性被称为中心度（Centrality）。 • 根据复杂程度不同，可分为局部度量和全局度量(静态图)。 • 局部度量包括“度中心度”(Degree Centrality)，即某个顶点的度数; • 全部度量包括“特征向量/能量中心度”（Eigenvector/Power Centrality） • 其他的排序方法 • 基于两个节点到他们所链接的相似节点的度数，估计这两个节点间相似程度（通过随机游走来计算），并可以引入了图分块以提高算法的稳定性 • G. Jeh and J. Widom. SimRank: A measure of structural-context similarity. In ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pages 538-543, 2002. • J. Sun, H. Qu, D. Chakrabarti, and C. Faloutsos. Relevance search and anomaly detection in bipartite graphs. SIGKDD Explorations, 7(2), December 2005. • 扩展阅读(很老，很经典)： • L. Freeman. Centrality in social networks: Conceptual clarifications. Social Networks, 1:215-239, 1979. • P. Bonacich. Power and centrality: A family of measures. American Journal of Sociology, 92(5):1170-1182, 1987.

基于链接的节点分类(Link-Based Object Classification) • 传统机器学习中的分类问题是基于数据实例（节点）独立且分布的假设 • 一个数据图G = (O;L) 表示节点集合O和他们之间的链接集合L，LBOC将O中的成员赋予某一类标签，与传统ML最大的区别在于节点的类别是彼此相关的 • 条件随机场(Conditional Random Fields)的概念，扩展了传统最大熵模型对于数据的结构必须是链式结构的限制 • J. Lafferty, A. McCallum, and F. Pereira. Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In Proc. of ICML-01, 2001. • 对每个数据实例增加新的属性来扩展简单的机器学习分类器，使其能处理基于链接的节点分类问题 • Q. Lu and L. Getoor. Link-based classification. In International Conference on Machine Learning, 2003. • 增加的新属性度量了类标签在节点组成的马尔可夫毯（Markov Blanket）中的分布

节点聚类（Object Clustering） • 又称为群体检测（Group Detection），将有着共同的特征的节点聚集。 • 假设图中的节点和链接都属于同一种类，群体检测技术可以分成聚合聚类和分裂聚类 • 块建模（Blockmodeling）是将社会网络分割成个体的集合，称为位置（Position）；定义在链接集合和聚合聚类之间的相似度量被用来寻找位置 • 谱图分割的方法（Spectral Graph Partitioning Methods）用确定为了使图达到指定数量群体而可以去掉的近似最小链接集合来解决群体检测问题 • M. E. J. Newman. Detecting community structure in networks. European Physical Journal B, 38:321-330, 2004. • 源于Freeman关于连接中心度（Betweenness Centrality）的观点，用刻画边的连接的度量来确定连接群体的链接 • J. R. Tyler, D. M. Wilkinson, and B. A. Huberman. Email as Spectroscopy: Automated Discovery of Community Structure within Organizations. Kluwer, B.V., Deventer, The Netherlands, The Netherlands, 2003. • 基于随机块建模（Stochastic Blockmodeling）的方法 • 在随机块建模中，观测到的社会网络被假设为对依赖的随机块模型的一种实现。个体在网络中的位置假定是满足独立同分布的随机变量，给定类型的关系链接只依赖于它所连接的两个个体的位置。

链接预测(Link Prediction) • 链接预测是基于它所链接的节点属性和已观测到的链接来预测某链接是否存在 • 预测社会中人与人之间的朋友关系，电子邮件、电话联系，合作关系等 • 存在一个时间序列，在某个时间点t的连接状态已知，要预测t+1时间点的链接状态 • 也可以看成是一个简单的两类分类问题：对于可能有连接存在的两个节点oi和oj ，预测lij是1还是0 • 方法 • 完全基于网络的结构信息进行预测 • 在不同图近似尺度下的预测 • D. Liben-Nowell and J. Kleinberg. The link prediction problem for social networks. In International Conference on Information and Knowledge Management (CIKM), pages 556-559, 2003. • 在进行链接预测时使用属性信息，通过引入一种结构逻辑回归模型（Logistic Regression Model），利用关系特征（Relational Features）来预测链接的存在，关系特征的定义是由数据库查询引入的。 • A. Popescul and L. H. Ungar. Statistical relational learning for link prediction. In IJCAI Workshop on Learning Statistical Models from Relational Data, 2003.

链接预测(Link Prediction)续 • 因为数据集多数是稀疏的，因而链接预测比较困难；为链接预测构造统计模型的一个难点在于，链接的先验概率往往很低(模型评价和预测可行程度的定量上都比较低) • 提高预测质量的方法： • 使预测全体化 • 在整个链接的图、标签和边上构造一个概率模型 • 基于马尔可夫随机场（Markov random fields）的网络结构联合模型 • 节点集合O，属性集X，边集E ，MRF建模了在边集E上的联合分布P(E)，或者基于节点属性的条件分布P(Ej|X) • R. Chellappa and A. Jain. Markov random fields: theory and applications. Academic Press, Boston, 1993

子图发现(Subgraph Discovery) • 在一个图的集合中找到感兴趣的或者频繁出现的子图 • 在图中寻找频繁子图: • AGM算法，寻找所有满足最小支持的归纳子图 • A. Inokuchi, T. Washio, and H. Motoda. An Aprioribased algorithm for mining frequent substructures from graph data. In European Conference on Principles and Practice of Knowledge Discovery and Data Mining, pages 13-23, 2000. • gSpan，先将每一幅图映射到深度优先搜索编码，并用字典序排序，可以避免候选子图生成的代价，最后在这个字典序定义的搜索树上进行深度优先搜索 • X. Yan and J. Han. gSpan: Graph-based substructure pattern mining. In International Conference on Data Mining, 2002.

子图发现(Subgraph Discovery)续 • 关注有效的生成子图和基于压缩的启发式搜索 • 利用基于MDL的启发式来指导子图的搜索，可以用于子图发现和图分类 • D. J. Cook and L. B. Holder. Substructure discovery using minimum description length and background knowledge. Journal of Artificial Intelligence Research, 1:231-255, 1994. • 基于图的归纳(Graph-Based Induction)，通过将频繁出现的顶点组合成块来压缩输入的图

图分类(Graph Classification) • 图分类是一种试图将整张图用正或负标签来分类的监督学习问题 • 三种主要方法有：基于图上特征挖掘，归纳逻辑编程（ILP）和定义图核函数 • 图上特征挖掘:在图实例中寻找所有频繁或者有意义的子图,这些子结构被用于将图数据转化成一个单表的数据表示，然后传统的分类算法可以将图实例进行分类。 • ILP:首先将用于描述变异的图数据影射成关系表示,如vertex(graphId,VertexId,VertexLabel, VertexAttributes)和edge(graphId,vertexId1,vertexId2,BondLabel)，然后用一个ILP的系统来在这个假设空间中寻找一个合理的假设。 • R. D. King, S. H. Muggleton, A. Srinivasan, and M. J. E. Sternberg. Structure-activity relationships derived by machine learning: The use of atoms and their bond connectivities to predict mutagenicity by inductive logic programming. National Academy of Sciences, 93(1):438-442, January 1996. • 寻找频繁子结构在计算上往往是不可行的，但可以用图核方法来替代，即基于一种在图上游走的度量来描述图核函数 • T. Gartner. Exponential and geometric kernels for graphs. In NIPS Workshop on Unreal Data: Principles of Modeling Nonvectorial Data, 2002. • H. Kashima and A. Inokuchi. Kernels for graph classification. In ICDM Workshop on Active Mining, 2002.

THE END!有不当之处，敬请批评指正！ xdren1230@126.com

浅谈链接挖掘

浅谈链接挖掘

Presentation Transcript