250 likes | 414 Views
微 博挖掘综述. 报告人:王菁菁 2014.4.23. 大纲. 微 博特点 文本挖掘 微 博检索 微 博摘要 情感分析 结构挖掘 链接预测 节点排序 应用 微 博推荐 挑战. 微 博特点. 内容特点 短文 本性:小于 140 个文字 Hashtag: # topic # 结构特点 幂律 分布: follower,followee 传播即时 : 可以通过 Web,WAP 各种客户端发送 结构 洞: 1% 的用户控制 25% 的信息传播 用户特点 用户发文:广播,分享信息 交友模式:关注有相同兴趣爱好的用户. 文本挖掘:微博检索.
E N D
微博挖掘综述 报告人:王菁菁 2014.4.23
大纲 • 微博特点 • 文本挖掘 • 微博检索 • 微博摘要 • 情感分析 • 结构挖掘 • 链接预测 • 节点排序 • 应用 • 微博推荐 • 挑战
微博特点 • 内容特点 • 短文本性:小于140个文字 • Hashtag: #topic# • 结构特点 • 幂律分布:follower,followee • 传播即时: 可以通过Web,WAP各种客户端发送 • 结构洞:1%的用户控制25%的信息传播 • 用户特点 • 用户发文:广播,分享信息 • 交友模式:关注有相同兴趣爱好的用户
文本挖掘:微博检索 • 检索:根据用户提交的查询返回相关的微博 • 检索内容 • 动态信息:事件检索 • 人 • Hashtag、救援事件、跨社交媒体检索等 • 与其他技术结合 • 聚类分析:分面搜索 • 事件检测、摘要技术:结果展示
文本挖掘:微博检索 • 检索两大关键技术 • 索引 • 排序 • 索引 • TI:实时索引 • Pollux:分布式可扩展实时索引
文本挖掘:微博检索 • 排序特征选择 • 文本特征:TF-IDF • 相关性 • 发表时间:时效性的最有效特征 • 微博质量: 例如,有趣性 • 可信度 • 用户影响力
文本挖掘:微博摘要 • 话题摘要:一个话题的文档集合摘要,能代表话题的核心语义 • 事件检测内容 • 发现新兴爆发的主题 • 持久讨论的事件 • 特定的事件 • 事件检测的方法 • 聚类:对关键词聚类、社团聚类
文本挖掘:微博摘要 • 摘要的类别 • 对事件的描述 • 观点摘要:对一个实体的观点倾向 • 多微博文本摘要:timeline摘要,如体育比赛的进程 • 摘要方法 • 抽取式摘要 • 生成式摘要
文本挖掘:微博摘要 • 抽取式摘要方法 • 对每个子句评分,选取得分的top-k的子句作为摘要 • 矩阵分解SVD,选择排序较高的子句 • 构建词--句子矩阵A,矩阵的元素是每个词在句子中出现的次数 • SVD: • 最终选择向量中值比较大的句子作为摘要。 • 聚类(SNMF) 聚类中心 • 实时摘要系统:增量式的聚类,抽取质心 • 数据重构,选出的摘要可以最大限度地还原原始数据。 子句的重要性
文本挖掘:微博摘要 • 抽取式摘要:抽取文本信息,嵌入到预定模版中 • 例1 • 分类:对语言行为进行分类 • 抽取最具代表性的短语 • 嵌入模版中 • 例2 • 对词序列建索引 • 抽取频率最高的短语作为摘要
文本挖掘:情感分析 • 基于分类的方法 • 类别:中性,积极,消极 • 特征: • 表情(最直观) • N-gram • Hashtag • Part-Of-speech:(adv + adj) • 二值特征:是否包含链接(中性,非中性) • 分类方法: • SVM • 朴素贝叶斯 • 等等
文本挖掘:情感分析 • 基于词典的方法 • 积极词典、消极词典 • 对每个句子计算得分: • 积极:得分>0 • 中性:得分=0 • 消极:得分<0 • 情感强度分析 • 统计结论 • 在Sina和Twitter上,积极情感多于消极情感 • POS在情感表达中很常见
结构挖掘:链接预测 • 网络结构中,未连接的两点是否会相连 • 应用场景 • 推荐系统:好友推荐,商品推荐 • 生物信息学:预测基因与蛋白质的关系 • 安全领域:犯罪团伙的发现 • 等等 ?
结构挖掘:链接预测 • 结构性的方法 • 局部结构(两个节点的相似性) • 共同邻居的数目 • Jaccard系数 • Preferential attachment(优先连接) • 全局结构 • 传递性
结构挖掘:链接预测 • 随机游走 • 无监督 • 概率: • 有监督 • 结合顶点和边的信息指导随机游走 • 分类方法:预测是否存在链接 • 基于拓扑结构的特征 • 两个节点邻居的总数 • 非拓扑结构特征 • 两个用户兴趣的重叠度 • 基于PageRank思想,把顶点集合分成两个subset(可能链接,不可能链接) lsetps
用户顶点排序 • 用户顶点排序 • 影响力:信息的传播能力 • 可选特征 • 粉丝数 • 转发数 • 被提到的次数 • 链接结构 • 结构洞(意见领袖)
用户顶点排序 • 用户影响力计算 • Degree:节点的度数 • 直接影响力,开销小 • Closeness:与所有其他点的最短距离之和 • 衡量间接影响力,开销大 • Betweenness • 节点处于其他节点最短路径上的能力 • j与k之间最短路径的数目 • j与k之间最短路径,且通过i的数目 • 节点对信息传播的影响 • 时间、空间开销大
用户顶点排序 • 用户影响力计算 • PageRank • 只考虑了节点影响力的传播,未考虑节点自身的特征 • Personalized PageRank • 如:
结构挖掘:顶点排序 • 微博顶点排序 • 根据用户转发该微博的概率,越高,信息越有价值 • 微博的质量 • 作者的权威度 • 微博的可信度 • 应用场景 • 微博推荐 • 用户自身的喜好可作为另一个特征
应用:微博推荐 • 推荐内容 • 推荐内容 • 标签 • 音乐 • 新闻:动态性,时效性 • 微博 • 推荐人 • 朋友
应用:微博推荐 • 推荐技术 • 基于内容 • 协同过滤 • 混合推荐 • 基于内容的推荐 • 根据用户以前喜欢的项目,给用户的阅读偏好建模 • 项目的特征矩阵(内容) • 协同过滤 • 基于近邻的推荐(寻找相似用户;相似Item) • Item-user 评分矩阵 • 基于模型的方法 • 矩阵分解:建立用户和项目两个因子模型 • 概率矩阵分解:用户兴趣和项目主题分布中的不确定性
应用:微博推荐 • 微博推荐新方向 • 社交推荐模型:将社交关系加入到推荐中。 • User-user矩阵,User-Item矩阵,同时进行分解 • 信任关系上的矩阵分解 • 动态推荐:推荐在特定时间内用户感兴趣的主题 • 发现用户兴趣在用户主题上的动态概率分布 • 项目和用户兴趣进行动态匹配 • 实时推荐 • 在线协同过滤,增量式更新近邻的相似度 • 矩阵分解的改进:matrix sketching算法,用于实时推荐中的矩阵近似
微博挖掘挑战 • 微博检索 • 有效特征的选择 • 事件摘要的深度挖掘 • 不仅考虑摘要的覆盖性和多样性 • 产生具有语义结构的代表事件发展的摘要 • 实时事件的深度挖掘 • 大数据分析技术 • 整合流处理/批处理的分布式平台
总结 • 微博特点 • 文本挖掘 • 微博检索 • 微博摘要 • 情感分析 • 结构挖掘 • 链接预测 • 节点排序 • 应用 • 微博推荐 • 挑战