1 / 25

微 博挖掘综述

微 博挖掘综述. 报告人:王菁菁 2014.4.23. 大纲. 微 博特点 文本挖掘 微 博检索 微 博摘要 情感分析 结构挖掘 链接预测 节点排序 应用 微 博推荐 挑战. 微 博特点. 内容特点 短文 本性:小于 140 个文字 Hashtag: # topic # 结构特点 幂律 分布: follower,followee 传播即时 : 可以通过 Web,WAP 各种客户端发送 结构 洞: 1% 的用户控制 25% 的信息传播 用户特点 用户发文:广播,分享信息 交友模式:关注有相同兴趣爱好的用户. 文本挖掘:微博检索.

Download Presentation

微 博挖掘综述

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 微博挖掘综述 报告人:王菁菁 2014.4.23

  2. 大纲 • 微博特点 • 文本挖掘 • 微博检索 • 微博摘要 • 情感分析 • 结构挖掘 • 链接预测 • 节点排序 • 应用 • 微博推荐 • 挑战

  3. 微博特点 • 内容特点 • 短文本性:小于140个文字 • Hashtag: #topic# • 结构特点 • 幂律分布:follower,followee • 传播即时: 可以通过Web,WAP各种客户端发送 • 结构洞:1%的用户控制25%的信息传播 • 用户特点 • 用户发文:广播,分享信息 • 交友模式:关注有相同兴趣爱好的用户

  4. 文本挖掘:微博检索 • 检索:根据用户提交的查询返回相关的微博 • 检索内容 • 动态信息:事件检索 • 人 • Hashtag、救援事件、跨社交媒体检索等 • 与其他技术结合 • 聚类分析:分面搜索 • 事件检测、摘要技术:结果展示

  5. 文本挖掘:微博检索 • 检索两大关键技术 • 索引 • 排序 • 索引 • TI:实时索引 • Pollux:分布式可扩展实时索引

  6. 文本挖掘:微博检索 • 排序特征选择 • 文本特征:TF-IDF • 相关性 • 发表时间:时效性的最有效特征 • 微博质量: 例如,有趣性 • 可信度 • 用户影响力

  7. 文本挖掘:微博摘要 • 话题摘要:一个话题的文档集合摘要,能代表话题的核心语义 • 事件检测内容 • 发现新兴爆发的主题 • 持久讨论的事件 • 特定的事件 • 事件检测的方法 • 聚类:对关键词聚类、社团聚类

  8. 文本挖掘:微博摘要 • 摘要的类别 • 对事件的描述 • 观点摘要:对一个实体的观点倾向 • 多微博文本摘要:timeline摘要,如体育比赛的进程 • 摘要方法 • 抽取式摘要 • 生成式摘要

  9. 文本挖掘:微博摘要 • 抽取式摘要方法 • 对每个子句评分,选取得分的top-k的子句作为摘要 • 矩阵分解SVD,选择排序较高的子句 • 构建词--句子矩阵A,矩阵的元素是每个词在句子中出现的次数 • SVD: • 最终选择向量中值比较大的句子作为摘要。 • 聚类(SNMF)  聚类中心 • 实时摘要系统:增量式的聚类,抽取质心 • 数据重构,选出的摘要可以最大限度地还原原始数据。 子句的重要性

  10. 文本挖掘:微博摘要 • 抽取式摘要:抽取文本信息,嵌入到预定模版中 • 例1 • 分类:对语言行为进行分类 • 抽取最具代表性的短语 • 嵌入模版中 • 例2 • 对词序列建索引 • 抽取频率最高的短语作为摘要

  11. 文本挖掘:情感分析 • 基于分类的方法 • 类别:中性,积极,消极 • 特征: • 表情(最直观) • N-gram • Hashtag • Part-Of-speech:(adv + adj) • 二值特征:是否包含链接(中性,非中性) • 分类方法: • SVM • 朴素贝叶斯 • 等等

  12. 文本挖掘:情感分析 • 基于词典的方法 • 积极词典、消极词典 • 对每个句子计算得分: • 积极:得分>0 • 中性:得分=0 • 消极:得分<0 • 情感强度分析 • 统计结论 • 在Sina和Twitter上,积极情感多于消极情感 • POS在情感表达中很常见

  13. 结构挖掘:链接预测 • 网络结构中,未连接的两点是否会相连 • 应用场景 • 推荐系统:好友推荐,商品推荐 • 生物信息学:预测基因与蛋白质的关系 • 安全领域:犯罪团伙的发现 • 等等 ?

  14. 结构挖掘:链接预测 • 结构性的方法 • 局部结构(两个节点的相似性) • 共同邻居的数目 • Jaccard系数 • Preferential attachment(优先连接) • 全局结构 • 传递性

  15. 结构挖掘:链接预测 • 随机游走 • 无监督 • 概率: • 有监督 • 结合顶点和边的信息指导随机游走 • 分类方法:预测是否存在链接 • 基于拓扑结构的特征 • 两个节点邻居的总数 • 非拓扑结构特征 • 两个用户兴趣的重叠度 • 基于PageRank思想,把顶点集合分成两个subset(可能链接,不可能链接) lsetps

  16. 用户顶点排序 • 用户顶点排序 • 影响力:信息的传播能力 • 可选特征 • 粉丝数 • 转发数 • 被提到的次数 • 链接结构 • 结构洞(意见领袖)

  17. 用户顶点排序 • 用户影响力计算 • Degree:节点的度数 • 直接影响力,开销小 • Closeness:与所有其他点的最短距离之和 • 衡量间接影响力,开销大 • Betweenness • 节点处于其他节点最短路径上的能力 • j与k之间最短路径的数目 • j与k之间最短路径,且通过i的数目 • 节点对信息传播的影响 • 时间、空间开销大

  18. 用户顶点排序 • 用户影响力计算 • PageRank • 只考虑了节点影响力的传播,未考虑节点自身的特征 • Personalized PageRank • 如:

  19. 结构挖掘:顶点排序 • 微博顶点排序 • 根据用户转发该微博的概率,越高,信息越有价值 • 微博的质量 • 作者的权威度 • 微博的可信度 • 应用场景 • 微博推荐 • 用户自身的喜好可作为另一个特征

  20. 应用:微博推荐 • 推荐内容 • 推荐内容 • 标签 • 音乐 • 新闻:动态性,时效性 • 微博 • 推荐人 • 朋友

  21. 应用:微博推荐 • 推荐技术 • 基于内容 • 协同过滤 • 混合推荐 • 基于内容的推荐 • 根据用户以前喜欢的项目,给用户的阅读偏好建模 • 项目的特征矩阵(内容) • 协同过滤 • 基于近邻的推荐(寻找相似用户;相似Item) • Item-user 评分矩阵 • 基于模型的方法 • 矩阵分解:建立用户和项目两个因子模型 • 概率矩阵分解:用户兴趣和项目主题分布中的不确定性

  22. 应用:微博推荐 • 微博推荐新方向 • 社交推荐模型:将社交关系加入到推荐中。 • User-user矩阵,User-Item矩阵,同时进行分解 • 信任关系上的矩阵分解 • 动态推荐:推荐在特定时间内用户感兴趣的主题 • 发现用户兴趣在用户主题上的动态概率分布 • 项目和用户兴趣进行动态匹配 • 实时推荐 • 在线协同过滤,增量式更新近邻的相似度 • 矩阵分解的改进:matrix sketching算法,用于实时推荐中的矩阵近似

  23. 微博挖掘挑战 • 微博检索 • 有效特征的选择 • 事件摘要的深度挖掘 • 不仅考虑摘要的覆盖性和多样性 • 产生具有语义结构的代表事件发展的摘要 • 实时事件的深度挖掘 • 大数据分析技术 • 整合流处理/批处理的分布式平台

  24. 总结 • 微博特点 • 文本挖掘 • 微博检索 • 微博摘要 • 情感分析 • 结构挖掘 • 链接预测 • 节点排序 • 应用 • 微博推荐 • 挑战

  25. 谢谢

More Related