150 likes | 322 Views
Predicting Personality with Social Media. Jennifer Golbeck Cristina Robles Karen Turner. 社交媒体. 社交媒体( social media )也称为社会化媒体、社会性媒体,指允许人们撰写、分享、评论、讨论、相互沟通的网站和技术。 社交媒体的特点: 人数众多; 自发地传播。. 社交媒体. 社交网络在近几年发展及其迅速 2005 年 1 月 所有社交网络 115 万会员 2010 年 Facebook 500 万会员
E N D
Predicting Personality with Social Media Jennifer Golbeck Cristina Robles Karen Turner
社交媒体 • 社交媒体(social media)也称为社会化媒体、社会性媒体,指允许人们撰写、分享、评论、讨论、相互沟通的网站和技术。 • 社交媒体的特点: • 人数众多; • 自发地传播。
社交媒体 • 社交网络在近几年发展及其迅速 • 2005年1月 所有社交网络115万会员 • 2010年 Facebook500万会员 • 2012年 新浪微博注册用户突破3亿,日活跃用户比例为9%,每日发博量超过1亿条 • 用户的个人主页上包含了大量用户个人信息
研究意义 • 社交网络可以利用这种关联关系向用户提供个性化的推荐,如推荐书籍与朋友 • 社交网络还可将这个结论推广到商业化应用:比如针对特定用户群体的广告投放 • ……
性格特点 • 随和型--乐于助人,能够与他人合作,体谅他人 • 谨慎型--严格自律,有组织意识,目标明确 • 外向型--社交能力较强,自信、健谈 • 神经过敏型--情感控制能力差,冲动、焦虑 • 开放型--求知欲较强而且喜欢新鲜事物
数据收集 • 1.大五人格量表调查 • 调查人数:279人,其中 167份可用结果 • 2.收集Facebook上任何可以收集的资料共161项 • 结构特征 • 个人信息 • 增加新字段表示以上信息是否为空 • 例如,111/279人列了宗教信仰 • 活动和爱好 • 语言特点—利用语言学来分析个性 • 由About Me、twitter等 • 新增项目来表明每个条目的长度 • Facebook上内置的统计数值
数据收集 基本统计 • 167份可用调查 • 年龄:平均年龄为31.2岁(标准差为8.7) • 性别:68名女性,61名男性,38名未标明性别 • 国籍:138名(82.6%)美国人,8名印度人,7人澳大利亚人,7名意大利人,7名其他
性格与个人主页的相关分析 表2 个性特征得分与个性量表得分相关性
性格与个人主页的相关分析 • 用户的个人主页的特征与量表评分成弱相关 • 谨慎型 • 与语言学分析相关性最大 • 说粗口的频率与谨慎性呈负相关(ρ = 0.171). • 描述认知过程的词频率(听到、看到、感觉到)与谨慎性也呈负相关(ρ = -0.195 and -0.227) • 描述社会状态及人的词与谨慎性呈正相关(ρ = 0.264、ρ = 0.203) • 随和型 • 与描述情感的词相关性最大 • 普通情感及积极情绪描述词(ρ= 0.203 and 0.167)
性格与个人主页的相关分析 • 神经质型 • 与描述焦虑的词相关性最大(ρ = 0.192) • 名字长度(ρ = 0.184)--名字的拼写错误可能引起一个人的不安和焦虑 • 外向型 • 拥有更多的朋友,但他们的关系网密度更稀疏 • 描述活动的词与外向型的相关性最大(ρ = 0.186) • 开放型 • 关系网密度也较为稀疏 • 书籍收藏列表的长度与开放型相关性最大(ρ = 0.158)
性格与个人主页的相关分析 • T检验:用于小样本(样本容量小于30)的两个平均值差异程度的检验方法。 • 比较计算得到的t值和理论T值,推断发生的概率,依据下表给出的T值与差异显著性关系表作出判断。
性格与个人主页的相关分析 • 表明了谨慎型、外向型和神经质型的女性比男性更多 • 发现有公布博客等URL信息的人比不公布的更开放
个性预测 • 工具:Weka • 算法:M5 Rules 和Gaussian Processes • 分析内容: • 个人主页可用特征值得分与人格量表得分相关性分析
个性预测 表明了利用M5规则分析有较大的相关系数 表4 对每种性格预测值的相关系数和平均绝对误差