Status
Tags
URL
分享者
简介
1.性格建模
咨询公司剑桥分析(Cambridge Analytica) 根据斯坦福大学(Stanford University)及剑桥大学(University of Cambridge)心理测量中心(Psychometrics Center)研究人员进行的研究调整了自己的性格建模方法。
研究依赖于Facebook一款名叫myPersonality(我的性格)的应用收集来的数据,这是一套由心理测量中心开发的
100问小测验,可测评一个人的开放性(openness)、严谨性(conscientiousness)、外向性(extroversion)、宜人性(agreeableness)和神经质(neuroticism),这些特征常被学术界以缩写“OCEAN”指代。OCEAN
- 开放性(openness)
- 严谨性(conscientiousness)
- 外向性(extroversion)
- 宜人性(agreeableness)
- 神经质(neuroticism)
2.与点赞列表交叉对照进行预测
研究人员得以对测试结果(OCEAN数值得分)及用户的Facebook“点赞”进行交叉对照,并根据他们在两者之间找到的关联建模。有了这个模型,研究人员往往只需一张他们的“点赞”清单,就能
精准预测后续用户的性格,不需再进行100题测试。3.心理测量中心的研究报告
Michal Kosinski 以 Facebook上的点赞数以及在该平台上接受性格测试的7万多名受访者的Ocean得分为依据。
基于计算机的人格判断比人类的判断更准确
- Wu Youyou
- Michal Kosinski
- David Stillwell
判断他人的性格是成功社会生活的一项基本技能,因为性格是人们互动、行为和情感背后的关键驱动力。
尽管精确的人格判断来源于社会认知技能,但机器学习的发展表明,计算机模型也可以做出有效的判断。
本研究以86220名志愿者为样本,采用100项人格问卷,比较了人格判断和计算机人格判断的准确性。
我们发现:
(i)基于一般数据痕迹的计算机预测比参与者的 Facebook 好友使用个性问卷的预测更准确(r 0.56) ;
(ii)计算机模型显示更高的相互判断一致性;
(iii)计算机个性判断在预测生活结果时有更高的外部效度,如物质使用、政治态度和身体健康; 对于某些结果,它们甚至超过了自我评价的个性分数。
计算机在个性判断方面超过人类,在心理评估、市场营销和隐私方面提出了重大的机遇和挑战。感知和判断他人的人格特质是社会生活的一个重要组成部分。
人们在个人生活和职业生涯中利用个性判断来做日常决定和长期计划
比如和谁交朋友,结婚,信任谁,雇佣谁,或者选举谁当总统。
判断越准确,做出的决定越好。
先前的研究已经表明,人们相当善于判断对方的性格;
例如,即使是完全陌生的人也可以通过观看一个展示行为样本的短视频来做出有效的性格判断。
虽然人们通常认为精确的人格感知来源于人类大脑的社会认知技能
但机器学习和统计学的最新发展表明
计算机模型也能够通过使用人类行为的数字记录作出有效的人格判断。
然而,计算机和人类判断的相对准确性仍然是未知的; 这项研究弥补了这一差距。
人格特质,像许多其他心理维度一样,是潜在的,不能直接测量;
关于判断准确性的评价标准存在不同的观点。
我们采用了现实主义的方法,假设人格特质代表真实的个人特质
人格判断的准确性可以用三个关键标准来衡量: 自我与他人一致性,相互判断一致性,和外部效度一致性。
我们将这些基准应用于86,220名志愿者,
他们填写了100项国际人格项目池(IPIP)五因素人格模型问卷,
测量开放性、尽责性、外向性、随和性和神经质的特质。
研究人员对70520名参与者进行了基于 Facebook like 的电脑人格判断。
Facebook like以前被证明成功地预测人格和其他心理特征。
我们使用 LASSO (最小绝对收缩和选择算子)线性回归和10倍的交叉验证,
所以每个参与者的判断是使用不同的参与者和他们的喜好的子样本开发的模型。
Facebook like 被 Facebook 用户用来表达积极的联想与在线和离线对象,
如产品,活动,运动,音乐家,书籍,餐馆,或网站。
考虑到可被喜欢的对象、主题、品牌和人物的多样性以及 Facebook 的用户数量(13亿) ,
喜欢代表了最普通的数据痕迹。
例如,喜欢一个品牌或产品可以代表消费者的偏好和购买行为;
与音乐相关的喜欢可以显示音乐的品味;
喜欢网站可以模拟网页浏览行为。
因此,基于类似的模型提供了一个很好的代理,可以实现基于广泛的其他数字足迹,
如
网页浏览日志,网页搜索查询,或购买记录。人格判断是从参与者的 Facebook 好友那里获得的,
他们被要求描述一个特定的参与者,使用10项版本的 IPIP 人格测量。
为了计算自我-他人协议和外部效度,我们使用了由一个朋友评判的17,622名参与者的样本;
为了计算相互评判协议,我们使用了由两个朋友评判的14,410名参与者的样本。
下图给出了说明这些方法的示意图。

用于获得基于计算机的判断和估计自我-他人协议的方法学。
参与者和他们的喜欢被表示为一个矩阵
其中如果参与者和 Like 之间存在关联,则项被设置为1,否则为0(第二个面板)。
这个矩阵被用来拟合5个 LASSO 线性回归模型,每个模型对应一个自我评定的大五人格特质(第三组)。
为了避免过度拟合,应用了一个10倍的交叉验证模型:
样本被随机分成10个相等大小的子集;
9个子集被用来训练模型(步骤1) ,然后应用于剩余子集来预测人格分数(步骤2)。
这个过程重复10次,以预测整个样本的性格。
这些模型是建立在至少有20个赞的参与者之上的。
为了估计小于20个赞的准确性,我们将回归模型应用于所有参与者的1-19个赞的随机子集。
4.研究结果
下图中显示的结果表明
计算机的平均准确性跨越五大特征(红线)稳步增长的喜欢的数量可用的参与者的个人资料(x 轴)。
在目前的样本中,计算机模型只需要100个 like 就可以胜过一般的人类判断(r 0.49; blue point)。
与荟萃分析报告的各种人类判断的准确性相比,计算机模型分别需要10个、70个、150个和300个赞
才能胜过一般的工作同事、同居或朋友、家庭成员和配偶(灰点)。
计算机为基础的人格判断准确性(y 轴) ,
绘制与可用于预测的喜欢数量(x 轴)。
红线代表计算机判断五种人格特质的平均准确性(相关性)。
人类判断的五特征平均准确度定位在计算机准确度曲线上。
例如,一个普通的人类个体(r0.49)的准确性与基于90-100个赞的计算机模型的准确性相匹配。
计算机的精度曲线是平滑使用 LOWESS 的方法。
灰色带子代表95% 的可信区间。
精度平均使用费雪的 r-to-z 变换。

根据3.2万多名接受该模型以及一两位好友评估的参与者的样本,研究人员发现,
通过分析仅仅
10个点赞得出的模型比同事的评估更准确。对
70个点赞的分析比朋友或室友的评估更准确;对
150个点赞的分析比家庭成员的判断更准确;对
300个点赞的分析比配偶的判断更准确。对于一个普通人来说,计算机的精确度有多高?
我们最近估计每个人点赞的平均次数为227次(95% CI 为224,230次) ±
这个数字的预期计算机准确度等于 r 0.56。
这种准确性明显优于普通人类法官(z 3.68,p 0.001) ,
与普通配偶、
最好的人类法官(r 0.58,z-1.68,p 0.09)相当。
在这项研究中观察到的计算机性能的峰值达到了0.66,对于那些拥有超过500个赞的参与者。
喜欢的数量和计算机准确性之间的近似对数线性关系表明,增
加信号的数量超过这项研究可以进一步提高准确性,虽然增益预计会减少。
Why are Likes diagnostic of personality?
通过对某一特征的喜欢程度进行分析,可以发现它们代表的活动、态度和偏好与五大理论高度一致。
例如,经验开放性高的参与者倾向于喜欢 Salvador dal,冥想,或者 TED 演讲;
外向性高的参与者倾向于参加聚会,Snookie (真人秀明星) ,或者跳舞。
基于喜好的模型对某些性状的诊断效果比其他性状更好。
特别是高精度的开放性被观察到---- 一个众所周知的由于低可观察性而难以判断的特点。
这一发现与之前的研究结果一致
即陌生人的个性判断,基于数字足迹,比如个人网站的内容 ,在开放的情况下尤其准确。
由于开放性很大程度上是通过个人的兴趣、偏好和价值观来表达的,
我们认为数字环境提供了大量以高度可观察的方式呈现的相关线索。
该模型尤其擅长“预测物品使用、政治态度和身体健康状况等生活结果”
“心理学”档案,可以预测每个美国成年人的个性和隐藏的政治倾向。

预测13个生活结果和以前被证明与性格有关的特征:
生活满意度、抑郁、政治取向、自我监控、冲动、价值观、轰动兴趣、研究领域、物质使用、身体健康、社会网络特征和 Facebook 活动


在13项标准中的12项中,计算机判决的外部效度高于人类法官(生活满意度除外)。
此外,在13个标准中的4个方面,计算机模型的外部效度甚至比自我评价的性格更好:
Facebook 活动、物质使用、研究领域和网络规模;
以及在预测政治态度和社交网络特征方面的可比性。
因为大多数的结果变量都是自我报告,所以人格自我评估的高外部效度是可以预期的。
因此,令人吃惊的是,基于赞的判断仍然更好地预测变量
如研究领域或自我评定的物质使用,尽管他们分享更多的方法差异与自我评定的人格。
此外,基于计算机的模型旨在预测人格分数,而不是生活结果。
事实上,基于喜欢的模型,直接针对预测这些变量,可以达到更高的准确度
人格判断和自我评价在生活结果范围内的外部效度,表现为相关性(连续变量; 上位变量)或 AUC (二分变量; 下位变量)。
红色、黄色和蓝色条分别表示自我评价、人类判断和计算机判断的外部效度。
例如,自我评分允许预测网络大小的准确度为 r0.23,
人类判断的准确度为 r0.17(比自我评分低0.06) ,
而基于计算机的判断的准确度为 r0.24(比自我评分高0.01)。
复合变量(即代表少数子变量平均精度的变量)用星号标记; 详细结果见表 S4。
结果是按照计算机的准确性排序的。
我们的研究结果表明,在人格判断这一核心社会认知任务中,基于计算机的模型要比人类精确得多。
基于计算机的判断(r0.56)与参与者的自我评价的相关性高于人类的平均判断(r0.49)。
此外,计算机模型显示出更高的相互判断一致性和更高的外部效度(基于计算机的人格判断比人类判断更能预测生活结果和其他行为相关特征)。
计算机模型的复杂性和数据痕迹的数量的潜在增长可能导致计算机模型的性能甚至超过人类。
根据现实准确性模型,人格判断的准确性取决于相关行为信息的有效性和数量,以及法官正确检测和使用这些信息的能力。
这种概念化揭示了计算机相对于人类的一些主要优势。
首先,计算机具有存储大量信息的能力,这是人类难以保存和访问的。
其次,计算机使用信息的方式(通过统计建模)产生了一致的算法,优化了判断的准确性,而人类则受到各种动机偏见的影响。
尽管如此,人类感知的优势在于它具有灵活性,能够捕捉到许多机器无法捕捉到的潜意识线索。
因为五大性格特征只代表人类性格的某些方面,人类判断可能仍然能够更好地描述需要微妙认知或在数字行为中不那么明显的其他性格特征。
我们的研究是有限的,人类法官只能描述参与者使用10个项目长的问卷大五特征。
事实上,他们可能比问卷中评估的知识更多。
自动、准确、廉价的性格评估工具可以在许多方面影响社会:
营销信息可以针对用户的性格进行量身定制;
招聘人员可以根据求职者的性格更好地匹配他们的工作;
产品和服务可以调整他们的行为,以便最好地匹配用户的性格和变化的情绪;
科学家可以收集性格数据,而不。
此外,在未来,人们可能会放弃自己的心理判断,依靠电脑来做出重要的人生决定,比如选择活动、职业道路,甚至是恋爱对象。
这种数据驱动的决策有可能改善人们的生活。
