大数据文摘出品

来源:nature

编译:赵吉克、马莉、李雷、钱天培

AI面部情绪识别软件铺天盖地,但心理学家对其根本假设就存有质疑。

我们能否通过面部表情来识别情绪呢?

开心时眉开眼笑,生气时眉头紧皱,吃惊时瞪大眼睛。人类表达情绪的表情似乎虽不完全相同,却也还算整齐划一

这不,许多AI也开始学习如何通过面部表情判断对象的情绪。通过“观看”一张张面部表情的照片,配上情绪的标签,AI就可以相当准确地预测出一张从未出现在训练数据中的人脸的情绪。

然后,再回到最一开始的问题:通过面部表情识别情绪,这件事本身靠不靠谱呢?对于这个问题,心理学家们已经争论了近百年。

2018年,心理学家Rachael Jack和她的同事招募了80人参加一项有趣的测试。

测试者被展示成百上千张人脸。有的睁大眼睛,有的紧闭双唇。有些人眼睛紧闭,脸颊抬高,嘴巴张开。面对每个面孔,他们必须回答这个简单的问题:Ta正在经历性高潮还是突发疼痛

这一测试正式想要探讨一个长期存在且高度敏感的问题:面部表情能如实传达情感吗?

事实上,几十年来,研究人员一直在问人们,他们在别人脸上看到了什么情绪。研究涵盖了来自不同国家的成年人和儿童,以及世界偏远地区的土著居民。

20世纪60年代和70年代,美国心理学家保罗·埃克曼(Paul Ekman)进行了一项颇具影响力的观察,结果表明,在全世界范围内,人们都可以从面部表情相对准确地推断出情绪状态——这似乎意味着情绪表情是普遍存在的。

这些思想在当时没有受到挑战,但新生代心理学家和认知科学家一直在重新审视这些数据,并对结论提出质疑。许多研究人员认为,现实图景比描述的要复杂得多,而且面部表情在不同的语境和文化之间存在很大差异。例如,Jack的研究发现,尽管西方人和东亚人对脸部如何表现痛苦有相似的概念,但他们对快乐的表达有不同的看法。

研究人员对埃克曼的结论有效性的分歧越来越大,但这场辩论并没有阻止公司和政府接受他的说法,即面部表情是情绪的预言。例如,在诸多的西方法律体系中,解读被告的情绪是公平审判的一部分。正如美国最高法院(US Supreme Court)法官安东尼•肯尼迪(Anthony Kennedy)在1992年所写的那样,这样做对于“了解罪犯的内心和思想”是必要的。

解码情绪也是埃克曼为美国运输安全管理局(TSA)设计的培训项目的核心。项目名为SPOT(通过观察技术对乘客进行筛查),目的是教会运输安全管理局的工作人员如何对乘客进行监控,以发现几十种潜在的可疑迹象,这些迹象可能暗示着压力、欺骗或恐惧。该项目于2007年推出,但它受到了科学家、美国国会议员和美国公民自由联盟(American Civil Liberties Union)等组织的广泛批评,称它不准确,存在种族偏见。

这样的担忧同样适用于科技企业的行为。一些公司已经开发了软件来评估求职者的适合程度、检测谎言、让广告更具吸引力,以及诊断从痴呆症到抑郁症的各种疾病。据估计,该行业的价值高达数百亿美元。包括微软(Microsoft)、IBM和亚马逊(Amazon)在内的科技巨头,以及更多的专业公司,如马萨诸塞州波士顿的艾里蒂瓦(affect tiva)和佛罗里达州迈阿密的神经数据实验室(NeuroData Lab),都提供了旨在从面部识别一个人的情绪的算法。

由于研究人员仍在争论人们是否能真实有效地表达或感知情感,许多业内人士认为,让电脑自动表达情感还为时过早——尤其是在这项技术可能产生破坏性影响的情况下。纽约大学的研究中心AI Now研究所甚至呼吁禁止在招聘或执法等敏感场合使用情绪识别技术。

俄亥俄州立大学哥伦布分校研究面部表情的阿历克斯·马丁内斯(Aleix Martinez)说,即使是对人来说,面部表情也极难解读。考虑到这一点,他说,对于自动化的趋势,“我们应当格外谨慎”。

人类表情或许“虚有其表”

人类的脸有43块肌肉,可以拉伸、提升和扭曲成几十种表情。尽管人类活动范围很广,但科学家们长期以来一直认为,某些特定的表情传达了特定的情感。

达尔文是推动这一观点的人之一。他1859年出版的《物种起源》一书,是艰苦野外工作的成果,是观察方面的大师之作。而他的第二部最有影响力的作品,则是《人与动物的情感表达》(1872)。

达尔文注意到,灵长类动物的面部表情看起来也有人类的情绪表达,比如厌恶或恐惧,并认为这些表情一定具有某种适应功能。例如,噘起嘴唇、皱起鼻子和眯起眼睛——一种与厌恶有关的表情——可能是为了保护个体免受有害病原体的侵害。只有当社交行为开始发展时,这些面部表情才会有更多的交流作用。

达尔文的情感专著中有大量的摆姿势的表达,比如这些主题尽力模仿悲伤。

埃克曼在20世纪60年代第一次进行跨文化实地研究支持了这一假设。他测试了全世界范围内6种主要情绪的表达和感知——快乐、悲伤、愤怒、恐惧、惊讶和厌恶,这甚至包括了新几内亚的一个偏远地区。

埃克曼告诉《自然》杂志,他选择这六种表达方式是出于实际原因。他说,有些情绪,如羞愧或内疚,无法明确量化。“我关注的六种情绪确实有表达方式,这意味着它们是可以研究的。

埃克曼说,这些早期的研究证明了达尔文进化论所期望的普遍性。后来的研究也支持了这一观点,即某些面部表情可能具有适应优势。

波士顿东北大学(Northeastern University)研究情绪的心理学家丽莎•费尔德曼•巴雷特(Lisa Feldman Barrett)表示:“长期以来,人们一直认为面部表情是一种必须的动作。”换句话说,我们的脸无法隐藏我们的情绪。这种假设的一个明显的问题是,人们可以伪造情感,可以在不动用面部的情况下体验情感。埃克曼团队的研究人员承认,每种情绪表达的“金标准”可能存在相当大的差异。

但越来越多的研究人员认为,这种差异是如此之大,以至于判断标准都扩展到了临界阈值。这一观点得到了大量文献的支持。几年前,《公共利益心理科学》(Psychological Science in the Public Interest)杂志的编辑们召集了一组意见相左的作者,请他们回顾相关文献。

领导这个团队的巴雷特说:“我们尽了最大的努力把先验知识放在一边,放弃假设,深入研究了数据。当出现分歧时,我们只是扩大了寻找证据的范围。”他们最终阅读了大约1000篇论文。两年半之后,研究小组得出了一个明显的结论:几乎没有证据表明,人们可以从一组面部动作准确推断出他人的情绪状态。

该小组援引了一些研究作为一个极端,这些研究发现面部活动与内在情感状态没有明显关联。英国莱斯特郡德蒙福特大学的心理学家Carlos Crivelli一直研究巴布新几内亚特罗布里恩群岛的居民,在他的研究中没有发现任何支持Ekman结论的证据。Crivelli总结认为,试图通过外部标记来衡量内在精神状态就好比是在用长度来测量质量。

共同表情(universal expressions)缺乏证据支持的另一原因则是面部并不能代表情感的全部。在我们感知和表现情感的过程中,包括肢体语言、性格、语气、肤色变化在内的其他方面也发挥着重要作用。例如,情绪状态的变化会影响血流,从而进一步影响到肤色。Martinez与他的同事已经证明,肤色变化与情绪能够关联起来。视觉环境,例如背景场景,也能提供某些人情绪状态的线索。

从左上开始:篮球运动员Zion Williamson庆贺灌篮;墨西哥球迷庆祝世界杯小组赛胜利;2012年歌手Adele获得格莱美年度最佳专辑;Justin Bieber在墨西哥城音乐会现场叫喊

混合的人类情感导致表情可能重合

其他研究人员认为,对Ekman研究结果的辩论(push-back)有些过热,尤其是Ekman本人。2014年,为了回应Barrett的批评,Ekman明确指出了一系列支持他之前结论的研究工作,包括关于人类自然的面部表情的研究、以及表情与隐藏其下的大脑与身体状态关联性的研究。

他写道,这些工作表明,面部表情不仅传递了个体感情的信息,而且还能提供神经心理激活模式的信息。他说,他的观点没有改变。

加拿大温哥华英属哥伦比亚大学的心理学家Jessica Tracy认为,基于反面例证断定Ekman共同性理论错误的研究者们有些言过其实。她说,在一类人群或一种文化中,理解愤怒的面部表情略有差异并不能推翻整个理论。她引用了将近100项研究的分析结果,发现大部分人在看到一张愤怒的面孔时能识别出来。“大量证据表明,全球大多数文化的大多数人看得出这个表情是共通的。”

Tracy和另外三位心理学家争辩说,Barrett的文献综述讽刺了他们的立场,认为他们是在六种情绪和面部活动间建立一对一的僵化映射。阿姆斯特丹大学的Disa Sauter说:“我所知的情感科学领域的研究人员都不认为是这么回事。

Sauter和Tracy认为,理解面部表情需要建立一个信息丰富的情感分类系统。不能把幸福(happiness)视为单一的情感,研究人员应该对情感类别进行分解,幸福(happiness)项下涵盖了joy(愉悦)、pleasure(满足)、compassion(同情)、自豪(pride)等等。每种情感的表情可能不同,可能重合。

这场辩论的核心是如何定义“显著”。在一项研究中,参与者需要在6个情感标签中为他们看到的每张面孔挑选一个。一些研究人员可能认为,一个标签被选择了超过20%次就代表了显著的共性。其他研究人员或许认为20%比例太低。Jack争辩说Ekman的阈值太低。她阅读了Ekman博士期间的论文。她说,“我一直找我的导师,给他看这些60-70年代的图表,每张图表都表明文化认知的巨大差异。现在仍然没有数据可以表明,情感能被普遍认知。”

除了显著性之外,研究人员对主观性也存在争论。许多研究依赖于测试初始时实验人员贴情感标签,以便于最终结果能够比较。Barrett、Jake和其他研究人员试图寻找更加中立的方法来研究情感。Barrett期望利用生理指标,为愤怒(anger)、恐惧(fear)或愉悦(joy)提供近似表征。Jack利用计算机随机生成的面部表情,而不是利用张贴的照片,以避免固化在常见的六种表情上。其他研究人员要求参与者将面部归入能捕获情感的尽可能多的类别中;或者选择不同文化的参与者,并使用他们自己的语言标记图片。

生物信息学观点:需要更多数据

科技公司常常不允许他们的算法有自由联想的空间。典型的情感识别AI程序需要输入数百万张面部图片和数百小时视频片段,其中每种情绪都做了标注,程序能从中识别模式。

Affectiva声称,它的软件接受了来自87个国家700多万张面孔的训练,准确率达到了90%以上。该公司拒绝评论其算法的底层理论。Neurodata Lab承认,面部表达情绪存在差异,但当一个人某种情绪发作时,出现某些面部形态会更加频繁,他们的算法则考虑了这种共同性。然而,出于对训练算法的数据的顾虑以及学界尚存争论的事实,前述辩论双方的研究人员对这类软件均有质疑。

Ekman说,他已经直接挑战了这些公司的言论。他写信给几家公司(他没有说明是哪几家公司,只说他们是全球最大的几家软件公司),要求查看其自动化技术可行的相关证据,但至今尚未收到回复。他说:“据我所知,他们正在对没有事实根据的东西进行主张。”

Martinez承认,自动情绪检测只能揭示一类人一般的情绪反应。例如,Affectiva面向营销机构销售软件,标榜该软件有助于预测某类客户对一个产品或营销活动的反应。

即使软件犯错,也无关紧要——只是广告宣传可能比预计效果略差一些罢了。但有些算法正应用于对人们生活有重大影响的领域,如工作面试和边境检查。去年,匈牙利、拉脱维亚和希腊试点应用了一个预先筛选旅行者的系统,旨在通过分析脸上的微表情来发现欺诈。

解决情感与表情的辩论需要不同类型的调查。Barrett上个月拜访了微软,并经常要求向技术公司展示她的研究。她认为研究者需要做达尔文撰写《物种起源》时所做的工作:“观察、观察、观察”。观察人们在现实生活中用面部和身体来表达什么,而不仅仅是在实验室观察。利用机器记录和分析现实世界的片段。

Barrett认为,更多的数据和分析技术有助于研究人员发现新东西,而不是要重温陈旧的数据和实验。技术公司们急切地开发着她和许多人日益视为不可靠的科学,因此她向那些技术公司发出了公开挑战。

她说:“我们正站在绝壁上。人工智能公司将继续采纳这些有缺陷的假设,还是去做那些需要做的事呢?

相关报道:

https://www.nature.com/articles/d41586-020-00507-5
Comments are closed.