你走路的样子很能说明你在任何时刻的感受。例如,当你感到压抑或沮丧时,你更有可能耷拉着肩膀,而不是感到满足或沮丧。查珀尔希尔大学(University of Chapel Hill)和马里兰大学(University of Maryland)的研究人员利用这一躯体词汇,最近研究了一种机器学习方法,这种方法可以从一个人的步态中识别出他所感知到的情绪、价码(例如,消极或积极)和觉醒(平静或充满活力)。研究人员称,这种方法在初步实验中取得了80.07%的准确率。
“情感在我们的生活中扮演着重要的角色,定义着我们的经历,塑造着我们看待世界和与他人互动的方式,”合著者写道。“由于感知情感在日常生活中的重要性,自动情感识别在许多领域都是一个关键问题,比如游戏和娱乐、安全和执法、购物、人机交互和人机交互。”
研究人员选择了四种情绪——快乐、悲伤、愤怒和中性——作为他们“持续很长一段时间”的倾向和他们“丰富”的步行活动。然后,他们从多个步行视频语料库中提取步态,在使用三维姿态估计技术提取姿态前识别情感特征。最后,他们利用长短时记忆(LSTM)模型——能够学习长期依赖关系——从姿态序列中获得特征,并将其与随机森林分类器(该分类器输出多个独立决策树的平均预测)相结合,将例子分类为上述四种情绪类别。
这些特征包括肩膀姿势、连续步数之间的距离以及手和脖子之间的区域。头部倾斜角被用来区分快乐和悲伤的情绪,而更紧凑的姿势和“身体扩张”分别识别积极和消极的情绪。至于唤醒,科学家们注意到它往往与增加的运动相对应,该模型考虑了速度、加速度的大小,以及手、脚和头部关节的“运动抖动”。
人工智能系统处理了来自“情感漫步”(Emotion Walk,简称EWalk)的样本。EWalk是一组包含1384个步态的新数据集,这些步态是从24名受试者在大学校园内外散步的视频中提取的。大约有700名来自亚马逊土耳其机械公司的参与者给情绪贴上标签,研究人员用这些标签来确定情绪的价码和兴奋程度。
在测试中,研究小组报告说,他们的情感检测方法比最先进的算法提高了13.85%,比不考虑情感特征的“普通”LSTMs提高了24.60%。这并不是说它是万无一失的——它的精度在很大程度上取决于三维人体姿态估计和步态提取的精度。但尽管有这些局限性,他们相信,他们的方法将为涉及更多活动和其他情感识别算法的研究提供强有力的基础。
“我们的方法也是第一个利用最先进的3D人体姿态估计技术,为行走视频中的情绪识别提供实时通道的方法,”合著者写道。“作为未来工作的一部分,我们希望收集更多的数据集,并解决(这些限制)。”