微软 AI 新技术：让你的头像照片动起来，并有感情地“讲话”

2019-10-09 20:09发布

站内文章 / 后端开发

178 0

狗以群分

女 | 书童

私信

越来越多的研究表明，只要有足够多的语料库，人类的面部动作和语音行为是能够同步的。两年前，卡内基·梅隆大学的研究人员曾发表了一篇论文，叙述了一种将一个人的面部动作转移至另一个人的方法。

而就在今年六月份的时候，三星的应用科学家就介绍了一种端对端的模型，能够将人头部特写中的眉毛、嘴巴、睫毛和脸颊生成动画。仅仅几周后，Udacity 展示了一个可以从音频旁白中自动生成站立演讲视频的系统。

基于前面的研究和工作，微软研究团队在本周提出了一项技术。他们宣称，这一技术能够提升传声头像动画的逼真度。在此之前，头部动画的生成需要清晰，相对无噪声的音频以及中性的音调。而现在，研究人员表示，他们的技术能够将音频序列分解成语音内容和背景噪声等因素，由此可以使用有噪声和“有感情色彩”的数据样本。

雷锋网注：图片来源于 Microsoft

众所周知，语音是具有差异性的。不同的人在不同的环境下使用同一个词，其持续性、振动幅度、语调等等都各不相同。除了语音内容方面，语音自身还承载着丰富的信息，它能够揭示人的情绪状态，身份（性别、年龄、种族）和个性等。

事实上，微软研究人员提出的技术是基于学习潜在显示的变自编码器（雷锋网按：variational autoencode，VAE）。VAE 能够将输入的音频分解成不同的表现形式，包括编码内容、表情以及其它变化的因素，在输入音频的基础上，从分布中采样一些内容表示序列，该序列连同输入的人脸图像一同被馈送到视频生成器进行面部动画处理。

为了训练和测试 VAE，研究人员选取了三个数据集，分别如下：