亚马逊正在使用神经网络和自然语言模型来改善Alexa的说话风格,为其赋予新的声音,甚至注意到用户对此不满意。
亚马逊在周三宣布了一大批新产品,这再次表明,它希望将其Alexa数字助理扩展到尽可能多的消费技术类别,不仅是智能扬声器,还包括从耳塞,眼镜到戒指的一切商品。但是在西雅图的公告中还融入了另一个故事情节。越来越多的人工智能,特别是自然语言AI正在以更多方式进入Alexa。
首先,亚马逊表示,在将文本(例如您的短信)转换为语音时,一直在使用神经网络使Alexa的声音听起来更人性化。负责Alexa机器学习和人工智能的负责人Rohit Prasad告诉我,这项技术使亚马逊采取了完全不同的方法来生成语音。
过去,Alexa的算法将语言分解为单词部分或人声,然后尝试尽可能平滑地将它们串在一起。但是,这听起来总是有些动荡和机器人化。Prasad说,现在,亚马逊正在使用可以实时生成整个文本句子的神经网络。这样会产生声音更流畅,更人性化的声音。(Apple的Siri和Google的Assistant最近也通过类似的方式发出了更自然的声音。)
正是这种自然语言建模很快将为Alexa带来完全不同的声音。亚马逊表示,它将从名人开始,萨玛莉·杰克逊(Samual L. Jackson)是第一位。亚马逊将从今年晚些时候开始销售杰克逊·亚历山大(Jackson-as-Alexa)的附加服务。
亚马逊的杰克逊语音至少部分是由自然语言模型驱动的。该模型从杰克逊的声音中学习(他在录音室录制了许多样本),以模仿他独特的语气,同时提供助手通常会提供的答案和信息。但是亚马逊还“整理”了一套完整的杰克逊讲话供助手在适当的时候使用。
杰克逊可能只是亚马逊提供的许多名人声音中的第一个,以替代标准Alexa声音。(与此同时,由于使用AI合成声音方面的进展,Google 于今年初让John Assistant 像John Legend一样进行了交谈。)
会说话的门铃
亚马逊还在其Ring Doorbell cams中添加了一些机器学习技巧。亚马逊在一项名为“ Doorbell Concierge”的新服务中,这些设备将很快能够检测到各种未经事先通知就出现在前门的人。我看到的演示针对三种访客:一个提供包裹的家伙,一个卖饼干的女童军和一个身份不明的男子。魔戒让他们所有人进行了简短的对话,以找出他们想要的东西,而后台的神经网络使用他们所说的话来确定他们是什么样的呼叫者。它仅根据他们说的内容执行此操作,而不是根据相机图像执行此操作。然后,分类通知Ring设备对每个设备说些什么。例如,在询问送货员是否需要签名后,它告诉送货员将包裹放在何处。
环视频门铃。[照片:由Ring提供)新的“礼宾服务”功能尚未完全投放市场。发布后,它可能会识别出一小部分类型的呼叫者。但是那一套可能会增长。
ALEXA在听
去年,亚马逊扩大了Alexa的听证会,以发现的不仅是人工命令。作为其Guard家庭安全模式的一部分,Echo扬声器中使用的灵敏麦克风阵列开始监听玻璃破碎的声音,并且当没有人在家时会发出烟雾警报。现在,当Guard设置为“离开”模式时,亚马逊增加了在家中收听与人类相关的声音的功能。这些声音包括脚步声,咳嗽声和本来应该没有人在家时关门的声音。如果Alexa检测到这些声音之一,则可以向用户发送警报。
在所有这些情况下,深度学习模型都是从麦克风获取音频输入并标记潜在的危险声音。亚马逊可以训练助手听许多其他类型的声音。例如,Alexa设备可以开始聆听老年人居住的地方的跌倒声或呼吸困难的声音。亚马逊是否朝这个方向发展是每个人的猜测,但是该公司正在稳步增加Alexa可以听的东西这一事实可以说明。
亚马逊的新Echo Dot也是一个时钟。[照片:Amazon.com,Inc.]
听力沮丧
自然语言研究中的一个相对较新的领域是使用神经网络通过单词和语调检测情感。亚马逊一直在关注与Alexa交谈的人们的沮丧之声。当检测到沮丧时,Alexa可能会得出结论,即给出了用户不喜欢的答案,然后寻找另一种答案。普拉萨德说,亚马逊有一套自己的听起来沮丧的人的录音记录,用来训练神经网络。
但这是一个难题。助手必须在检测到沮丧的人后知道如何应对。而且,如果在提供答案时又花了点时间,则助手最好确定第二个答案是有用的。有时候助手不得不说“对不起,我没有答案。”
Prasad说:“我们开始尝试这些不同的响应方式,一旦启动,您将看到许多不同的口味。”
这种情绪意识很可能会开始出现在许多助手中。任何助手都应该能够知道什么时候做错了什么,并能够打开反馈循环以便变得更好。
沮丧检测功能可能会在明年的Alexa中出现。