近日,亚马逊在GitHub上发布了超470万单词21万句子的语料库,并声称这个数据集支持“高质量”和“可重复”的对话系统研究,将成为研究界公开可用的最大的基于知识的社交对话数据集。
GitHub:
https://github.com/alexa/alexa-prize-topical-chat-dataset/
Amazon Alexa
早在今年4月,亚马逊就宣布向参加Alexa Prize Socialbot Grand Challenge竞赛的团队发布其对话数据集。
此次亚马逊发布的数据集中,每个语料库的对话和对话轮次与提供给众包工作者的知识相关联,并且所述知识是从与一组实体相关的一系列“非结构化”和“松散结构化”的文本资源中收集的。
亚马逊高级首席科学家Dilek Hakkani-Tur在博客文章中明确表示,没有任何语料是从与Alexa客户的互动中收集的。
该数据库是实现基于知识的神经反应生成系统的后续研究,解决其他公开数据集无法解决的自然对话中的难题。
这将使研究者可以专注于研究对话中主题和知识选择方面的转换,以及如何在对话中融入事实和观点
为了编译语料库,Hakkani-Tur和同事从与Alexa Prize聊天机器人的对话中经常出现的8个不同主题类别中,确定了300个命名实体。
根据这些实体在信息源中的共存情况,将它们分组为三个组,对于集群中的每个实体,收集多个附加信息源,并根据每个群集进行划分。
然后,这些数据被传递给亚马逊Mechanical Turk的众包工人,他们有时会收到相同的信息,有时只获得其中一部分信息。
Alexa AI团队有时会对数据进行分割,以便匹配的工作人员获得补充知识。
为了构建主题聊天数据集,通过Mechanical Turk招募的工作人员参与即时消息对话(右),他们使用从非结构化或松散结构化资源(左)的集合中提取的信息来支持他们的观点。
按照研究人员的指示,这些工作人员就收到的知识进行即时通讯对话。
对于收到的每条信息,他们都被要求指出信息的来源,并衡量收到信息的情绪(例如,快乐、悲伤、好奇、恐惧等等),他们还被要求评估聊天伙伴的质量(例如,以及他们是否适合交谈)。
接下来,通过手动和自动审查相结合的方式减少了对话。
“希望这将使研究人员能够关注人类在话题、知识选择和知识丰富之间的转换,以及将事实和观点融入对话中的方式,并支持出版高质量、可重复的研究成果,”Hakkani-Tur说。