ACL 2018 Long Papers
维基百科上的协商策略建模
Modeling Deliberative Argumentation Strategies on Wikipedia
公立包豪斯学校
Bauhaus-UniversitätWeimar Webis Group
本文是公立包豪斯学校发表于ACL 2018 的工作,作者研究了如何论证通过计算支持协商策略建模,最终的目标是预测每个参与者最好的下一步决策。本文提出了一个建模讨论的模型,并说明了它的运作方式。以前的模型一直都是基于小组讨论手动构建,从而产生一定程度的抽象,但这不适合策略推荐。相比之下,我们从几种类型的元数据中统计得出我们的模型可用于策略推荐。我们使用来自维基百科的六百万次讨论谈话页面,我们的方法模型有三个维度的13个类别:discourseacts, argumentative relations, frames。在此基础上,我们自动进行生成一个大约20万的语料库,标有13个类别。然后我们用三个有监督分类器并证明可以获得有效的分类。
引言
协商是从一组可能的行为中进行最优选择的讨论,例如协作写作。但协商并不总会成功,可能会在错误的地方达成一致,或者根本无法达成一致。良好的策略可以使得讨论走向成功的地方,因此每个参与者应当明白讨论当前所述的状态,并提出最适合讨论的下一个协商策略。对于新加入的人,这些需要大量的时间和精力,尤其当讨论牵涉到大量过往的内容和冲突时。现有的模型给予的讨论规模太小,限制了其应用场景。为克服限制,作者基于大规模讨论,也就是维基百科讨论页面上的元数据。维基讨论页面如下图所示。
已经有多项研究从不同角度解决了维基百科协商讨论建模的问题。中心目标是最小化讨论参与者们所做的协调努力。Ferschkeet al. (2012) 已经提出了一种对4类17个对话行为的建模。然而,这些研究对小样本建模是有局限性的,它们覆盖率太低而且过于抽象,也就是会存在标签“其他”。相比之下,我们推导出模型的方法使用数以千计的不同“描述”。由众多维基百科用户撰写的动作在我们看来,更有可能给出一个代表性的描述,说明人们如何在审议中争论讨论。另一方面,这不仅可以提高覆盖率,也能够更好的抽象。
模型
作者对网络上的元数据的处理总体分为四步:元数据检查(包括检查使用到的元数据以及其功能)、概念聚类(聚类相似的元数据并将其映射到相应的概念上去)、概念分类(相似的概念被映射到定义好的类别集合上)、类别成分(不同类别间可能的重合部分应当被识别出来)。根据维基百科的管理政策,用户们可以讨论如何提升文章质量。用户写的一条评论称为一个回合,它可以是对主话题的回复,也可以是对其他用户的回复。因此处理数据要做以下几步:提取谈话页面,提取讨论,结构识别,回合元数据识别。
解析过程的结果是大规模的维基百科讨论语料库。特别是我们创建的Webis-WikiDiscussions-18语料库包含大约六百万个讨论,包括大约2000万回合。回合包括大约74,000种不同的标签,总共约100,000实例,约7000个不同的捷径包括400,000个实例,大约51,000个不同的内联模板,大约330万个实例。一半的回合是由注册的用户产生。下表列出了确切的分类计数。
从上面获得元数据中生成协商讨论模型主要有以下几个步骤:
元数据检查:如前所述,维基百科的一个回合包括最多四种类型元数据:用户标记,快捷方式,内联模板和外部链接。用户标签是讨论参与者用于描述或总结其贡献的简短文本;快捷方式是缩写文本链接,可将用户重定向到维基百科上的某个页面;内联模板是已经被创建好的Wikipedia页面,它被包含其他页面中;外部链接最终指向维基百科之外的网页。
概念聚类:对用户标签,我们探索了至少发生35次的所有376个标签。如前所述,标签可以被视为描述标签的关键字回合。通常,不同的标签指的是相同的概念,例如,“结论”,“摘要”和'整体'都捕捉到'总结'的概念,即,各部分的主要功能是总结讨论,最终我们确定了32个类。对快捷方式,我们探索了所有99个至少发生900次的快捷方式。因为快捷方式本身并没有描述回合,这些蕴含在提到的政策页面,所以我们通过阅读第一段来分析这些页面并通过检查它们与页面的关系来确定我们之前讨论过的五个快捷类别(例如,'行为的')。对内联模板:我们对此类型的调查只引出了我们之前已经发现的概念,对于标签和快捷方式,例如“陈述事实”。对外部链接,与模板类似,我们在链接中确定了我们也观察到的概念标签,例如“提供来源”。
概念分类:我们可以将用户标签分为六个我们称之为“话语行为”的类别,包括社交(与社交互动相关的所有概念,例如感谢,道歉或欢迎其他用户)、提供证据(所有关于的提供证的概念,证据可能是以引用的形式,例子,事实,引用,来源和类似的内容)、增强理解(帮助用户理解所讨论的话题或是讨论本身)、推荐行为(提议为讨论增加一个新的角度)、提问题、结束讨论(关于讨论的决议的概念)。
类别组成:对于这些类别,我们研究了它们之间的相互作用。例如,在20个讨论,看是否类别是正交的。我们发现每个回合在同一时间可能有一个话语行为,一个关系和一个框架。例如,某个回合可能通过提供证据支持另一个回合(类型是'来源'),也就是专注于写作质量。下表显示了我们的类别模型和它们的概念。
实验
创建模型主要依赖预料的元数据,作者开发了三个监督分类器discourseacts, argumentative relations, frames,一个用于讲述行为,一个用于描述关系,另一个用于表示框架。作者的目的并不是提出一种新颖的的分类手段,所以作者采用的现存工作的方法。作为预处理步骤,作者清洗了Webis-Wikidebate-18预料数据,删除所有元数据:用户标签,快捷方式,用户和时间戳。然后作者将三个数据集随机分为训练(60%),提升(20%),和测试(20%)集。得到的结果如下表所示:
总结
我们的建模论证方法审议讨论中的策略可能看起来像是只能于维基百科,但是概念和概念的推导元数据中的类别可以泛化到其他在线讨论平台。我们有理由相信一般推导步骤是相同的,而在每个步骤中应用的技术可能取决于不同的类型,频率和元数据质量。例如,一致使用维基百科讨论中最常见的用户标签可以帮助手动创建概念。相反,其他元数据可能需要使用计算方法,例如聚类,关键词提取和文本蕴涵技术。
在具有定制功能的三个支持向量机分类器中操作我们的维基百科讨论模型,我们的实验结果证实了我们模型的类别可以预测成功。在未来的工作中,我们计划研究如何区分有效与无效讨论,基于我们的模型。以及如何从成功的讨论中学习其中使用的策略,以便预测下一个持续讨论的最佳策略。
论文下载链接:
http://aclweb.org/anthology/P18-1237