清华柴成亮博士:基于人机协作的数据管理

2019-01-31 00:52发布

人工智能论坛如今浩如烟海,有硬货、有干货的却百里挑一。由中国科学院大学主办,百度公司提供支持,读芯术作为指定合作自媒体的“AI未来说·青年学术论坛”第一期“数据挖掘”专场已于2019年1月19日下午在中科院学术会堂举行。来自清华的柴成亮博士,为大家带来报告《基于人机协作的数据管理》。

柴成亮博士全场报告视频


柴成亮,清华大学计算机博士。在顶级会议与期刊SIGMOD、VLDB、ICDE、KDD、VLDB Journal发表多篇文章,担任IEEE Big Data、DASFAA、JCST等多个国际会议与期刊审稿人,在顶级会议KDD、ICDE做有关人工智能和数据处理相关的Tutorial,百度奖学金得主,微软学者提名奖。

报告内容:在大数据与人工智能的时代,我们经常需要大量的数据进行分析训练,但是很多原始数据是没有标注信息的(例如图片的标签)。因此,我们需要利用人工,低成本、高质量、高效率地获得数据以及数据标签。此外,我们还着眼于如何利用人机协作的方法来做数据挖掘,如分类、聚类、异常点检测和规则挖掘等。




基于人机协作的数据管理



柴成亮博士为我们分享了如何低成本、高质量、高效率地获取数据和数据标签,以及如何使用人机协作的方法来做数据挖掘,如分类、聚类等问题。柴成亮博士首先对“基于人机协作的数据管理”中的“人”进行了解释,这里的“人”可以是专家,也可以是在座的每一个人。该研究方向就是利用人的智慧处理一些对于计算机来说比较难的任务。

然后介绍了数据标注的工作中,存在的三个主要问题。首先就是花费的问题,标注一百个问题是不是只能付一百份钱让人来做这个事情?可不可以用机器或推理的方法进行辅助性标注,进而降低标注的成本。其次就是标注的质量问题,人是可能会犯错的,如何保证数据质量?最简单的方法就是一个问题问多个人,然后做个投票,选择得票数目最多的答案。再就是延迟(Latency)的问题,这个也很好理解,比如在场有500个人,正好有500个数据要标注,把这500个数据分给500个人来标注肯定比一个人标注500条数据更快。但是这三者之间有一个平衡(Trade-off)的问题,如果想获得一个很好的质量,那么可能就需要花很多钱,就是需要重复标注很多,这样花钱就多,如果想省钱就会损失一些质量。




对于怎么控制标注的质量的问题,一个简单的解决方案就是让大家来投票解决这个问题,选择投票次数最多的作为正确的标注结果,该方案成立的前提是假设所有标注这个问题的人的标注质量是一样的。但是很明显,很多时候不是这样,有的人就是乱答,而且每个人擅长的领域也不一样。想要解决这个问题,最关键的点就是要知道每个人的标注质量,有的标注质量是好的,有的标注质量是不好的,有的标注质量还凑合。一个比较好的解决方案是通过先进行相关任务的测验,然后估算每一个人的标注的质量,进而通过每一个人的标注的质量来获得对应的投票权重。

柴成亮博士也分享了如何控制代价和延迟的解决方案,主要介绍了分类模型和聚类模型。分类模型把解决问题、寻找答案的过程视为一个分类树的问题,把可能的答案通过多层的分类归结为一个分类树,所有可能的答案为该分类树的叶子结点,在解决问题的时候,从高到低访问可能的分类树结点来解决问题,从而能尽快把问题的可能答案的空间缩小,从而能提高效率,节省标注的成本。使用聚类的模型大家可以自己想一下,说不定还会从中获得启发。

文章来源: https://www.toutiao.com/group/6652313348811522568/