AI助力考古:MIT联手谷歌,利用神经网络破译失传古文字

2019-07-11 05:07发布

人工智能技术正在被用来破译失传已久的古文字。

近日,麻省理工学院和谷歌人工智能实验室的研究人员提出了一种自动破译失传文字的神经网络算法。这一算法首次实现了古希腊迈锡尼文明时期“线形文字B”的自动翻译,准确地把 67.3% 的线形文字B同源词翻译成了希腊语。下一步,人工智能和机器学习技术可能会被用来解密至今仍未被破译的古文字。

线形文字B大约出现在公元前1400年后,于1953年被语言学家迈克尔·文特里斯破译。麻省理工学院和谷歌人工智能实验室的实验是自动翻译线形文字B的首次尝试。

据《麻省理工科技评论》报道,1886年,英国考古学家阿瑟·埃文斯(Arthur Evans)偶然发现了地中海克里特岛上的大量刻字石头和石碑。后续研究中,他和其他研究者认定这些石头和石碑由两种不同文字写就。更古老的那一种后来被称作“线性文字A”,可追溯到公元前1800年至公元前 1400 年,另一种被命名为“线形文字B”,大约出现在公元前1400年后。

针对这两种文字的早期破译工作都宣告失败。直到1953年,一位业余语言学家迈克尔·文特里斯(Michael Ventris)成功破译了线形文字B。他的成功源于两个重要的推断。首先,文特里斯推测线形文字B词汇表中许多重复单词是克里特岛上的地名,这一推测后来被证明是正确的。其二,他假设线形文字B记录了古希腊与的早期形式,这个想法随即帮助他破译了剩余的文字。

这次,麻省理工学院人工智能实验室博士罗佳鸣、麻省理工学院教授Regina Barzilay和谷歌大脑的曹原以历史语言学中记录的语言变化模式为依据,利用序列对序列表达模型捕获同源词之间的字符级对应关系,建立了一种自动破译失传古文字的神经网络算法。

论文介绍,研究人员在模型中输入失传文字和已知相关语言中的非并行语料,模型再根据失传文字与已知语言中的对应词之间的对齐精度进行评估。

这种方法不仅准确地把 67.3% 的线形文字B同源词翻译成了希腊语,还被用来翻译公元前15世纪的乌加里特语,翻译结果比传统方法提升了5.5%。

研究人员表示,他们的方法也显示了对罗马语言翻译工作的改进作用。

文章来源: https://www.toutiao.com/group/6712010885117772300/