什么是波特和兰开斯特词干算法的主要区别和优势? [关闭](What are the major

2019-06-24 08:37发布

我在Java上的文件分类任务工作。

这两种算法来到强烈建议,什么是每哪个更常见于文献自然语言处理任务中使用的好处和缺点是什么?

Answer 1:

在它的最基础,搬运工和兰开斯特所产生的算法之间的主要区别是,兰开斯特词干是显著比波特词干更有侵略性。 目前使用的三个主要的词干算法是波特,雪球(Porter2)和兰开斯特(Paice甲壳),与侵略性连续沿着这些相同的线基本上遵循。 波特是最激进的算法,每个算法实际上是相当漫长和技术的细节。 这里是一个休息下来,虽然你:

波特:最常用的词干毫无疑问,也是最温柔的词干之一。 其中,实际上具有支持Java这是一个加,虽然它也是计算最密集的算法的一些词干(由一个非常显著保证金未授予)。 这也是大幅度的最古老而产生算法。

Porter2:几乎普遍认为是在波特的改善,并有很好的理由。 波特本人实际上也承认,这是比他原来的算法更好。 稍快的计算时间比门房,周围有一个相当大的社区。

兰卡斯特:非常激进而产生的算法,有时故障。 波特和雪球,词根表示是通常是相当直观的读者,没有那么与兰开斯特,许多短的话会变得完全模糊。 最快的算法在这里,并且会降低你的工作组词的巨大的,但如果你想要更多的区别,而不是工具,你会想。

老实说,我觉得雪球通常是要走的路。 有某些情况下在兰开斯特将极大裁减你的工作组,这是非常有用的,但是在在我看来雪球的边际速度的提升是不值得缺乏精确性。 波特虽然有大部分实现,因此通常是默认进入到算法,但是如果可以的话,使用雪球。



文章来源: What are the major differences and benefits of Porter and Lancaster Stemming algorithms? [closed]