对于拼写检查机器学习算法(machine learning algorithm for spelli

2019-10-18 13:29发布

我有药名（regular_list）和新名称（new_list）的列表清单。我要检查在new_list的名称是否已经存在于regular_list或not.The问题是，名字new_list可能有一些错字错误，我想这些名字将被视为比赛进行到常规列表。我知道，使用stringdist是解决问题的办法，但我需要一个机器学习算法

Answer 1:

因为它已经在这里提到的机器学习克服错字的错误，机器学习工具太多这样的任务，但最简单的可能是，这些方法合并。

一方面，你可以计算edit distance定单词之间的x和每个字典中的单词的d_i 。 Additionaly，你可以训练探索每个字分类

c(d_i, distance(x,d_i))

返回True （类1 ）如果给定的编辑距离已经学会了足够的考虑x的missspelled版本d_i 。这可以给你更多的一般模型，然后不使用机器学习，你可以为每个字典中的单词不同的阈值（有些话更经常拼写错误，其他人），但很明显，你必须在形式准备一个训练集(misspelled_word, correct_one)也可以添加(correct_one, correct_one ）。

你可以使用任何类型的二元分类的此类任务，可在“真实”的输入数据的工作。

文章来源: machine learning algorithm for spelling check