当与NLTK伯努利朴素贝叶斯算法和一个在scikit学习模块进行分类文本(在只有两个类别)我得到完全不同的结果。 虽然整体精度两者相当(虽然谈不上相同)I型和II型错误的差异显著。 特别是,NLTK朴素贝叶斯分类器将提供更多的I型比第二类错误,而scikit学习 - 相反。 这种“反常现象”似乎是在不同的功能和不同的训练样本是一致的。 是否有一个原因 ? 这两个是更值得信赖?
Answer 1:
NLTK没有实现伯努利朴素贝叶斯。 它实现了多项朴素贝叶斯但只允许二进制功能。
文章来源: Different results between the Bernoulli Naive Bayes in NLTK and in scikit-learn