最简单的方法来检查，如果一个Java String对象可能拥有垃圾邮件数据(Easiest Way

2019-09-19 23:39发布

我有遍历字符串实例的过程。每一次迭代确实对String实例很少的操作。在结束的字符串实例持久化。

现在，我要添加到每个迭代的检查，如果字符串实例可能是垃圾邮件。我只需要验证字符串实例不是“成人内容”的垃圾邮件。

任何建议？

Answer 1:

这是该行业不断试图解决一个非常困难的问题。为你做的最好的事情是尽量使用像现有的解决方案Classifier4J连同黑名单数据源，以识别垃圾邮件。

您需要应用一些贝叶斯逻辑，这就是，除其他事项外， Classifier4J安德鲁提到正在做的封面下方。

保罗·格雷厄姆写了这一篇好文章几年前- http://www.paulgraham.com/spam.html 。

你可以尝试编写自己的分类等，但如果你有保障的网络接入，如何只使用Akismet在与Java绑定？这是寻找垃圾还不错。

你需要采取网络连接和许可考虑。

最简单的方法是简单地核对已知垃圾邮件的话。这里的问题是，它很容易得到误报意味着在不同环境下不同的事情的话。您可能需要手动选择的单词列表，只包括那些没有正当的理由，或者选择一个更重量级的解决方案。

文章来源: Easiest Way to Check if a Java String Instance Might Hold Spam Data