我有遍历字符串实例的过程。 每一次迭代确实对String实例很少的操作。 在结束的字符串实例持久化。
现在,我要添加到每个迭代的检查,如果字符串实例可能是垃圾邮件。 我只需要验证字符串实例不是“成人内容”的垃圾邮件。
任何建议?
我有遍历字符串实例的过程。 每一次迭代确实对String实例很少的操作。 在结束的字符串实例持久化。
现在,我要添加到每个迭代的检查,如果字符串实例可能是垃圾邮件。 我只需要验证字符串实例不是“成人内容”的垃圾邮件。
任何建议?
这是该行业不断试图解决一个非常困难的问题。 为你做的最好的事情是尽量使用像现有的解决方案Classifier4J连同黑名单数据源,以识别垃圾邮件。
您需要应用一些贝叶斯逻辑,这就是,除其他事项外, Classifier4J安德鲁提到正在做的封面下方。
保罗·格雷厄姆写了这一篇好文章几年前- http://www.paulgraham.com/spam.html 。
你可以尝试编写自己的分类等,但如果你有保障的网络接入,如何只使用Akismet在与Java绑定 ? 这是寻找垃圾还不错。
你需要采取网络连接和许可考虑。
最简单的方法是简单地核对已知垃圾邮件的话。 这里的问题是,它很容易得到误报意味着在不同环境下不同的事情的话。 您可能需要手动选择的单词列表,只包括那些没有正当的理由,或者选择一个更重量级的解决方案。