识别页面的主要内容(Identifying a Page's Primary Content

2019-10-17 05:06发布

给定一个HTML页面是一个文本重的文章，我想确定并分析出主要内容。

使用http://www.fivethirtyeight.com/2009/08/chavismo-obama-and-monroe-doctrine.html作为一个例子，我想，以确定DIV＃-4438372351887392855后，它包含了标题和文章。

我什么都不知道，可以完美或工作时间的100％，但有没有，可以给我想要的结果的情况下，合理数量的方法？

我现在的想法是通过每个格迭代，剥出的标记，然后找到包含大多数文本最内层的股利。

在这一点上，我才刚刚开始，所以找输入我可以把向概念性方法。或者，如果事情是摆在那里，一个开源库，将是很好的。

感谢您事先的见解。

Answer 1:

在arc90有些人做了这个一个相当令人印象深刻的工作与他们的可读性书签。这似乎做找到“主”内容的一个不错的工作 - 你的作品完美地列出在页面上。
你可以看一下通过他们很好的注释的JavaScript（在书签链接），但你可能要联系开发者自己的想法和使用它们的权限。

为主要内容的提取资源的最完整的汇总列表如下：

也看看评论，因为有额外的提示。

文章来源: Identifying a Page's Primary Content