识别页面的主要内容(Identifying a Page's Primary Content

2019-10-17 05:06发布

给定一个HTML页面是一个文本重的文章,我想确定并分析出主要内容。

使用http://www.fivethirtyeight.com/2009/08/chavismo-obama-and-monroe-doctrine.html作为一个例子,我想,以确定DIV#-4438372351887392855后,它包含了标题和文章。

我什么都不知道,可以完美或工作时间的100%,但有没有,可以给我想要的结果的情况下,合理数量的方法?

我现在的想法是通过每个格迭代,剥出的标记,然后找到包含大多数文本最内层的股利。

在这一点上,我才刚刚开始,所以找输入我可以把向概念性方法。 或者,如果事情是摆在那里,一个开源库,将是很好的。

感谢您事先的见解。

Answer 1:

在arc90有些人做了这个一个相当令人印象深刻的工作与他们的可读性书签 。 这似乎做找到“主”内容的一个不错的工作 - 你的作品完美地列出在页面上。
你可以看一下通过他们很好的注释的JavaScript(在书签链接),但你可能要联系开发者自己的想法和使用它们的权限。



Answer 2:

为主要内容的提取资源的最完整的汇总列表如下:

  1. 从HTML文档中提取文章全文
  2. 资源列表:从HTML文档中的文章文本提取

也看看评论,因为有额外的提示。



文章来源: Identifying a Page's Primary Content