给定一个HTML页面是一个文本重的文章,我想确定并分析出主要内容。
使用http://www.fivethirtyeight.com/2009/08/chavismo-obama-and-monroe-doctrine.html作为一个例子,我想,以确定DIV#-4438372351887392855后,它包含了标题和文章。
我什么都不知道,可以完美或工作时间的100%,但有没有,可以给我想要的结果的情况下,合理数量的方法?
我现在的想法是通过每个格迭代,剥出的标记,然后找到包含大多数文本最内层的股利。
在这一点上,我才刚刚开始,所以找输入我可以把向概念性方法。 或者,如果事情是摆在那里,一个开源库,将是很好的。
感谢您事先的见解。