Apache的Nutch的网页中不添加内部链接fetchlist(Apache Nutch not

2019-09-30 06:39发布

我使用的Apache Nutch的1.7和我现在面临这个问题,使用URL抓取http://www.ebay.com/sch/allcategories/all-categories/?_rdc=1作为种子网址,这个网址有很多内部链接存在于网页,也有很多外部链接到其他领域,我只对内部链接感兴趣。

然而,当这个页面被抓取在它的内部链接不会添加为下一轮读取(我已经给100的深度)的获取。 我已经设置了db.ignore.internal.links为假,但由于某些原因,内部链接不被添加到该下一轮取名单。

,如果我设置db.ignore.external.links为假另一方面,它正确地拿起从页面的所有外部链接。

这个问题是不存在于任何其他领域,一些能告诉我这个特定页面是什么呢?

我还附上我正在使用您的评论,请告知nucth-site.xml中。

Answer 1:

你的种子URL正在被默认过滤器被忽略,所以你的网页没有被抓取。

编辑以下文件:

CONF /自动机urlfilter.txt

CONF /正则表达式-urlfilter.txt

更换

# skip URLs containing certain characters as probable queries, etc.
-.*[?*!@=].*

# skip URLs containing certain characters as probable queries, etc.
-.*[*!@].*


文章来源: Apache Nutch not adding internal links in a web page to fetchlist