我使用的Apache Nutch的1.7和我现在面临这个问题,使用URL抓取http://www.ebay.com/sch/allcategories/all-categories/?_rdc=1作为种子网址,这个网址有很多内部链接存在于网页,也有很多外部链接到其他领域,我只对内部链接感兴趣。
然而,当这个页面被抓取在它的内部链接不会添加为下一轮读取(我已经给100的深度)的获取。 我已经设置了db.ignore.internal.links为假,但由于某些原因,内部链接不被添加到该下一轮取名单。
,如果我设置db.ignore.external.links为假另一方面,它正确地拿起从页面的所有外部链接。
这个问题是不存在于任何其他领域,一些能告诉我这个特定页面是什么呢?
我还附上我正在使用您的评论,请告知nucth-site.xml中。