Apache的Nutch的2.1不同批次ID(空)(Apache Nutch 2.1 differe

2019-08-16 22:12发布

我爬在Apache 2.1 Nutch的几个网站。

虽然爬行我看到很多网页以下信息:
恩。 跳绳http://www.domainname.com/news/subcategory/111111/index.html ; 不同批次ID(空)。

是什么原因导致这个错误?
我怎样才能解决这个问题,因为不同批次ID(空)的页面不存储在数据库中。

我爬到该网站是基于Drupal的,但我已经尝试过许多其他非Drupal的网站。

Answer 1:

我认为,该消息不是问题。 BATCH_ID不分配给所有的url。 所以,如果BATCH_ID为空,则跳过URL。 生成URL时BATCH_ID assined的URL。



文章来源: Apache Nutch 2.1 different batch id (null)