我爬在Apache 2.1 Nutch的几个网站。
虽然爬行我看到很多网页以下信息:
恩。 跳绳http://www.domainname.com/news/subcategory/111111/index.html ; 不同批次ID(空)。
是什么原因导致这个错误?
我怎样才能解决这个问题,因为不同批次ID(空)的页面不存储在数据库中。
我爬到该网站是基于Drupal的,但我已经尝试过许多其他非Drupal的网站。
我爬在Apache 2.1 Nutch的几个网站。
虽然爬行我看到很多网页以下信息:
恩。 跳绳http://www.domainname.com/news/subcategory/111111/index.html ; 不同批次ID(空)。
是什么原因导致这个错误?
我怎样才能解决这个问题,因为不同批次ID(空)的页面不存储在数据库中。
我爬到该网站是基于Drupal的,但我已经尝试过许多其他非Drupal的网站。
我认为,该消息不是问题。 BATCH_ID不分配给所有的url。 所以,如果BATCH_ID为空,则跳过URL。 生成URL时BATCH_ID assined的URL。