Apache的Nutch的不抓取网站(apache nutch don't crawl we

2019-10-17 02:59发布

我已经安装了网页抓取了Apache的Nutch。我想抓取一个网站，有以下robots.txt ：

User-Agent: *
Disallow: /

有什么办法来抓取这个网站与Apache Nutch的？

Answer 1:

在Nutch的-site.xml中，设置protocol.plugin.check.robots为false

要么

您可以注释掉在机器人检查完成的代码。在Fetcher.java，线605-614正在做检查。评论说，整个区块

      if (!rules.isAllowed(fit.u)) {
        // unblock
        fetchQueues.finishFetchItem(fit, true);
        if (LOG.isDebugEnabled()) {
          LOG.debug("Denied by robots.txt: " + fit.url);
        }
        output(fit.url, fit.datum, null, ProtocolStatus.STATUS_ROBOTS_DENIED, CrawlDatum.STATUS_FETCH_GONE);
        reporter.incrCounter("FetcherStatus", "robots_denied", 1);
        continue;
      }