我已经安装了网页抓取了Apache的Nutch。 我想抓取一个网站,有以下robots.txt
:
User-Agent: *
Disallow: /
有什么办法来抓取这个网站与Apache Nutch的?
我已经安装了网页抓取了Apache的Nutch。 我想抓取一个网站,有以下robots.txt
:
User-Agent: *
Disallow: /
有什么办法来抓取这个网站与Apache Nutch的?
在Nutch的-site.xml中,设置protocol.plugin.check.robots为false
要么
您可以注释掉在机器人检查完成的代码。 在Fetcher.java,线605-614正在做检查。 评论说,整个区块
if (!rules.isAllowed(fit.u)) {
// unblock
fetchQueues.finishFetchItem(fit, true);
if (LOG.isDebugEnabled()) {
LOG.debug("Denied by robots.txt: " + fit.url);
}
output(fit.url, fit.datum, null, ProtocolStatus.STATUS_ROBOTS_DENIED, CrawlDatum.STATUS_FETCH_GONE);
reporter.incrCounter("FetcherStatus", "robots_denied", 1);
continue;
}
您可以设置属性“Protocol.CHECK_ROBOTS”为false Nutch的-site.xml中忽略的robots.txt。