我爬到一个URL使用Nutch 2.1,然后我希望他们得到了更新后重新抓取网页。 我怎样才能做到这一点? 我怎么能知道一个网页被更新?
Answer 1:
只要你不能。 你需要重新抓取网页,如果它的更新控制。 因此,根据您的需要,优先页/域和时间内重新抓取他们。 为此你需要一个作业调度,如石英 。
你需要编写一个比较页面的功能。 然而,原本Nutch的保存网页的索引文件。 换句话说Nutch的产生新的二进制文件,以节省HTMLS。 我不认为这是可以比较的二进制文件,结合Nutch的单个文件中的所有抓取的结果。 如果你想保存原始HTML格式的网页进行比较,看我的回答这个问题。
Answer 2:
你必须安排助教工作在射击练习作业
然而,Nutch的AdaptiveFetchSchedule应使您能够抓取和索引的网页和检测网页是否是新的或更新的,你不必做手工。
文章详细介绍了一样。
Answer 3:
怎么样http://pascaldimassimo.com/2010/06/11/how-to-re-crawl-with-nutch/
:这是在讨论如何recrawle的Nutch
我想知道如果,上述方案确实会工作。 我想,因为我们说话。 我抓取新闻网站,他们相当频繁更新自己的头版,所以我需要经常重新抓取索引/ FrontPage和获取新发现的链接。
文章来源: Recrawl URL with Nutch just for updated sites