重新抓取网址使用Nutch只是为了更新网站(Recrawl URL with Nutch just

2019-07-18 01:48发布

我爬到一个URL使用Nutch 2.1，然后我希望他们得到了更新后重新抓取网页。我怎样才能做到这一点？我怎么能知道一个网页被更新？

Answer 1:

只要你不能。你需要重新抓取网页，如果它的更新控制。因此，根据您的需要，优先页/域和时间内重新抓取他们。为此你需要一个作业调度，如石英。

你需要编写一个比较页面的功能。然而，原本Nutch的保存网页的索引文件。换句话说Nutch的产生新的二进制文件，以节省HTMLS。我不认为这是可以比较的二进制文件，结合Nutch的单个文件中的所有抓取的结果。如果你想保存原始HTML格式的网页进行比较，看我的回答这个问题。

你必须安排助教工作在射击练习作业
然而，Nutch的AdaptiveFetchSchedule应使您能够抓取和索引的网页和检测网页是否是新的或更新的，你不必做手工。

文章详细介绍了一样。

怎么样http://pascaldimassimo.com/2010/06/11/how-to-re-crawl-with-nutch/

：这是在讨论如何recrawle的Nutch

我想知道如果，上述方案确实会工作。我想，因为我们说话。我抓取新闻网站，他们相当频繁更新自己的头版，所以我需要经常重新抓取索引/ FrontPage和获取新发现的链接。

文章来源: Recrawl URL with Nutch just for updated sites