Nutch的原始HTML保存(Nutch Raw Html Saving)

2019-07-28 23:21发布

我试图让在不同的文件抓取的网页,命名为页面的URL的原始的HTML。 是否有可能使用Nutch通过排除索引部保存在不同的文件原始的HTML页面?

Answer 1:

该是这样做的直接方式。 你将不得不做一些修改代码。 见这个和这个 。



文章来源: Nutch Raw Html Saving
标签: nutch