我试图让在不同的文件抓取的网页,命名为页面的URL的原始的HTML。 是否有可能使用Nutch通过排除索引部保存在不同的文件原始的HTML页面?
Answer 1:
该是这样做的直接方式。 你将不得不做一些修改代码。 见这个和这个 。
文章来源: Nutch Raw Html Saving
我试图让在不同的文件抓取的网页,命名为页面的URL的原始的HTML。 是否有可能使用Nutch通过排除索引部保存在不同的文件原始的HTML页面?
该是这样做的直接方式。 你将不得不做一些修改代码。 见这个和这个 。