我一直在使用“Nutch的”与HBase的作为存储后端抓取网站。 我已经提到这个教程链路http://wiki.apache.org/nutch/Nutch2Tutorial
。
Nutch的版本是2.2.1,HBase的版本0.90.4和Solr 4.7.1版本
下面是我used-步骤
./runtime/local/bin/nutch注入的网址
./runtime/local/bin/nutch生成-topN 100 -adddays 30
./runtime/local/bin/nutch获取-all
./runtime/local/bin/nutch获取-all
./runtime/local/bin/nutch updatedb的
./runtime/local/bin/nutch solrindex http://localhost:8983/solr/ -all
我的网址/ seed.txt文件载有以下http://www.xyzshoppingsite.com/mobiles/
我只保留了下面“正则表达式,urlfilter.txt”文件行(所有其他正则表达式的注释)。
+^http://([a-z0-9]*\.)*xyzshoppingsite.com/mobile/*
在爬行的最后,我可以看到一表“网页”在HBase的创建,但我无法核实是否所有的和完整的数据已经被抓取或没有。 当Solr的搜索,它说明不了什么,0的结果。
我的最终目的是让存在于上述网址的移动所有页面的完整数据。
能否请你让我知道,
如何验证出现在HBase的抓取的数据?
Solr的日志目录包含0的文件,所以我无法获得突破。 如何解决这个问题?
HBase的命令的输出
scan "webpage"
只显示时间戳数据和其他数据如'
value=\x0A\x0APlease Wait ... Redirecting to <a href="/mobiles"><b>http://www.xyzshoppingsite.com/mobiles</b></a>Please Wait ... Redirecting to <a href="/mobiles"><b>http://www.xyzshoppingsite.com/mobiles</b></a>
'
在这里,为什么是数据抓取这样,而不是网页的实际内容重定向后?
请帮忙。 提前致谢。
谢谢并恭祝安康!