无法验证存储在HBase的抓取的数据(Unable to verify crawled data s

我一直在使用“Nutch的”与HBase的作为存储后端抓取网站。我已经提到这个教程链路http://wiki.apache.org/nutch/Nutch2Tutorial 。

Nutch的版本是2.2.1，HBase的版本0.90.4和Solr 4.7.1版本

下面是我used-步骤

./runtime/local/bin/nutch注入的网址

./runtime/local/bin/nutch生成-topN 100 -adddays 30

./runtime/local/bin/nutch获取-all

./runtime/local/bin/nutch updatedb的

./runtime/local/bin/nutch solrindex http://localhost:8983/solr/ -all

我的网址/ seed.txt文件载有以下http://www.xyzshoppingsite.com/mobiles/

我只保留了下面“正则表达式，urlfilter.txt”文件行（所有其他正则表达式的注释）。

+^http://([a-z0-9]*\.)*xyzshoppingsite.com/mobile/*

在爬行的最后，我可以看到一表“网页”在HBase的创建，但我无法核实是否所有的和完整的数据已经被抓取或没有。当Solr的搜索，它说明不了什么，0的结果。

我的最终目的是让存在于上述网址的移动所有页面的完整数据。

能否请你让我知道，

如何验证出现在HBase的抓取的数据？
Solr的日志目录包含0的文件，所以我无法获得突破。如何解决这个问题？
HBase的命令的输出scan "webpage"只显示时间戳数据和其他数据如
' value=\x0A\x0APlease Wait ... Redirecting to <a href="/mobiles"><b>http://www.xyzshoppingsite.com/mobiles</b></a>Please Wait ... Redirecting to <a href="/mobiles"><b>http://www.xyzshoppingsite.com/mobiles</b></a> '

在这里，为什么是数据抓取这样，而不是网页的实际内容重定向后？

请帮忙。提前致谢。

谢谢并恭祝安康！

而不是执行所有这些步骤，您可以使用下面的命令

./bin/crawl url/seed.txt shoppingcrawl http://localhost:8080/solr 2

如果能够成功地执行，一个表将在HBase的创建，以及名称，shoppingcrawl _webpage。

我们可以通过在HBase的外壳下面的命令执行检查

hbase> list

然后，我们可以扫描特定的表。在这种情况下

 hbase> scan 'shoppingcrawl_webpage'

Answer 1: