我已经运行的Hadoop 2.2.0和HBase的0.98.1一个三节点群集,我需要使用Nutch的2.2.1履带式最重要的是。 但它仅支持从1.x的分支版本的Hadoop。 现在我可以提交Nutch的工作,我的群,但它失败java.lang.NumberFormatException。 所以我的问题很简单:我怎么做Nutch的工作在我的环境?
Answer 1:
目前,它是不可能的,Nutch的2.2.1(戈拉0.3)与HBase的0.98.x.整合 请参阅: https://issues.apache.org/jira/browse/GORA-304
官方Nutch的教程建议只0.90.x HBase的分支: http://wiki.apache.org/nutch/Nutch2Tutorial
你还可以下载HBase的0.94.24-Hadoop的2.5.0版本,我创建并测试今日: https://github.com/dobromyslov/hbase/releases/tag/0.94.24-hadoop-2.5.0
大家注意到,Nutch的2.2.1不支持HBase的0.94.x,你必须摆脱的Git分支的最新Nutch的2.X: https://github.com/apache/nutch/tree/2.x
文章来源: Nutch in Hadoop 2.x