Nutch的Hadoop中2.X(Nutch in Hadoop 2.x)

2019-10-20 01:59发布

我已经运行的Hadoop 2.2.0和HBase的0.98.1一个三节点群集,我需要使用Nutch的2.2.1履带式最重要的是。 但它仅支持从1.x的分支版本的Hadoop。 现在我可以提交Nutch的工作,我的群,但它失败java.lang.NumberFormatException。 所以我的问题很简单:我怎么做Nutch的工作在我的环境?

Answer 1:

目前,它是不可能的,Nutch的2.2.1(戈拉0.3)与HBase的0.98.x.整合 请参阅: https://issues.apache.org/jira/browse/GORA-304

官方Nutch的教程建议只0.90.x HBase的分支: http://wiki.apache.org/nutch/Nutch2Tutorial

你还可以下载HBase的0.94.24-Hadoop的2.5.0版本,我创建并测试今日: https://github.com/dobromyslov/hbase/releases/tag/0.94.24-hadoop-2.5.0

大家注意到,Nutch的2.2.1不支持HBase的0.94.x,你必须摆脱的Git分支的最新Nutch的2.X: https://github.com/apache/nutch/tree/2.x



文章来源: Nutch in Hadoop 2.x