Nutch的2.1(HBase的,SOLR)用Amazon Web Services(Nutch 2

2019-10-17 13:33发布

我经历了Nutch的2.1本地没有任何困难。 我也尝试了3机分布式集群上。 我们现在正在讨论是否用Amazon Web Services或不运行它。 我没有与AWS很多经验。 我的问题是,是否有可能和neccessary尝试Nutch2.1抓取和索引部分在云上。 我们将有什么可能的优势和劣势?

谢谢。

Answer 1:

如果您有相同的容量,一个AWS簇的簇(你打算投资),则没有任何优势,除了下面#1。

下面是你应该考虑切换到AWS之前几个因素:

  1. 主机的局部性抓取 :如果你置身于欧洲和要抓取的网站都远主持......说澳大利亚。 如果你买了位于澳大利亚AWS节点,这将是抓取的数据,而不是来自欧洲的爬行速度要快得多。

  2. 费用 :对于使用AWS的机器,你需要再支付每小时的基础上。 你能负担得起吗? 如果没有更好的使用自己的机器

  3. 当前的集群能力 :你现在的集群有足够的能力和空间来处理抓取的数据量? 我认为不会是在运算速度方面的问题,因为Nutch的Hadoop上其目的是在商用硬件上运行的运行。 群集可以容纳正被爬虫抓取整个数据。

  4. 数据量 :什么是被爬网的数据粗略估计? 如果少的话,那是没有意义的有一个AWS集群。

  5. 时间限制 :是否有开往完成抓取过程中的任何时间?

如果你这样做了专业的项目,则必须将这些因素赋予了思想。

如果你这样做是为了好玩/爱好/学习,继续使用AWS的自由层节点。 这些都是由亚马逊免费给低容量节点。 它的乐趣,学习新的东西:)

AWS的优势:

  1. 无需购买机器设置集群。 上手无需除了终端PC的硬件。
  2. 局部性
  3. 无需机械照顾。 如果一个节点崩溃厉害,离开它(那不是你的问题:P)。 买一个新的,把它添加到集群和继续。

AWS的劣势:

  1. 昂贵。
  2. 将数据复制到AWS簇以外的任何机器进行充电。
  3. 当u放弃采购AWS节点的数据不会持续。 如果ü要坚持它,他们支付和使用S3存储服务。


文章来源: Nutch 2.1 (HBase, SOLR) with Amazon Web Services