我经历了Nutch的2.1本地没有任何困难。 我也尝试了3机分布式集群上。 我们现在正在讨论是否用Amazon Web Services或不运行它。 我没有与AWS很多经验。 我的问题是,是否有可能和neccessary尝试Nutch2.1抓取和索引部分在云上。 我们将有什么可能的优势和劣势?
谢谢。
我经历了Nutch的2.1本地没有任何困难。 我也尝试了3机分布式集群上。 我们现在正在讨论是否用Amazon Web Services或不运行它。 我没有与AWS很多经验。 我的问题是,是否有可能和neccessary尝试Nutch2.1抓取和索引部分在云上。 我们将有什么可能的优势和劣势?
谢谢。
如果您有相同的容量,一个AWS簇的簇(你打算投资),则没有任何优势,除了下面#1。
下面是你应该考虑切换到AWS之前几个因素:
主机的局部性抓取 :如果你置身于欧洲和要抓取的网站都远主持......说澳大利亚。 如果你买了位于澳大利亚AWS节点,这将是抓取的数据,而不是来自欧洲的爬行速度要快得多。
费用 :对于使用AWS的机器,你需要再支付每小时的基础上。 你能负担得起吗? 如果没有更好的使用自己的机器
当前的集群能力 :你现在的集群有足够的能力和空间来处理抓取的数据量? 我认为不会是在运算速度方面的问题,因为Nutch的Hadoop上其目的是在商用硬件上运行的运行。 群集可以容纳正被爬虫抓取整个数据。
数据量 :什么是被爬网的数据粗略估计? 如果少的话,那是没有意义的有一个AWS集群。
时间限制 :是否有开往完成抓取过程中的任何时间?
如果你这样做了专业的项目,则必须将这些因素赋予了思想。
如果你这样做是为了好玩/爱好/学习,继续使用AWS的自由层节点。 这些都是由亚马逊免费给低容量节点。 它的乐趣,学习新的东西:)
AWS的优势:
AWS的劣势: