我已经实现在蜂巢的任务。 目前,它是我的单节点集群上工作的罚款。 现在,我打算将其部署到AWS。
我不知道的东西AWS。 如果我打算再部署它,我应该选择亚马逊EC2或Amazon EMR?
我想提高我的任务的性能。 哪一个更适合我和可靠吗? 如何对他们的做法? 我听说我们还可以注册我们的虚拟机的设置,因为它是在AWS上。 可能吗?
请尽快给我建议。
非常感谢。
我已经实现在蜂巢的任务。 目前,它是我的单节点集群上工作的罚款。 现在,我打算将其部署到AWS。
我不知道的东西AWS。 如果我打算再部署它,我应该选择亚马逊EC2或Amazon EMR?
我想提高我的任务的性能。 哪一个更适合我和可靠吗? 如何对他们的做法? 我听说我们还可以注册我们的虚拟机的设置,因为它是在AWS上。 可能吗?
请尽快给我建议。
非常感谢。
EMR是EC2实例的安装并在其上配置的Hadoop(以及任选的蜂巢和/或猪)的集合。 如果您正在使用群集运行Hadoop的/蜂房/猪的工作,EMR是要走的路。 相比于EC2实例的实例EMR花费一点点额外的费用。 今天在亚马逊的价格快速检查表明,小EC2实例价格为$ 0.08 /小时,而小EMR实例价格为$ 0.015 /小时的额外费用。 在我看来,这是完全值得付出额外的钱给自己节省安装和设置的Hadoop(与Hive和Pig一起),创建和维护以及AMI和使用它的麻烦。 此外,电子病历的版本Hadoop和蜂巢对蜂巢Apache的一些补丁不可用(ATLEAST,目前还没有)。 如果你使用EC2,你可能会使用Apache Hadoop和配置单元(或者可能是,在Cloudera的分布),不会有机会获得这些修补程序(像S3或类似原生支持命令ALTER TABLE my_table RECOVER PARTITIONS
参考文献:
我建议你不要尝试和部署自己的Hadoop集群,除非你有2-3个月有余,你有一个Hadoop专家得心应手。
弹性MapReduce将让你得到通过提供预配置的Hadoop环境中很快开始。 看到因为你只需要一个单一的工作,它应该是罚款。
一般而言,从历史上看,EMR是相当落后的Hadoop组件的最新版本,有的被完全丢失。 这对于使用其他分布的主要原因。 例如,如果你想HBase的,它不是在EMR,但它是不是。 今天,Spark是从EMR缺席。 EMR通常会滞后。
这就是说,如果你不使用最新和最伟大的功能,顺应了电子病历。