我有一个关于速度和在一台机器使用多个虚拟节点VS单机本身在单节点性能的问题。
哪一个会更好的表现?
我为什么问这个问题的原因是因为我正在学习一台机器上的Hadoop,我看到显示在一台机器使用多个虚拟节点的一些网络上的教程。
先感谢您
我有一个关于速度和在一台机器使用多个虚拟节点VS单机本身在单节点性能的问题。
哪一个会更好的表现?
我为什么问这个问题的原因是因为我正在学习一台机器上的Hadoop,我看到显示在一台机器使用多个虚拟节点的一些网络上的教程。
先感谢您
总有一些自带的虚拟化,所以除非真的有必要我不会建议在虚拟化环境中运行Hadoop的开销。
话虽这么说,我知道VMWare的做了很多工作,在使Hadoop的工作,在虚拟环境中,他们已经公布的一些基准测试中,他们在一定条件下声称具有虚拟机更好的性能,一个本地应用程序。 我没打过多少使用vSphere,但是这可能是一些看,如果你想进一步探索虚拟化的。 但不要拿数字是理所当然的,这真的取决于你正在运行的硬件类型,所以在某些情况下,我认为你可能会获得一些性能与虚拟机,但我的经验猜测,在大多数情况下,你赢了“T获得任何东西。
如果你是刚刚开始,并与Hadoop的测试,我认为虚拟化是矫枉过正。 你可以很容易在伪分布式模式,这意味着你可以在同一机器上运行多个Hadoop守护进程,每个作为一个单独的进程中运行的Hadoop。 这就是我用什么来开始使用Hadoop的,这是一个良好的开端。 你可以找到更多的信息在这里 (或可能需要取决于哪个版本的Hadoop你正在运行另一页)。
如果你得到你想要一个真正的集群来进行测试,但没有资源的时候,我会建议在寻找亚马逊弹性的Map / Reduce:它可以让你在需要集群,它是相当便宜。 这样,你可以做更高级的测试。 更多信息这里 。
底线是,我认为,如果目的只是为了测试,你并不真的需要一个虚拟集群。
关于这一主题进行了性能分析的案例研究表明,相对于它的天然对应一个虚拟Hadoop集群只有大约4%的低效率: 虚拟化Hadoop的性能案例研究