EC2提供了非常方便的,按需可扩展的机制,以执行分配(并行izable)工艺和S3提供了可靠的存储服务。
我试图使用EC2节点的ETL和分析的过程,这个过程需要大量的数据 - 很快摄入(100GB 1TB)(并多次在一天)和充足的计算资源被制成可用于持续时间较短。
上述设计需求
- 高带宽/ S3和EC2之间的快速连接。
- S3 - > EC2连接也应该是可靠的,因为首发的调度,抽-中的数据,执行过程和终端节点,必须尽快不仅节省成本,而且还因为SLA的参与来完成。
但目前还
- 拉数据输出S3的的唯一手段似乎是通过HTTP,因此它是由EC2节点的下载带宽约束。
- 另外,数据摄取去在互联网上,因此可以严格调度的目的,整个工作迫使足够的缓冲不够可靠。
在私有数据中心建立一个可以设置存储和物理节点之间的更快(发言权的10Gbps)专用线路。
是否有AWS能满足上述要求的情况下,任何可能的替代方案/服务选项。
取决于巨大,对各种各样的事情 - 网络多少活动在同一个物理服务器上的其他EC2实例都在做,你在任何一个时间打特定的S3节点,无论你是在同一个区域作为你的S3端点等。
你可以自己标杆,但即使如此,它会改变很多。 我已经在其他时间得到了在时间和几百千字节每秒数兆字节。
我觉得现在有一个更好的答案。
有一个单独的服务的数据管道 ,它提供了S3和EC2之间可靠的数据传输
至少我发现这个最近(虽然它可能提供了一段时间)。 云莓提供真正快速的方法来从S3数据传输到EC2。 速度范围为40Mbps的50Mbps的。 具体的过程。 下载CB S / W从http://www.cloudberrylab.com/free-amazon-s3-explorer-cloudfront-IAM.aspx 。 连接到S3。 一旦文件被视为右键单击要复制的文件,并选择WEBURL。 这将显示该文件的WEBURL。 复制整个URL和AWS VM使用wget来获得url内容(wget的[复制链接]
我现在还在找工作的工具将数据复制从虚拟机到S3。 S3cmd是缓慢的,打破过于频繁。