当创建在蜂房(Hadoop的)配有一个Amazon S3源位置的外部表是转移到本地的Hadoop HDFS上的数据:
- 外部表的创建
- 当奎雷斯(MR作业)对外部表运行
- 从来没有(没有数据被不断转移)和MR作业读取S3的数据。
什么是这里发生了S3读取成本? 是否有数据转移到HDFS或单个成本有没有数据传输成本,但是当蜂巢创建MapReduce工作在这个外部表运行读费用支出。
一个例子外部表的定义是:
CREATE EXTERNAL TABLE mydata (key STRING, value INT)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '='
LOCATION 's3n://mys3bucket/';