Datastax卡桑德拉PIG只运行一个MAP(Datastax Cassandra PIG Run

2019-09-30 08:00发布

我使用Datastax卡桑德拉3.1.4具有两个节点。 我正在与CqlStorage()与表中1200万行的猪,但我觉得有只有一个简单的命令猪运行图。

我想在我的猪关系改变split_size但它并没有奏效。

这里是我的示例查询。

x = load'cql://Mykeyspace/MyCF?split_size=1000' using CqlStorage();
y = limit x 500;
dump y

我没有找到我的mapred-site.xml中input.split.size财产我假设默认分割尺寸为64 * 1024

我试着set pig.splitCombination false;

现在,它以513张地图的任何节数的记录,我试图从蜂巢一样的东西

我从蜂巢连接到卡桑德拉,给了一个简单的选择与其中的col1>值这个表只有10条,但仍这是运行513个地图的所有查询。

请帮我在这

谢谢

Answer 1:

试试这个设置:

set pig.splitCombination false;

默认情况下,猪会结合自己认为小分裂成一个单一的地图 。



文章来源: Datastax Cassandra PIG Running only one MAP