我有我想要改造成可导出到SQL表下面的架构的数据集。 我使用HIVE
。 输入如下
call_id,stat1,stat2,stat3
1,a,b,c,
2,x,y,z,
3,d,e,f,
1,j,k,l,
输出表需要有call_id
所以它必须是唯一的主键。 输出模式应该是
call_id,stat2,stat3,
1,b,c, or (1,k,l)
2,y,z,
3,e,f,
问题是,当我使用关键字DISTINCT
在HIVE
查询时, DISTINCT
适用于所有colums组合。 我想DISTINCT操作仅适用于call_id
。 对东西的行
SELECT DISTINCT(call_id), stat2,stat3 from intable;
然而,这不是有效的HIVE
(我不是很精通SQL其一)。
唯一合法的查询似乎是
SELECT DISTINCT call_id, stat2,stat3 from intable;
但是,这将返回相同的多个行call_id
与其他列不同,整体上该行是不同的。
注:有A,B,C,X,Y,Z等之间没有算术关系,所以平均或求和任何伎俩是不可行的。
任何想法如何,我可以做到这一点?