我运行一个数据流任务,从BigQuery的readed和扫描周围8 GB of data and result in more than 50,000,000 records.
现在,在一步组我想基于键组和一列需要被连接起来。 但经过串联柱的拼接大小变得大于100 MB就是为什么我必须做该组中的数据流的工作,因为该组由不能做Bigquery level due to row size limit of 100 MB.
现在从BigQuery的阅读,但停留在集团通过步骤时,数据流任务可很好,我有2个版本的数据流的代码,但两者都逐步在集团stucking。 When I checked the stack driver logs, it says, processing stuck at lull for more than 1010 sec time(similar kind of message) and Refusing to split GroupedShuffleReader <dataflow_worker.shuffle.GroupedShuffleReader object at 0x7f618b406358> kind of message
我希望通过组状态,20分钟内完成,但卡住1个多小时,从来没有被完成