数据流的Apache束Python的工作停留在集团一步(Dataflow Apache beam P

2019-10-30 13:34发布

我运行一个数据流任务，从BigQuery的readed和扫描周围8 GB of data and result in more than 50,000,000 records. 现在，在一步组我想基于键组和一列需要被连接起来。但经过串联柱的拼接大小变得大于100 MB就是为什么我必须做该组中的数据流的工作，因为该组由不能做Bigquery level due to row size limit of 100 MB.

现在从BigQuery的阅读，但停留在集团通过步骤时，数据流任务可很好，我有2个版本的数据流的代码，但两者都逐步在集团stucking。 When I checked the stack driver logs, it says, processing stuck at lull for more than 1010 sec time(similar kind of message) and Refusing to split GroupedShuffleReader <dataflow_worker.shuffle.GroupedShuffleReader object at 0x7f618b406358> kind of message