数据流的Apache束Python的工作停留在集团一步(Dataflow Apache beam P

2019-10-30 13:34发布

我运行一个数据流任务,从BigQuery的readed和扫描周围8 GB of data and result in more than 50,000,000 records. 现在,在一步组我想基于键组和一列需要被连接起来。 但经过串联柱的拼接大小变得大于100 MB就是为什么我必须做该组中的数据流的工作,因为该组由不能做Bigquery level due to row size limit of 100 MB.

现在从BigQuery的阅读,但停留在集团通过步骤时,数据流任务可很好,我有2个版本的数据流的代码,但两者都逐步在集团stucking。 When I checked the stack driver logs, it says, processing stuck at lull for more than 1010 sec time(similar kind of message) and Refusing to split GroupedShuffleReader <dataflow_worker.shuffle.GroupedShuffleReader object at 0x7f618b406358> kind of message

我希望通过组状态,20分钟内完成,但卡住1个多小时,从来没有被完成

Answer 1:

我想通了的东西我自己。 下面是我在管道做了2名更改:1.我刚加入本集团主要经过合并功能,见截图

  1. 由于本集团重点对多个工作运行时,做了很多的网络流量交换的,默认情况下,我们使用网络,不允许跨网络通信,所以我必须创建防火墙规则,以允许流量从一个工人另一名工人即IP地址范围的网络流量。


文章来源: Dataflow Apache beam Python job stuck at Group by step