我们正在使用GCS作为数据流的管道的数据接收器,以及由于某种原因,输出目录“显示”文件的每一次我尝试目录“的gsutil ls”的时间不同的列表。 具体而言,文件的数目应该是完全4000(如指定了管道分片的输出以4000个文件)。 但是,我看到名单是其中的一些文件4000的($前缀- ????? -的-04000)和一些临时文件($前缀TEMP-*)。 它已经完成,因为数据流作业(2016-12-18_19_30_32-7274262445792076535)10+小时,我仍然看到不同的文件列表(它不只是增加,但有时降低含义的一些文件消失,然后再次出现)。 这是影响我们运行其他数据流的管道,从这个目录中读取。
这是数据流问题或GCS的问题,以及我们如何解决这个问题? 我以前见过GCS的这种行为,但它通常是在最初几分钟的数据流管道完成后,但这次似乎是持续的一段时间。