Azure的数据湖存储和数据工厂 - 临时GUID文件夹和文件(Azure Data Lake St

2019-09-30 15:50发布

我使用Azure的数据存储湖(ADLS),通过Azure的数据工厂(ADF)管道,从Blob存储读取和到ADLS写道针对性。 在执行过程中我注意到有在不在源数据中存在输出ADLS创建的文件夹。 该文件夹的名称,并在它的许多文件,也GUID的一个GUID。 该文件夹是暂时的,30秒左右就消失了。

是ADLS元数据索引的这部分? 它是在加工过程中使用的ADF的东西吗? 虽然它出现在数据资源管理器中的门户网站,它通过API显示? 我担心它可能会产生问题的路线,即使它的临时结构。

任何了解赞赏 - 谷歌的止跌回升小。

Answer 1:

那么你看到的是一些Azure的数据存储湖的做无论你使用什么上传和数据复制到它的方法。 这不是特定于数据工厂和不是你能控制的。

对于大文件,它基本上parallelises单个文件的读/写操作。 然后你出现在并联运行的每个线程的临时目录中的多个较小的文件。 一旦完成这个过程串接线程进入一个预期的目标文件。

比较 :这是类似于多碱确实在SQLDW与命中512MB块文件的8层外部的读者。

这里我理解您的关注。 通过操作失败,并且不清理临时文件我也做战斗这个地方。 我的建议是指定目标文件路径时,要明确你的下游服务。

还有一两件事 ,我已经在那里使用Visual Studio数据湖的文件浏览工具做的大文件上传问题。 有时并行线程没有连接成单一的正确和我的结构化数据集中导致腐败。 这是在4个文件 - 8GB区域。 被警告!

边注。 我发现PowerShell的最可靠的处理上传到数据存储湖。

希望这可以帮助。



文章来源: Azure Data Lake Storage and Data Factory - Temporary GUID folders and files