微软在自家无代码ETL服务Azure Data Factory上,正式推出Mapping Data Flows功能,供使用者大规模且快速地转换资料,微软提到,Mapping Data Flows是一项变革性的资料整合以及转换服务。
Azure Data Factory是一个无服务器服务,使用者不需要管理基础设施,就能够在云端进行ETL工作,处理任何规模的资料。而Mapping DataFlows则是专为应对庞大资料处理的复杂性和规模而生的功能,使用者可以直接在浏览器中,存取视觉化的环境,建构弹性资料工作管线,并由Azure Data Factory来处理Spark运作的复杂作业。
Mapping Data Flows提供内建功能来处理不可预测的资料架构后,并维持变更输入资料的弹性,简化使用者资料处理的工作,让使用者可以专注于建构业务资料逻辑,不需要花费时间管理服务器丛集或是撰写代码,快速地进行载入事实表格(FactTable)、维持缓慢的维度变换(Slowly Changing Dimension,SCD)、聚合半结构化的资料,以及使用模糊匹配来配对资料,为建模做准备。
其提供直觉的视觉化界面,可以将使用者的资料逻辑转换成为易读的图(Graph),并建置转换程序函数库,分析原始资料产出业务可用的结果(下图)。当然,使用者也可以不使用Mapping DataFlows的无代码界面,自己撰写代码呼叫内建的转换功能,执行连接(Join)、聚合、枢纽分析(Pivot)以及排序等常见操作。
工作管线建置器可让使用者透过鼠标拖拉操作,来建置工作管线,或是以互动的形式为端到端ETL程序除错,使用者可以为工作管线建置排程,并从Azure Data Factory监控门户网站监控资料流执行,透过Azure DataFactory提供多种可用性监控以及警示功能,来管理资料的可用SLA,还能利用内建的CI/ CD,在托管的DataOps环境中储存与管理资料流,透过建立警示和浏览执行计划,就能验证使用者的逻辑是否如计划一样处理资料流。