“联邦智能是人工智能的最后一公里,需要大家共同运用以联邦学习为核心的相关技术。让两个数据在不合并的情况下,能够实现用户推荐,这些工作就是联邦学习、联邦智能的机会。这还是属于人工智能的范畴,其最终目标是实现人工智能,但是在人工智能过程当中需要推手,也就是联邦智能的一个机会。”平安科技副总工程师王健宗博士说。
对于人工智能来说,大规模、高质量的数据资源是影响最终训练效果的关键因素,而要想确保这些数据足够有效就要靠近那些关键业务,但由此引发的疑虑一方面是随着数据安全和隐私保护日益受到重视,对数据获取造成了一定阻碍,另一方面因不同企业、部门所属数据源彼此孤立,所获得训练数据难以保证规模。既要对多源数据整合协同加以利用,又要避免数据泄露,变成了“老大难”的问题。
2016年,Google AI研究人员首次提出用于训练深度学习网络的联邦学习,这一概念最初应用于移动设备之间的联邦模型,后来逐渐拓展到各行各业的纵深应用。所谓联邦学习,就是在隐私保护下的机器学习、深度学习的可实现路径以及数据孤岛问题的解决方法,可理解为一种分布式的加密机器学习技术,能够通过中心调度进行训练,所强调的是在复杂学习环境的训练过程中,对数据的隐私保护。借助联邦学习,用户可以在本地进行模型训练,数据参数要汇总到中心服务器上,进行联邦处理,中心服务器再将训练好的模型下发到各参与方。也就是说,数据可以在不出本地的前提下,做到联合建模。
根据不同的数据情况,联邦学习可分为联邦横向学习、联邦纵向学习,前者是指用户特征重叠比较大,用户重叠部分比较小。后者反之,用户重叠部分较大,用户特征重叠部分很小,作用是增加样本的特征维度。联邦学习的优势在于,受训练后的模型较数据直接整合并未损失效果,又借助本地化的数据流程保障了安全性,同时在数据交换时不是传输数据本身,并且加入了加密机制,使得用户的隐私得到了保证,进而也满足了各项政策的要求,为大范围应用奠定了基础。
一直以来,平安科技都在探索如何将各类前沿技术落地到各个业务场景中,人工智能既是其重要的布局阵地。从多模态识别在身份鉴定、医疗理赔等领域的应用,到智能定损通过CNN精准判断受损状况,再到银行合同审核在金融系统中的降本增效……平安科技与英特尔在至强可扩展处理器的算力支持、AI推理、深度学习等方面始终紧密配合。这一次,双方将合作延续到了时下火热的联邦学习。
平安科技联邦学习技术团队希望运用联邦学习方法,聚合更多来源、更多维度和更高质量的数据,来提升 AI 模型训练效果。与传统数据共享方法不同的是,联邦学习中各节点的数据都留存在本地来参与训练,不过在联邦学习方法聚合多源数据实施 AI 模型训练的过程中,AI 模型或过程参数需要通过网络在各个数据节点中进行传输和交互。然而,数据的暴露面越大,面临的安全风险也就越高。此时,就要在关键节点设立严密的关卡,英特尔给出的方案是使用基于硬件的隔离和内存加密,为部署的解决方案提供更强的代码保护,即通过硬件增强型安全技术的支持,在特定硬件中建立一个可信执行环境(Trusted Execution Environment),使外界无法触达和攻击敏感的数据和应用。
具体而言,平安科技的联邦学习团队成功地将TEE方案的重要支柱——英特尔软件防护扩展(英特尔Software Guard Extensions)技术引入其联邦学习方案,率先在多源数据协同实施 AI 训练之路上开展了 积极探索,并在保险、医疗、智能语音以及车联网等多个领域的实践中取得了一系列成果。利用SGX指令,可增强应用程序代码和数据的安全性,获得更强的保护以防泄漏或修改,开发人员能够把敏感信息分区进入围圈中,围圈是内存中具有更强安全保护的执行区域。
“英特尔发布的最新款的SGX技术,实现了可信执行环境,正好是符合目前联邦学习运算需求的平台。”王健宗博士谈到,联邦学习更多是为了解决在数据不共享、隐私保护的前提下实现大家共同建模,共同分析的技术,“传统通过软加密的方式,比如在深度学习框架TensorFlow、PyTortch、Caffe、MxNet上改造,带来的一个问题是会导致在信息处理传输中因为加解密消耗太多的时间。有了SGX之后,可以把接口封装好,在信息传递加解密过程中更快更高效,符合现在软件硬化、硬件软化的趋势,把可信计算环境硬化掉、固化掉,加快迭代训练。”蜂巢平台,就是平安科技在联邦学习领域的一次重要实践。
在保险行业,过去业务人员在用户投保时只能根据用户的年龄、性别等基本信息来确定保费金额。但随着用户数据的数量和特征维度大幅增加,例如对于健康类险种来说,业务系统如果能够利用海量的病历、家族病史数据等进行 AI 预测,并得到更加细分的健康评估类别,就有望提升投保人健康评估结果的准确度。不过在这一过程中,患者的病历、病史是要高度保密的数据。借助联邦学习,保险企业可以在不触及用户数据的情况下,开展保险定价模型的 AI 训练。据已启动的相关项目反馈,联邦 学习 1+N 式解决方案(架构如下图)使保险个性化定价效果得到了明显提升。
使用英特尔® SGX技术的联邦学习方案(由位于中心的聚合服务器(Aggregator)“飞地”以及部署在各处的 N 个边缘“飞地”组成网络,聚合服务器和各个数据源系统中的“飞地”,均是由英特尔® SGX 技术提供的处理器指令,在内存中构造出的可信区域。)
当然,任何一种新技术的演进都是在不断迭代中逐渐成熟,要想在完全互信的情况下做到“数据独立 共同建模”,还要有不少地方有待完善。在王健宗博士看来,首要的问题就是让各个参与方互信,核心是要有良性的管理、运作、准入/退出机制;其次,以蜂巢平台为例,要解决数据交换时训练标准和AI建模一致性的问题,如果是在本地进行运算,还需要联邦推理;此外,训练过程的透明可见是建立互信的基础,因此联邦要具备可视化的特性。联邦智能,可能就是打破这些瓶颈的突破口。
“联邦智能和联邦学习的关系就像人工智能和深度学习,联邦智能是应用在联邦学习技术基础之上实现联合建模,为特定的场景实现整体解决方案。”近年来,王健宗博士一直在联邦智能领域深耕,他认为联邦智能意味着安全可信的智能,这是未来的趋势,“我们本着开源的精神希望通过构建联邦智能,和以联邦学习为基础技术的深入探索,做一些实在的落地应用研究,相信大家构建联邦智能的生态是肯定可以实现的。”
除了已有的在计算、存储、网络、软件等层面的合作,平安科技与英特尔围绕AI可共绘的想象空间还有很多,并以此打造一批最佳实践去推广到联邦智能生态的行业应用场景中。“我们与英特尔共同提出了联邦生态,在这个生态圈内打造联邦智能的解决方案。”王健宗博士谈到,“通过前期良好的合作基础,双方后续的合作肯定会更加升华,在英特尔整个生产线上,基于英特尔突出的软件实力,会深化我们的合作,更多的为联邦智能添砖加瓦,这是一个必然的趋势。”
【ZOL客户端下载】看最新科技资讯,APP市场搜索“中关村在线”,客户端阅读体验更好。(7283601)