「数据饥荒」之后,人工智能的未来在哪里?

2019-10-16 12:23发布

来源/Medium

作者:Micheal Renz

联邦学习联邦学习是一种新兴的人工智能基础技术, 2016 年由谷歌最先提出,原本用于解决安卓手机终端用户在本地更新模型的问题,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。

1956年,人工智能第一次被视为学术学科进行研究和探索。

到今天为止,尽管已经过去了60余年,但它仍处于起步阶段。与其他学科相比,未来的道路崎岖不平,这主要是由道德伦理和数据可用性的挑战造成的。

命运多舛的AI

自诞生以来,人工智能经历了三大突破点和两个停滞期。

它最近一次被大众关注,是在2016年。彼时,Alpha Go成功击败了世界排名第一的围棋选手,这被看作是人工智能一次「里程碑式的胜利」

正如许多新兴技术那样,每当它们出现成就巨大的飞跃时,人们都会对它带来的社会变革和伦理问题进行大量的审视和关注。最终,人工智能的部分应用在公众中引起了高度争议,并从而进入了“幻灭的低谷”。

为什么人工智能在发展60多年后,争议仍然如此巨大?

事实证明,大众对于人工智能的「期望」和它当前的「现实」之间有很大的差距。真正能够运用人工智能技术的场景仍然极度稀少,而且经常集中在非常特殊的案例上。想要走向主流,人工智能还有很长的路要走。

由于我们在这个领域并不缺乏远见,我们看到了怀疑人工智能今天能真正完成什么的信号。现在,在人工智能第三次崛起的末期,这个新兴领域的命运仍然不确定。

凛冬已至

很大程度上,人工智能的兴起是由大数据的可用性推动的。

大数据推动了面部识别、营销推广等许多领域深度学习的发展,这一度被视为人工智能浪潮的主要突破之一。

但在疾病诊断等更复杂的领域,深度学习仍然面临着企业和机构之间巨大鸿沟的挑战,一个最主要的问题就是数据的可访问性。

从整体角度来看,数据是可用的,但有几个原因是不可评估的。一个常见的问题是数据存储在孤岛中,这些孤岛通常是公司内部网络甚至公司内部物理隔离的结果;另一个突出的问题则是数据结构不兼容,格式不够统一,接收方无法拿来直接使用。

结局是,没有集中的数据中心,通过深度学习机制进行训练。以往,基于「云」的计算通常被认为是数据孤岛问题的潜在解决方案,但事实证明,对于大量数据来说,这一过程既昂贵又耗时。

此外,还有越来越严格的数据隐私法规,例如GDPR(General Data Protection Regulation)。

虽然这些政策对于保护消费者隐私很重要,但它们也对数据的使用施加了严重的限制,从而间接影响了人工智能应用程序未来发展的新方向。

破局的希望

消费者保护措施和数据隐私是不可协商的,也是建立必要信任的底线。但在另一方面,它也带来了数据饥荒和人工智能增长放缓的风险。

「联邦学习」(Federated Learning)这一人工智能新方法的提出,有可能给行业带来下一个重大突破,进而克服这波浪潮中的数据隐私和信任挑战。

联邦学习是一个机器学习框架,它允许用户使用分布在不同位置的多个数据集来训练机器学习模型,同时防止数据泄露并遵守严格的数据隐私法规。实际上,根据数据的分布特征,联合学习有三个主要类别。

横向联邦学习(Horizontal federated learning )根据特征划分数据集,通常在特征重叠多于用户的情况下实现。

例如,在不同地区运营的三家物流公司可能会保留其消费者的类似数据,但消费者之间的重叠相对较小。因为他们的特征几乎相同,所以可以提取具有相同特征的用户来训练模型。

但当多个数据集有很大的用户重叠但有不同的特征时,通常使用纵向联邦学习(Vertical federated learning)。

比如,一家外卖配送机构和在同一地区的医院可能拥有相似的用户群,但会跟踪彼此之间的不同信息。医院跟踪健康数据,而外卖配送机构则跟踪用户浏览习惯和购买数据等信息。纵向联合学习集合了所有的特性,能够为双方合作构建一个模型。

当数据集的用户和特征之间几乎没有重叠时,可以使用联邦转移学习(Federated transfer learning)来避免数据或标签的缺乏。

以中国的制造商和美国的物流提供商为例,由于双方在地理上都受到限制,用户之间几乎没有重叠。由于它们是不同类型的机构,所以它们的特征也几乎没有重叠。

在这种情况下,联邦迁移学习就可以与联邦学习结合使用,以提高模型的整体性能。

尽管联邦学习在技术层面已经得以实现,但仅靠有效的框架仍不足以完全应对挑战。

联邦学习必须开发成商业应用程序,为特定行业提供灵活、互惠的商业模式。通过跨不同机构,聚集多个孤立的数据集,联邦学习使得开发一个理想模型的梦想正成为可能,还避开了侵犯个人隐私的可能。

简而言之,这是一种新型的「数据共享经济」,它通过使用多个利益相关方的数据来训练算法。数据持有者通过共享数据资源受益,而应用程序提供商则通过提供服务而受益。

文章来源: https://www.toutiao.com/group/6748216881410212365/