文 | 夏一哲
责编 | 余欣婷
从“言论自由”到“被遗忘权”,西方发达国家对人类数字化生存的探讨在随着科技的进步不断推进。从大数据到人工智能,数据的价值在不断被分析和挖掘,技术似乎在不断侵蚀个人数据权利的边界。
8月29日,2019世界人工智能大会在沪举行,卡内基梅隆大学计算机科学系教授、图灵奖获得者Raj Reddy受邀出席。在群访环节,Reddy教授从大众的角度解释了人工智能对个人数据的影响,同时也指出AI的发展历史很短,不应过度夸张其效果。
人工智能对数据价值的挖掘对社会有益
Reddy教授首先回应了前段时间备受关注的苹果Siri上传用户录音的事件。7月下旬,苹果公司承认其语音助手Siri会上传用户数据。这些数据在上传到服务器后,将交给承包商进行人工分析以改进Siri的服务质量。
尽管苹果事后解释称上传的录音比例不足日活的1%,但依然引起了巨大争议。最后苹果不得不宣布全面暂停Siri的评估计划并发表道歉信。
Reddy教授没有正面评价苹果上传用户数据的行为,而是先解释了人工智能挖掘录音信息的意义和价值。他以自己的家乡印度为例,那里有12种主要语言,使用人数都超过了三百万。使用不同语言为母语的印度人不能互相交流,英语就成为了跨本地语言交流的工具。
在智能分析技术的加持下,目前依然只能分辨20%的俚语等本地化语言习惯。在机器学习的过程中,用来训练机器的数据量需求很大。每个用户需要提供1个小时的讲话录音或10万词汇的输出。没有数据量的支持,机器就很难被训练成为跨语言沟通的合格桥梁。
在实际的操作中,用户被允许可以对已经采集的数据进行下载和检查,对于隐私和敏感录音有权进行删除或者在上传前就要求录音停止。
Reddy教授的回应体现了人工智能在技术和法律、道德间的两难境地。一方面机器学习需要大量的用户数据,另一方面这些数据涉及到用户隐私,如果直接向用户索取将会被用户拒绝。面对不想提供自己数据又想得到更智能化服务的用户,开发者和服务提供商也有苦难言。
免费服务不是互联网公司获取和使用用户数据的理由
也许是觉得对语音分析的技术解释有些太偏向科技公司的立场,Reddy教授随后补充,Google和Facebook等公司用提供免费服务来换取和使用用户数据的理由并不充分,用户应该对自己的数据安全更为谨慎。
在使用这些网站的服务时,网站以不提供服务为条件,诱惑用户签下“不平等”的数据协议。因为互联网的同边网络效应,用户实际并没有选择的权利。此外,过度冗长的协议条款也加剧了信息的不对称,拔高了用户充分理解协议内容的门槛。
各地的政府部门也在通过立法等方式保护保护弱势的用户权益。2018年5月,欧盟颁布了《通用数据保护条例(GDPR)》,号称“史上最严数据保护法”。
该法案首先在管辖范围上很广,只要数据的收集方、数据的提供方(被收集数据的用户)和数据的处理方(比如第三方数据处理机构)有任何一方是欧盟公民或法人,就将受到该法案管辖。
法案还要求,不仅企业获取自然人的“自然数据”(如姓名、地址、电子邮件地址、电话号码、生日、银行账户、汽车牌照、IP地址以及cookies)需要得到用户的同意,而且企业不能再使用模糊、难以理解的语言或冗长的隐私政策来从用户处获取数据使用许可。
作为对法案的回应,大量公司临时屏蔽了面对欧洲用户的页面,并“恳求”用户同意新的用户协议。Google也在同年提供全新的用户数据管理服务,用户可以轻松查看Google获取了自己的哪些信息,并对这些数据进行管理。
大洋彼岸的美国则没有如此“热心”,原因在于赋予用户删除自己数据的“被遗忘权(The Right to be Forgotten)”被认为违反了美国宪法修正案中对“言论自由”的保护。除了部分地方立法对未成年人的“被遗忘权”进行有限的保护外,美国还没有全国性的法律颁布。
被“夸大”的人工智能
作为从“AI”概念提出伊始就开始进入相关研究领域的Reddy教授而言,AI的定位始终是如何去做人类可以做的事,而不是取代人类。
人类的看、听、说等能力经过了300万年的缓慢进化,其系统是十分复杂的。目前人工智能虽然得到了较快的发展,并且在未来20-30年也许可以实现自动炒股、自动驾驶和制作音乐,但是单一功能的实现并不代表人工智能就可以取代人。
目前,人工智能依然面临着功能不够完善和落地成本过高的问题。相关企业也在尝试通过开拓B端和G端客户去度过前期研发成本过高的阶段。在工业领域,目前的技术想完成数据采集和可视化并不难,但是依靠机器学习去进行数据处理并最终形成效益还比较困难。
Reddy教授笑着总结说:“人工智能会威胁人类的观点是愚蠢的,在十万年内都是不可能的,人工智能最终一定是服务于人的。”
推荐阅读
数据安全未来前景展望
新一代人工智能应用场景落地的关键因素探析