深度好文:4922 字 | 10 分钟阅读
读书笔记·精华笔记•文化生活
本文优质度:★★★★★ 口感:汉堡肉
笔记君邀您,阅读前先思考:
- 网飞是如何实现突破的?
- 如何评价网飞找到突破的方式?
一、百万美元大奖
2006年,当机器人团队正忙于为来年的DARPA城市挑战赛准备赛车时,网飞也向新兴的数据科学界公布了自己的大奖。
网飞希望找到可以创建“电影推荐引擎”的团队,愿意向最优秀的团队奖励100万美元奖金。
当网飞发布公告时,他们的流媒体视频业务还不存在,公司的业务是提供DVD(数字通用光盘)租赁服务。用户可以向网飞索取DVD,网飞会把DVD邮寄给他们。但消费者需要放弃一张当前持有的DVD才能收到下一张,而且新DVD需要几天后才能收到。糟糕的选择可能会让人错过观影的黄金时间,因此用户往往很谨慎地提出他们的索取请求。这就是网飞想要电影推荐引擎的原因。
作为服务的一部分,网飞允许用户使用1星(最差)到5星(最佳)的整数等级对电影进行评分。网飞希望利用评分帮助用户决定租哪部电影。
宣布比赛后,网飞向研究团体公布了一个数据集,其中包含着它们在1998——2005年搜集的1亿个星级评分。
第一个创造出算法推荐效率比网飞的高10%的团队,将能获得大奖。
这个数据集对全职的和业余的数据科学家而言都是天赐之物。他们兴致勃勃地着手解决这个问题。
在一周中,一些团队就以1%的优势击败了网飞自己的推荐引擎。在一年内,有20000支队伍报名参赛,其中约有2000支队伍提交了参赛作品。
二、竞争者们的相互合作
网飞奖的竞争者良莠不齐,但有一个三人小组始终在排行榜上保持着强势地位,这个团队就是“贝尔科”。
它是由AT&T实验室的三位研究科学家(其中一位在竞赛过程中跳槽至雅虎)组成的,他们在网络和推荐系统领域的专业知识使他们具备了研究这个项目的优秀技能。
另一个团队“ML@UToronto”由来自多伦多大学的一群著名神经网络研究人员组成。成员包括被广泛认为是神经网络之父的杰弗里•辛顿(Geoffrey Hinton)。
并非所有参赛者都拥有博士学位。其中一个看似实力较弱的团队中只有三名本科生,他们是两名来自普林斯顿大学计算机科学专业的学生和他们的一名数学专业室友。
这两名计算机科学专业的学生很快就开始攻读顶尖的博士课程。这个超出预期的青年三人组以网飞在数据集中列出的第一部电影《恐龙星球》来命名自己的团队。
甚至还有一些资历更浅的选手。最终,一个名为“实用主义理论”的二人团队出现了。这个法裔加拿大人二人组一直用业余时间做这个项目。
其中一人在他家的厨房里工作,从晚上9点一直到午夜;那时他的孩子们都在睡觉。由于在协同过滤领域没有任何经验,所以他们都很谦虚,自称是“两个毫无头绪的家伙”。
参赛选手的人数还在增加,成千上万,其中包括来自看似完全不同领域——比如心理学——的人。
虽然这些团队在相互竞争,但他们发现自己也在竞争中相互合作。事实上,正如我们将要看到的:
一个不愿意向其他团队学习并合作的团队,想在竞争中取得成功几乎是不可能的。
下面,我们将来追踪其中几个团队的百万美元奖金探索之旅。
三、如何训练分类器?
你可能想知道为什么我在这本书里加入有关电影推荐的章节。电影推荐引擎真的是人工智能的重大突破吗?
实际上,推荐引擎是一种算法,旨在捕捉人们的偏好,甚至可以很好地模拟人类的偏好;然而,正是偏好让我们成为人类。
如果有人说,推荐引擎对我们经济的影响,已经远远超过了自动驾驶汽车和国际象棋程序,这肯定不是虚言。因为推荐引擎正在为在线商务提供动力。
我把网飞奖写入这本书还有一个更重要的原因。比赛中发生的一些事,例如选手们如何解决问题、使用了什么工具等,将直接影响我们如何看待这本书中的其他突破。
正如我们将要看到的,这场比赛中涌现的诸多想法几乎触及我们稍后将看到的每一个主题。
假设,你正在编辑一本名为《世界最佳儿童食谱》的烹饪书。你打算搜集贝蒂妙厨(BettyCrocker)网站上的食谱,把合适的食谱编入这本书中。
对于每个食谱,你都有一个简单的决定要做:应不应该把它编入烹饪书中?
回答这个问题的一种方法是,准备好你在网站上找到的每一个食谱,把它们做成食物给你的孩子品尝,然后询问孩子的意见。
但是如果这个网站上有15000个食谱,那么即使每天尝试9个新食谱并留下记录,你也要烹饪4年多。
如果不投入大量的时间和精力,你怎么能确定哪些食谱适合孩子?
学习过机器学习的人会迫不及待地告诉你如何解决这个问题:你可以训练一个分类器!
在机器学习领域,分类器提供了一种方法来自动判断项目(比如食谱)是否属于某个类别,例如“适合孩子的食谱”,与之相对的便是“不适合孩子的食谱”。
要使用分类器完成这项任务,你首先需要确定食谱中有哪些特点可以区分它是否适合孩子。
此时,你可以发挥创造力和判断力,但有些特点可能特别有助于做这种区分。
贝蒂妙厨网站上的用户可以提供食谱的星级评分,这些评分可能与孩子是否喜欢它们有关,因此你可以将这些评分作为区分特点之一。
你还希望选择易于烹饪且易于理解的食谱,例如,食谱仅需少数几个步骤或仅需少数几种食材;你可能还想考虑糖的克数(孩子通常喜欢糖)和蔬菜克数(孩子通常不喜欢蔬菜)。
在机器学习中,我们把这些用于区分的特点称为特征。当我们把这些特征组合成描述食谱好坏的食谱评分时,神奇的事情就发生了。
组合它们的最简单的方法是采用加权平均值,你可以假设本书中的其他分类器也是用这种方法组合特征的,我们使用权重来总结每个特征在最终得分中的重要性。
为什么要用加权平均值来组合这些特征?
这可能看起来很武断,你或许已经正确地猜到,机器学习研究人员已经找到了上百万种将这些特征组合成分数的方法。
但这种方法简单直接,易于推理。到目前为止,它是构建本书中所有自动机的最重要的“统计工具”。
请记住,这只是一个构件。我们希望它很简单,因为我们要把它与其他构件组合起来,而且我们希望能够理解我们构建的东西。
也是用这种方法组合特征的,我们使用权重来总结每个特征在最终得分中的重要性。
想要从加权平均值中得到一个分类器,我们只需选择一个阈值,例如我们将阈值设为“0”,将高于该阈值的所有食谱都称为好食谱,而将低于该阈值的称为坏食谱。
如果你使用机器学习来构建分类器,就需要使用数据计算每个特征的权重,并且要选择阈值。
你可以给孩子准备一些食谱,并记录他们对每个食谱的喜爱程度,以此搜集这些数据。
然后,你可以用统计学中的标准公式,根据这些数据估算权重。你可能在高中时看到过这个公式(并且很快就忘记了),你学会了在一张纸上用一些点(x,y)拟合最佳直线。这里使用的是相同的公式,只是每个y坐标都对应多个x坐标。
一旦你用少数几个食谱(比方说,100个食谱而不是15000个食谱)来拟合这个分类器的权重,就可以让计算机运行这个分类器,以此预测剩下的14900个食谱是好是坏。
根据这个分类器,你可以从15000个食谱中挑选出200个最好的食谱,然后尝试一下,确认它们确实不错,保留最好的,这时便大功告成了。
现在,有了构建分类器的技巧,让我们回到网飞奖,看看我们如何使用分类器推荐电影。
四、比赛的目标
网飞应该使用什么标准向观众推荐电影?推荐电影的目标应该是什么呢?
2008 年,克莱夫·汤普森(CliveThompson)在为《纽约时报》撰写的一篇文章中探讨了这些问题。
当时比赛正在进行中,他问道:
网飞的电影推荐服务,是否应该旨在保守地向你推荐你很可能喜欢的电影,即使这部电影不会让你离开舒适区?
或者推荐服务是否应该扮演古怪的音像店店员的角色,一边向你推荐你绝对喜欢的电影,一边冒险推荐一部你可能会认为无聊的电影?
在当时的传统音像店中,新电影和流行电影占了租赁的大部分,传统音像店可以依靠这些有限的选择更容易地推荐电影。
网飞与众不同,其70%的租赁都来自不相关的或古老的“压箱底” 电影。
面对如此庞大的电影数量,加上每次租赁之间都有很长时间的延迟,网飞依靠自己的电影推荐系统Cinematch(电影匹配)来向用户推荐电影。
增加Cinematch对公司的利润至关重要,因为他们有可能失去那些极少看网飞电影或不喜欢等几天才能看到电影的用户,这些观众最有可能取消订阅。
因此,网飞的工程师不断改进他们的Cinematch推荐算法。当他们再无力改善时,便决定举办网飞奖,奖励第一支推荐效率超过网飞算法10%的团队100 万美元奖金。
正如网飞首席执行官里德·黑斯廷斯(Reed Hastings)所指出的,对他们而言,支付巨额奖金并不算真正的风险,获得更好的电影推荐所带来的经济利益可能远远超过奖金的成本。
即使他们的推荐系统只有微小的改进,也可能带来总体上的大胜利,因为在网飞每天的数亿个推荐中,这一数字是成倍增长的。
如果所有参赛队都没达到10%的 目标,网飞也会颁发进步奖。如果参赛队每年都能取得足够大的进步,最好的队伍将获得5 万美元的奖励。
网飞只附加了一个条件:获胜者需要公布他们的推荐算法的细节。
网飞为参赛者提供了一个客观明确的目标,从而简化了任务。参赛者需要预测特定用户在特定日期为特定电影打出的星级评分。
网飞通过计算参赛者预测的评分与用户在一个秘密数据集(参赛者永远不会看到)上给出的实际评分之间的平均方差来评估每个团队的表现。
每当一个团队提交预测结果,网飞就会在秘密数据集上评估团队的表现,并在公共排行榜上更新他们的分数,其他团队和记者都会密切关注他们的分数。
从技术上讲,一个团队仍然可以通过提交大量的预测来“偷窥”这个数据集中的电影评分,但网飞非常聪明。
他们把另一个永远不会透露给参赛者的秘密数据集藏了起来。这个双重保密的数据集只会在比赛结束时用于评估最优秀的候选人。
五、庞大的评分矩阵
鉴于网飞奖专注于用户的电影评分,所以把问题当作一个庞大的评分矩阵来思考是有帮助的。这个矩阵非常庞大:
它提供了17770部电影和480189个不同用户的评分。网飞提供了一些用户对某些电影的评分,并要求参赛者预测一些缺失的评分(矩阵中的问号)。
尽管矩阵规模庞大,但只有1%的矩阵方格里有数字。不用说,大多数网飞用户都只给少数电影打过分。
那么参赛者应该从何下手呢?
在比赛开始之初,大多数顶级竞争者都采用非常相似的方法来分析这些评分。
由AT&T和雅虎的研究人员组成的“贝尔科” 队的成员指出,从简单的基准模型开始解释评分矩阵中最基本的趋势是很重要的。
“贝尔科”队的基准模型主要有两部分。第一部分只适用于电影,我们可以称之为“E.T.效应”。E.T.效应用来衡量一部电影的受欢迎程度,而不管是谁给它打分。
例如,在网飞的数据集中,最不受欢迎的电影是《吸血鬼猎人阿维亚》,这是一部低成本的电影,讲述的是一个女人猎杀衣衫褴褛的吸血鬼的故事。
《吸血鬼猎人阿维亚》在网飞上有132个评分,平均分只有1.5 星(满分5 星)。
亚马逊上有两条关于这部电影的评论,其中一条评论说——
我看了这部垃圾电影,应该得到报酬的。这是在别人家后院用手持摄像机拍的。别看了。如果这能叫电影的话,那它就是我看过的最糟糕的电影!如果我事先知道的话,白送我也不看。
在另一个极端,最受欢迎的电影是奇幻片《指环王3:王者无敌》的加长版,在网飞的数据集中,这部电影有73000 个评分,平均分为4.7 星,分数相当高。
它在亚马逊上得到了压倒性的好评,以下是亚马逊上对这部电影的一条评论——
太棒了!如果你从未看过《指环王》三部曲,那么我强烈推荐!真是优秀的三部曲。我特别喜欢加长版……
虽然这条评论说的更多的是关于三部曲而不是单部电影,但显然观众喜欢它。
而在亚马逊上对这部电影的负面评论,更多的是关于视频的格式或视频的卖家,而非对电影本身的。