点击上方关注,All in AI中国
我们正处于AI热潮,机器学习专家掌握非凡的薪水,投资者在会见AI初创公司时,会敞开他们的心扉和支票簿。这样做是正确的:因为它是每代就会发生一次的转型技术之一。AI技术最终将留下来,它将改变我们的生活。
这并不意味着你的AI创业成功变得很容易。我认为,任何试图围绕人工智能建立业务的人都会遇到一些“陷阱”。
我的儿子和我,使用艺术风格迁移处理图像。这项技术激发了我对深度学习的兴趣。
你的AI技能正在贬值
2015年,我还在谷歌并开始玩DistBelief(他们后来将其重命名为TensorFlow)。说实话使用起来没有那么顺手,主要的抽象还不符合你的预期。让它在Google构建系统之外工作的想法,简直是一个白日梦。
在2016年底,我正在研究在组织病理学图像中检测乳腺癌的概念验证。我想使用迁移学习:采用Inception,它是当时谷歌最好的图像分类架构,并使用癌症数据进行重新训练。我会使用Google提供的预训练过程中的权重,只不过更改了顶层以匹配我正在做的事情。在TensorFlow经过长时间的试验和错误之后,我终于想出了如何操纵不同的层,并使其大部分发挥作用。这需要花费大量的毅力并阅读TensorFlow的资料来。至少我不必过于担心依赖关系,因为TensorFlow准备了Docker镜像。
在2018年初,由于缺乏复杂性,上面的任务不适合实习生的第一个项目。多亏了Keras(TensorFlow上的一个框架)你可以用几行Python代码就完成它,并且它不需要深入了解你在做什么。但有一个痛点是超参数调整。如果您有深度学习模型,您可以调整多个参数,如图层的数量和大小等。但如何获得最佳配置并非易事,而且一些直观的算法(如网格搜索)效果不佳。你最终进行了大量的实验,感觉更像是一门艺术,而不是一门科学。
在我写下这些文字(2019年初)时,谷歌和亚马逊提供自动模型调整服务(Cloud AutoML,SageMaker),微软正计划这样做。我预测,手动模型调优将会像渡渡鸟一样灭亡,而对于机器学习工程师来说,这也算是一种很好的解脱。
我希望你能看明白这后面的模式。困难的事情终将变得容易,你可以在获得更多的同时减少理解。过去的伟大工程技术在现在听起来也相当蹩脚,我们不应期望我们目前的成就在将来会更好。这是一件好事,也是一个惊人进步的标志。我们将这一进步归功于谷歌等公司,他们正在大力投资这些工具,然后免费赠送给他们。他们这样做的原因是双重的。
首先,这是尝试将其实际产品(即云基础设施)的补充商品化。在经济学中,如果你倾向于一起购买,两种商品是互补的。一些例子:汽车和汽油,牛奶和谷物,培根和鸡蛋。如果其中一个补充的价格下降,对另一个的需求将会上升。云的补充是运行在它上面的软件,而AI的东西也具有很好的属性,它需要大量的计算资源。因此,使其开发尽可能便宜是很有意义的。
特别是谷歌如此热衷于人工智能的第二个原因是它们在亚马逊和微软方面具有明显的比较优势。他们早些时候就开始了,毕竟他们推广了深度学习的概念,所以他们设法抓住了很多人才。他们在开发AI产品方面拥有更多经验,这为他们开发必要的工具和服务提供了优势。
尽管取得了令人兴奋的进展,但对于那些在人工智能方面投入巨资的公司和个人来说,这都是坏消息。今天,他们为您提供了一个坚实的竞争优势,因为培养一名称职的ML工程师需要花费大量时间阅读论文,并且需要坚实的数学背景。但是,随着工具越来越好,情况就不再如此。它将更多地是阅读教程而不是科学论文。如果你没有很快意识到自己的优势,那么一群带图书馆的实习生可能会吃掉你的午餐。特别是,如果实习生有更好的数据,这将引出我们的下一个观点.....
数据比花哨的AI架构更重要
假设你认识两个AI初创公司的创始人,Alice和Bob。他们的公司筹集了相同数量的资金,并在同一市场上激烈竞争。Alice 在最好的工程师和拥有丰富的人工智能研究经验的博士上进行投资。而 Bob 则雇佣了平庸但能干的工程师,并投资她(“鲍勃”是罗伯特的简称!)以获得更好的数据。那么,你会在哪个公司身上下注。
我会将钱下注在Bob身上。为什么呢?从本质上讲,机器学习的工作原理是从数据集中提取信息并将其传递给模型权重。更好的模型在这个过程中更有效(在时间和/或整体质量方面),但是假设某个足够的基线(即模型实际上正在学习某些东西),拥有更好的数据将会胜过更好的架构。
为了说明这一点,让我们做一个快速的测试。我创建了两个简单的卷积网络,一个是“更好”的网络,另一个是“更差”的网络。最好的模型的最后一个密集层有128个神经元,而较差的一个只需要64个。我在MNIST数据集的子集上对这两个模型进行训练,并绘制模型在测试集上的精确度与训练的样本数的关系图。
训练数据集大小的积极影响是显而易见的(至少在模型开始过度拟合和准确平台之前是这样)。代表“更好”的模型,蓝线,明显优于“更糟糕”的模型的绿线。然而,我想要指出的是,在4万个样本上训练的“更差”模型的准确性优于3万个样本的“更好”模型!
在我的示例中,我们处理的是一个相对简单的问题,我们有一个全面的数据集。在现实生活中,我们通常没有这样的奢侈品。在许多情况下,您永远也无法逃避图表中增加数据集具有如此显著效果的部分。
更重要的是,Alice的工程师实际上并没有与Bob的人竞争。由于人工智能社区的开放文化及其对知识共享的重视,他们还与谷歌,Facebook,微软和全球数千所大学的研究人员展开竞争。如果您的目标是解决问题(而不是对科学作出原创贡献,那么)采用文献中描述的最佳表现并将其重新训练成您自己的数据是一个经过实战检验的策略。如果现在没有什么可用的东西,通常需要等待一两分钟,直到有人提出解决方案。特别是你可以做一些事情,比如举办一场Kaggle比赛,以激励研究人员调查你的特定问题。
良好的工程设计始终很重要,但如果您做的是人工智能的话,那么数据就是创造竞争优势的关键因素。然而,最重要的问题是,你是否能够保持自己的优势。
在AI中,保持竞争优势很难
凭借她优秀的数据集Bob成功地与Alice竞争,她做得很好。她推出了自己的产品,并且正在稳步增加市场份额。她甚至可以开始聘用更好的工程师,因为坊间传言她的公司是合适的选择。
Chunk 想要赶进度,但他比Bob有更多的钱。在构建数据集时,这很重要。通过向其投入资金来加速工程项目非常困难。事实上,分配太多新人可能会阻碍项目的发展。但是,创建数据集却是另外一种不同的问题。通常,它需要大量人工操作 - 您可以通过雇用更多劳动力来轻松扩展其规模。或者可能是有人拥有数据 - 那么你所要做的就是支付许可费。无论如何,有钱好办事。
为什么Chuck能够筹集到比Bob更多的钱?
当创始人发起新一轮融资时,他们会试图平衡两个可能存在冲突的目标。他们需要筹集到足够的资金才能胜出。但是,他们又不能筹集太多的资金,因为这样以来就会导致公司股权被过度稀释。接受外部投资者就意味着出售公司的一部分。创始团队必须在初创公司中保持足够份额的股份,以免他们失去创业的动力(要知道,创业可是一项艰苦的工作!)
另一方面,投资者也希望他们的投资是投在有着巨大潜力的点子上,但他们必须控制风险。随着感知风险的增加,他们会要求公司为他们支付的每一美元提供更多的股票份额。
当 Bob 筹集资金的时候,这是信心上的一次飞跃:人工智能能够真正提升她的产品。不管她作为创始人的素质如何,也不管她的团队有多优秀,毫无疑问,她一直在努力攻克的问题难以解决。而 Chunk 的情况非常不同,他知道这个问题是很容易解决的,因为 Bob 的产品就是活生生的证据!
Bob 应对这一挑战的可能反应之一是发起另一轮新的挑战。她应该处于有利地位,因为(目前)她在这场竞赛中仍然保持领先。然而,情况可能会更复杂。如果 Chunk 可以通过战略关系确保能够对数据的访问呢?遇到这种情况该怎么办?例如,假设我们正在讨论一家癌症诊断初创公司,那么 Chunk 可以利用他在一家重要医疗机构的内部地位,与该机构达成私下交易,而 Bob 很可能无法做到这点。
那么,你将如何为人工智能产品构建可维护的竞争优势呢?
前段时间我有幸与 Microsoft 研究院的 Antonio Criminisi 交谈。他的想法是,这个项目的秘密武器不应该只由人工智能组成。例如,他的 InnerEye 项目除了利用了人工智能外,还用到了经典(不是基于机器学习)的计算机视觉来分析放射图像。
从某种程度上来说,这可能和你创办人工智能初创公司的初衷不一样。不过,将数据扔到模型并看到它工作的能力还是非常有吸引力的。然而,传统的软件组件更难重现,因为这种组件往往需要程序员思考算法,并利用一些难以获得的领域知识才能构建。
人工智能最好像杠杆一样使用
对业务进行分类的一种方法是,看它是直接增加价值,还是为某些其他价值来源提供杠杆作用。让我们以一家电子商务公司为例。如果你创建了新的产品系列,那么你可以做到直接增加价值。以前什么都没有,现在有了小商品,客户就可以为它们支付费用。另一方面,建立新的分销渠道相当于起到杠杆作用。比如,通过开始在 Amazon 上销售你的小商品,你就可以将销售量翻倍。削减成本也是一种杠杆,如果你与中国的小商品供应商达成更好的交易谈判,那么,你的毛利率将会翻一番。
相比直接施力,杠杆更有可能推得更远。但是,杠杆只有在与直接价值来源耦合时才会起作用。如果你将微小的数进行加倍,它就不会停止变小。如果你没有小商品出售的话,那么,获得新的分销渠道就是浪费时间。
在这种情况下,我们应该如何看待人工智能呢?有很多公司试图将人工智能作为它们的直接产品(如用于图像识别的 API 等)。如果你是人工智能专家,那么这个想法可能非常诱人。然而,这实在是一个非常槽糕的主意。首先,你是在与 Google、Amazon 等公司竞争。其次,制造真正有用的通用人工智能产品是非常困难的。比如,我一直想使用 Google 的 Vision API。 不幸的是,我们还没有遇到这样的一个客户:他的需求与我们的产品完全匹配。它要么是太多,要么是不够,总是这样。定制开发可比在圆孔中钉入方形桩钉要好多了。
综上所述,我们可以得出一个结论:将人工智能视为杠杆是更好的选择。你可以采用现有的、可行的商业模式,并通过人工智能来增强它。例如,如果你有个流程依赖于人类的认识劳动力,那么,将这一流程自动化可以提高你的毛利率。我能想到的一些例子是心电图分析、工业检查、卫星图像分析等等。同样令人兴奋的是,因为人工智能留在后端,所以你有一些非 AI 选择来形成并保持你的竞争优势。
结论:
人工智能是一种真正的革命性技术。但是,将你的初创公司建立在人工智能之上可是一件非常棘手的事情。你不应该仅仅依赖于你的人工智能技能,因为,它们会因更大的市场趋势而贬值。
构建人工智能模型可能是一件非常有趣的事情,但真正重要的事情是拥有比竞争对手更好的数据。要知道,保持住竞争优势是很难的事情,特别是如果遇到的是比你更有钱的竞争对手时,而你刚有了人工智能的点子,那么这种情况很可能会发生。
因此,你的目标应该是创建一个可扩展的数据收集过程,这个过程很难被竞争对手复制。人工智能非常适合颠覆依赖低资质人员认知工作的行业,因为它允许自动化这类工作。
作者:Ric Szopa