在过去几十年里,机器学习领域发生了巨变。诚然,有些方法已经存在很长一段时间,仍然是该领域的重要方法。例如,最小二乘法的概念早在19世纪早期就由Legendre 和Gauss提出。其他方法,如神经网络,其最基本的形式是在1958年引入的,在过去的几十年里得到了很大的发展,而其他方法,如支持向量机 (SVMs),则是最近才出现的。
由于监督学习有大量可用的方法,所以人们经常提出一个问题:最好的模型是什么?众所周知,这个问题很难回答,正如George Box所言,所有的模型都是不好的,但也都有一些可取之处。而判断模型有用与否则取决于手头上的数据。因此,这个问题没有统一答案。相比而言,下面这个问题要容易回答一些:最流行的模型是什么?这是本文的关注点所在。
衡量机器学习模型的流行度
本文将采用频率论的方法来定义流行度。更准确的说,本文将使用提及个体监督学习模型的科学出版物的数量来反映模型的流行度。当然,这个方法有如下局限性:
· 可能有比出版物数量更准确的标准来衡量流行度。比如,出版物中对某一模型的批评并非意味该模型是流行的。
· 分析会受到使用的搜索词的影响。为了确保较高的准确度,我们没有使用模型的缩写,这就有可能导致不能检索到所有可能的结果。此外,对于那些在分析中未被考虑的搜索项引用的模型而言,灵敏度可能较低。
· 文献数据库并不完善:有时,出版物存储的元数据有误(如年份有误)或可能存在重复的出版物,因此,出版频率中的一些干扰是可以预测的。
本文将进行两种分析。第一种是对出版频率的纵向分析;第二种是比较不同领域中涉及机器学习模型的出版总量。
第一种分析通过搜索Google Scholar(收录科学出版物的标题和摘要)中的数据来确定出版物的数量。而从Google Scholar搜索数据是出了名的困难,所以我们借助ScrapeHero提供的实用建议来收集数据。
分析中包括了以下13种监督方法:神经网络、深度学习、支持向量机、随机森林、树形判定分类法、线性回归、逻辑回归、泊松回归、岭回归、套索回归、k-近邻法、线性判别分析和对数线性模型。注意,套索回归考虑了套索回归术语和套索模型;k-近邻法考虑了k近邻术语。所得到的数据集显示了从1950年至今与每个监督模型有关的出版物数量 。
从1950年至今的监督模型使用
为了分析纵向数据,我们将机器学习划分为两个阶段:早期(1950-1980)——只有少量模型可用;形成期(1980至今)——人们对机器学习的兴趣激增,开发了很多新模型。注意,以下图像只显示最相关的方法。
早期:线性回归占据主导地位
从图1中可以看出,线性回归是1950 -1980年间的主要方法。相比之下,其他机器学习模型在科学文献中极少被提及。然而,从20世纪60年代开始,神经网络和树形判定分类法开始流行起来。还可以看到,逻辑回归尚未得到广泛的应用,在70年代末被提及的次数也只是略有增加。
形成期:神经网络的多样化和兴起
图2显示,从上世纪八十年代末开始,科学出版物中提到的监督模型变得更加多样化。更重要的是,在2013年之前,机器学习模型在科学文献中被提及的比率一直在稳步上升。该图特别展示了线性回归、逻辑回归和神经网络的普及。正如我们所见,线性回归在1980年以前就已经很流行了。然而,在1980年,神经网络和逻辑回归的流行度开始迅速增加。尽管逻辑回归的流行度在2010年达到顶峰,当时几乎与线性回归一样受欢迎,但在2015年,神经网络和深度学习(神经网络/深度学习曲线见图2)的流行程度甚至超过了线性回归。
神经网络之所以大受欢迎,是因为它在图像识别(ImageNet, 2012)、人脸识别(DeepFace, 2014)和游戏(AlphaGo, 2016)等机器学习应用方面取得了突破。Google Scholar的数据表明,在过去几年里,科学论文中提到神经网络的频率略有下降(图2中未显示)。这可能是因为深度学习术语(多层神经网络)在一定程度上取代了神经网络术语的使用。使用 Google Trends亦可得出同样的结论。
剩下的稍微不那么流行的监督方法是树形判定分类法和支持向量机。与前三种方法相比,这两种方法被提到的几率要小得多。但需要注意的是,这两种方法在文献中被提到的频率波动似乎也较小。这与其他方法(如线性回归和逻辑回归)形成了鲜明对比,后者被提及的次数在过去几年中已大大减少。而在树形判定分类法和支持向量机之间,支持向量机似乎表现出更有利的增长趋势——在其问世仅15年后就超越了树形判定分类法。
上述机器学习模型被提及的次数在2013年达到顶峰(589,903篇),此后略有下降(2017年为462,045篇)。
监督学习模型在不同领域的流行度
第二种分析将研究不同的群体是否依赖于不同的机器学习技术。为此,我们参考了三个科学出版物资料库:用于一般出版物的Google Scholar ,用于计算机科学出版物的 dblp ,用于生物医学出版物的PubMed。在这个三个资料库中,我们确定了13个机器学习模型的出现频率。结果如图3所示。
图3表明,许多方法仅适用于特定领域。下面,我们来分析下每个领域中最流行的模型。
监督学习模型的总体使用情况
根据Google Scholar,五种最常用的监督模型是:
1. 线性回归:3,580,000篇论文,占34.3%
2. 逻辑回归:2,330,000篇论文,占22.3%
3. 神经网络:1,750,000篇论文,占16.8%
4. 树形判定分类法:875,000篇论文,占8.4%
5. 支持向量机:684,000篇论文,占6.6%
总的来说,线性模型显然占主导地位,在监督模型的出现率中占50%以上。非线性方法紧随其后:神经网络以16.8%的论文提及率排名第三,接着是树形判定分类法(8.4%)和支持向量机(6.6%)。
生物医学领域的模型使用
根据PubMed,生物医学领域最流行的五个机器学习模型是:
1. 逻辑回归:229,956篇论文,占54.5%
2. 线性回归:84,850篇论文,占20.1%
3. Cox回归分析:38,801篇论文,占9.2%
4. 神经网络:23,883篇论文,占5.7%
5. 泊松回归:12,978篇论文,占3.1%
在生物医学中,我们可以看到线性模型被多次提及:五种最流行的方法中有四种都是线性的。这可能有两个原因。首先,在医疗学环境中,样本数量往往太小,无法适应复杂的非线性模型。其次,解释结果的能力对医学应用而言至关重要。由于非线性方法通常难以解释,所以它们不太适合医学应用,毕竟仅凭高预测性能通常是不够的。
逻辑回归在PubMed数据中的流行可能是因为临床研究出版物的大量发行。在这些研究中,分类结果(即治疗成功率)经常使用逻辑回归分析,因为它非常适合解释特征对结果的影响。注意,Cox回归在PubMed数据中非常流行,因为它常被用于分析Kaplan-Meier存活数据。
计算机科学领域的模型使用
从dblp检索计算机科学文献中最流行的5种模型是:
1. 神经网络:63,695篇论文,占68.3%
2. 深度学习:10,157篇论文,占10.9%
3. 支持向量机:7,750篇论文,占8.1%
4. 树形判定分类法:4,074篇论文,占4.4%
5. 最近邻:3,839篇论文,占2.1%
在计算机科学出版物中提到的机器学习模型的分布特点十分明显:大多数出版物似乎应用最新的非线性方法(例如神经网络、深度学习和支持向量机)。如果将深度学习包括在内,那么检索结果中有四分之三以上涉及神经网络。
群体之间的鸿沟
图4总结了文献中提到的参数模型(包括半参数模型)和非参数模型的所占比例。条形图表明,机器学习研究中所研究的模型(如计算机科学出版物所示)与所应用的模型类型(如生物医学和综合出版物所示)之间存在很大差异。
超过90%的计算机科学出版物应用非参数模型,而大约90%的生物医学出版物应用参数模型。这表明,机器学习的研究主要集中在最先进的方法上,如深度神经网络;而机器学习用户则往往依赖于更易于解释的参数模型。
总结
通过对科学文献中提到的个体监督学习模型的分析,可以看出人工神经网络的高度普及。然而,我们也看到不同类型的机器学习模型被用于不同的领域。特别是生物医学研究领域的研究人员仍然非常依赖参数模型。有趣的是,更复杂的模型是否会在生物医学领域得到广泛应用,或者这些模型是否不适合该领域的典型应用(例如,由于这些模型的可解释性不足,当样本容量很小时,通用性较低)。