人们对大数据往往存在着根本的误解:更大的数据可以有更好的机器学习结果。然而,更多的数据未必能帮助提高机器学习。数据的质量、价值及多样性比数据的大小规模要重要得多。
随着云计算和Hadoop及其变体的出现,大数据逐渐衰落。但现在许多人仍斥巨资建更大的设施来处理、存储和管理庞大的数据库,盲目追求数据的“大”。无疑,在设施建设以及人力资源方面需要投入相当大的成本,但这完全是可以避免的。
是时候把讨论的主题从“大数据”转到“深度数据”了。我们现在不能为了数据的“大”而收集所有可能的数据,而是要更深思熟虑、更明智。我们现在要丢弃一些数据,要注重数据的多样性而不是大小,注重质量而不是数量,这可以带来长期利益。
大数据的奥秘
为了理解从“大数据”到“深度数据”的转变,我们先来看看一些对大数据的误解:
1. 所有的数据都能且应该收集储存起来
2. 更多的数据总是有助于构建更精确的预测模型
3. 存储更多数据增加的成本基本为零
4. 运算更多数据增加的成本基本为零
但现实是:
1. 我们目前仍无法收集物联网和网络流量的所有数据,在收集时必须丢弃一些数据。我们得聪明点,看看哪些数据能有价值。
2. 重复一千次的数据样本不能提高预测模型的准确度。
3. 亚马逊云计算服务(Amazon Web Services)以每万亿字节数据为单位收取服务费,但存储更多数据增加的成本不像亚马逊收取服务费这样简单,还包括寻找、管理多个数据源的额外的复杂工作,还有工作人员移动,使用数据时的“虚拟负担”。增加的这些成本通常比存储以及运算数据的花费还要高。
4. 人工智能算法的运算资源需求很大,甚至会超过一个弹性云计算设施的资源容量。运算资源是线性增长,而运算需求却是超线性增长,如果不熟练掌控的话,甚至是指数性增长。
若是你也对这些大数据也有误解,那么你构建的信息系统,虽然表面看起来不错,也许长远来看也还行,但操作起来会过于繁琐。
大数据的四大问题
盲目相信数据“越大越好”,就会出现以下四大问题:
· 相同的数据再多也无益
在构建人工智能机器学习模型时,训练数据的多样性至关重要。因为模型是根据数据类别来界定概念。例如,如果模型要通过年龄和职业来界定“退休工人”这一概念,那么重复的32岁注册会计师的样本数据对模型完全没用,因为他们都没有退休。以65岁的样本数据界定这一概念更加适用,然后来看看不同职业的退休情况的差异。
· 错误的数据会损害模型
如果新的数据有误或不精确,就会扰乱AI对不同概念的界定,在这种情况下,更多的数据并无益处,反而会降低现有模型的准确性。
· 更大的数据会推迟模型构建
用一万亿字节的数据构建模型可能比用十亿字节的数据构建模型要多花一千倍的时间,根据学习算法的不同,也许会多花一万倍的时间。数据科学关键在于快,不完美但灵敏的模型应优先考虑。没有速度就无法突破前进。
· 构建可用于商业的模型
预测模型的最终目标都是建立一个高精度的、可应用于商业的模型。有时用更隐蔽的数据可使模型的精度更高,但在实际应用中,这些隐蔽数据可能不可靠。精确度虽然较低,但是运算快且可用于商业的模型应优先考虑。
从四个方面可以做得更好
为应对大数据的“黑暗面”并且培养“深度数据”的思维模式,可以这样做:
· 理解精确度/权衡执行
数据科学家们经常把精确度更高的模型视作目标, 但开始项目时,应该根据精确度和执行速率确立明确的投资回报率(ROI)预期。
· 用随机样本数据建立模型
就算有很大的数据也没必要用完全部数据。如果有很好的随机抽样函数的话,用小部分的样本数据就能准确预测出用全部数据构建的模型的精确度。先用小的样本数据快速试验,然后再用数据库的全部数据构建最终模型。
· 丢弃一些数据
如果物联网设备和其他来源的流动数据将你淹没了,你可以丢弃一些数据,或者丢弃很多数据。因为你买不到足够的磁盘来存储这些数据,而且这些数据会搞砸数据科学项目的后期工作。
· 寻找更多数据来源
近来人工智能的许多突破并非来自更大的数据集,而是因为机器学习算法能够挖掘其之前无法获取的数据。例如,大文本、图像、视频和音频数据集等,虽然在现在很常见,但20年前却是没有的。要不断寻找新的数据机会。
四件事情可以使数据变得更好
如果你关注的不仅仅是大数据,还有深度数据,那么你将会受益良多:
· 所有的进程都变得更快
数据越小,数据的移动、实验、训练和模型评分都会更快。
· 存储和计算需求更小
将重点放在深度数据上,你可以有效地使用更小的磁盘和更少的云计算空间。这将直接减少建设设施的成本,省下的钱可以雇佣更多的数据科学家和AI专家。
· IT团队的压力更小 数据科学家心情更好
有了浓厚的深度数据文化,IT团队就不用为数据科学团队跑那么多腿,也不会有那么多占用大量云资源的失控项目。同时,数据科学家们会更开心,他们可以花更多时间构建和测试模型,而不是移动数据,或者长时间地等待训练的完成。
· 更大的难题得到解决
构建人工智能模型不需要魔法,不是只有巫师一般的研究员才能做到,因为构建的关键在于统筹安排而不是魔法。这和一个美术老师的故事相似。老师和班里一半的学生说,他们的成绩是根据其美术作品数量来给,然后告诉另一半成绩是根据其最好的美术作品的质量来给。不出所料,根据作品数量给分的同学创作的作品数量最多,但令人意外的是,这些学生也创作出了质量最高的作品。有时候,作品数量够多时可以出精品。在大数据领域,用同样的数据多做几个模型,会得到更好的模型。
许多公司受到大数据和支持大数据发展的技术突破的极大激励,在制定决策过程中参考大数据。随着AI得兴起以及我们对强大的数据资源的掌握能力,我们现在要更精确地从数据中获得所需信息。现在要做的是创造一个理解深度数据,而不仅仅是理解大数据的氛围。