大数据简单统计版:
话说二战时盟军决定给轰炸机做装甲改装。于是他们首先对战斗结束飞回来的受损飞机做了弹孔着点统计(数据意识还是很强的),发现主要受损部位集中在机翼而机腹最少。所以,指挥部根据此分析得出结论:应当加强机翼的装甲而减少机腹的装甲。
评论:采集和归总数据,然后通过简单的数据分析,给出报告和相关行动建议,这是当下很多大数据工作者做的事情。在很多情况下,这样的做法比一点不看数据是有进步的。 但是从下面一个例子也可以看出其危险不小。
大数据商业智能版:
(接上版)话说在这“加强机翼”弥天大错就要酿成的关键时刻,一位聪明的工程师(到底是工程师还是将军这里有不同版本,咱们就不深究了)站出来说“等等,不对,咱们统计的都是能返航的飞机,那些被击落没有返航的飞机呢?死人不会说话”。据此推论,“一架飞机某个部位弹孔多还能飞回来恰恰说明那个地方不需要加强,我们应该加强没有弹孔或者弹孔少的部位,因为那些部位弹孔多的都被击落了没有飞回来。”
评论:这个版本是大多数人听到的完整故事。这个版本本身已经够转折,很好理解又需要脑筋转弯,所以传播很广。这个版本实际上可以说是一个“BI版本”。为啥说这是“BI版” 呢?因为这个工程师能够在表面数据统计基础上,再结合业务场景思考,提出业务场景和数据相结合的思路。这是大多数好BI的标准。同时,因为BI同学多倾向于用可获得的数据快速输出结论给业务,他们一般不太愿意从数据源等更科学的角度来思考结论的正确性。所以,这个工程师可以说是个合格的BI。
但为啥这还不是数据科学呢?因为这里的结论只是一个基于经验的推论和假设,如果盟军真是就靠这个直觉假设改了最初的决定,那也很危险。
值得注意的是,日常的业务中是允许发生这样的猜想并试错的。我们可以不停地试错迭代,实践出真知。但对一些试错成本很高或者不能试错的关键战略问题呢?我们就必须寻找更可靠的方法。这就引向了我的最后一个话题:数据科学的版本是啥样的?
大数据数据科学版:
(接上版):实际上,在聪明的工程师意识到他们统计的数据只是返航飞机的时候,这仅仅是该重大项目的开始而不是结束。他们并不是靠这个简单的猜想就做出了可能关系到整个战争胜负的结论。他们得出的阶段性结论是:我们的数据有问题,缺乏被击落的飞机的数据。而这些数据研发工程师和BI也想不出好办法解决这个问题,于是他们找到了数据科学的开山祖师之一——美国哥伦比亚大学统计学沃德教授(Abraham Wald)。
为了解决这个数据难题,沃德教授做了大量的研究,研究方法包括对收集到的历史数据进行分析,虚拟数据仿真建模,甚至用真的战斗机扫射靶机做实验,建立一套飞机每个部位中弹后的坠毁概率模型等。
其基本思路就是通过大量统计分析,推理出飞机的致命要害部位与弹孔分布密度的关系,绝不仅仅是简单的看弹孔分布密度。比如他发现发动机是最要命的地方,被击中一弹就有39%概率彻底坠毁,所以在返航的飞机上发动机处弹孔很稀疏。具体模型有兴趣的同学可以读沃德的这篇经典论文“A Method of Estimating Plane Vulnerability Based on Damage of Survivors”。
评论:首先,这是一个最好的阐述数据科学和BI差别的例子。BI大多数时候是在现有数据基础上比较快地给出业务需要的答案。数据科学在方法和结论的科学可验证性上要严谨得多。它的优势是能解决很多对业务至关重要而又不能低成本试错的场景。它的缺点是对数据有更严格的要求且更耗时,要比一般的分析复杂得多,相应地需要消耗更多的资源。
类似的幸存者偏差数据问题在我们日常大数据工作中无处不在。
比如一个阅读App,它只能收集分析到现有活跃用户的阅读偏好数据,而缺乏对新用户及全网用户的阅读偏好及变化趋势的了解;比如某品牌App的数据平台,它大多数时候只能采集到购买了该品牌产品的用户的相关数据,而没有全市场的数据和类似客户产品使用的相关数据。数据问题对很多关键数据任务,如公司战略数据分析、标签画像产出、产品创新、品类规划等都会产生很大影响。据了解,目前市场上大多数的数据科学或者算法都很少系统地研究并解决这类关键数据问题!
这个短故事今天就讲到这里,下面有时间我们再结合友盟+的数据科学研究,分享我们打算怎么样在保证数据安全的前提下,帮开发者避免幸存者偏差问题。
CIO之家 www.ciozj.com 微信公众号:imciow