王汉生,北京大学光华管理学院商务统计与经济计量系,嘉茂荣聘教授,博导,系主任。在理论研究方面,关注高维数据分析。在业界实践方面,王汉生教授是国内最早从统计数据分析角度关注并研究搜索引擎营销,社交网络数据,以及位置轨迹数据分析的学者。曾与百度合作完成百度分析师高级培训,并担任百度认证专家委员会委员。在推进统计应用在电子商务以及移动互联网应用方面建树颇多。
现主要理论研究兴趣为:高维数据分析、变量选择、数据降维、极值理论、以及半参数模型。主要应用研究兴趣为:搜索引擎营销、社会关系网络。
王汉生观点:中国统计学的风口在哪?
作为一个在商学院工作了十多年的统计学教员,一天到晚为自己,为学生,或者年轻合作伙伴多写俩Statistical Paper绞尽脑汁,也是无聊透顶,不知道多少脑细胞因此牺牲。难得空闲的时候,就瞎琢磨几个深刻的问题。当然,我也不知道这么深刻的问题,该不该我来琢磨。但是既然琢磨了,就不如写下来跟大家分享探讨。这几个问题就是:中国统计学未来发展的大方向是什么?背后的逻辑是什么?套用一句时髦的互联网语言就是:中国统计学的风口在哪里?
人说以史为鉴!所以,首先简单回顾一下某些统计学领域的发展史,例如实验设计。当年,这个领域是如何发展起来的?难道是少数天才学者的智力游戏吗?显然不是。这是农业生产的需要。相关科学实验是最根本的驱动力。那么后来呢?是工业化进程,以至于又催生了质量控制、可靠性等相关学科。而过去这十年是计算机实验。那么未来呢?我想一定是互联网。这说明什么?这说明统计学的发展要顺应产业变革,这是大势所趋!
再看一个例子,高维数据分析是最近20年才被提出来的吗?不是!早在这个之前,就有学者,受个人学术兴趣的驱动,也曾提出过类似的问题,但没有形成气候。为什么?是因为其他学者当时有眼无珠吗?我认为不是。一个主要原因是,这样的方法在当时好像没什么重要的实际应用。这就难怪当时主流统计学研究不关心这个问题。但为什么,这个当年让人脑洞大开的异类问题,却成了最近20年的研究主流了?因为科学技术变了。以DNA Microarray为代表的生物技术的巨大进步,产生了大量这样的数据。而这些数据,蕴藏着关乎人类生命健康的秘密,具有重要的科学价值。这成就了过去这些年的(超)高维数据研究。这说明什么?这说明统计学的发展依赖于技术进步,这是大势所趋!
最后一个例子。为什么制药统计学在美国那么重要?因为生物制药这个产业极其强大。默克、强生、施贵宝等一大批制药巨头,每年要实施大量的临床实验,产生了大量的数据,造成了海量的分析需求,进而推动了制药统计学的发展。为什么这些巨头愿意投入巨大的时间、财力、物力作临床试验?是它们对科研的好奇心?还是道德上的高尚?可能都有一些,但不是最根本的。最根本的是美国食品药物监督局(FDA)对市场的强力监管。这个制度环境造成了相关企业必须实施严格的临床试验,进而产生了强劲的统计分析需求。而制药统计的发展,又极大地促进了相关领域,例如:生物统计学的发展。这说明什么?这说明统计学的发展需要一定的制度环境,这是大势所趋!
所以我们不妨下一个结论:“统计学的大势所趋,从不以任何个人的兴趣爱好为转移。而是由产业变革(例如:工业化进程),技术进步(例如:DNA Microarray),还有制度环境(例如:FDA政策)所决定”。这一点,我认为一定要看清楚!雷军说:站在风口,猪都能飞!这说的是,重大选择要顺势而为。背后隐含的另外一个结论是,如果逆风而动,鹰也飞不起来。这是我个人看待中国统计学发展方向的基本逻辑。那么,在中国这片土地上,面对当下的产业基础,政策环境,我们的大势在哪里?统计学的风口在哪里?要当飞起来的猪?还是被打趴下的鹰?或者更好:顺势而为的鹰?
要回答这个问题,需要检讨一下中国的现状。中国有强大的制药产业吗?我相信未来会有。但不是今天,不是明天,不是我们可见的未来5到10年。为什么?因为我们缺乏强有力的制度环境。更加具体地说,我们缺乏类似FDA的强力监管机构。现在的国家药品监督局(即:中国的FDA)已经做了很多有意义的工作,但是显然还远远不够。为什么?君不见大家对食品安全的焦虑吗?这还不足以表明我们的制度环境需要long way to go吗?如果上面讨论的是对的,那么请允许我做一个悲催的预测:在中国,未来可见的相当长时间内,生物统计学,将会是一个重要的存在,但是不可能大放异彩。为什么?因为:没有相应的制度环境。对,就这么简单!
那么中国有哪些产业在全球范围内是有竞争力的呢?第一、互联网;第二、制造业。这很好理解。互联网方面,我们有以BAT为代表的一大批有竞争力的企业。而制造业方面,中国是世界的中心,孕育了像华为这样伟大而优秀的企业。这两个行业,有可能形成风口,或者正在形成。这两个行业就是统计学研究的大势所趋,风口所在!
更进一步地,这两个大势对统计学研究的具体影响会是什么呢?我们先讨论一下互联网,尤其是移动互联网,因为大家都很熟悉。请问:移动互联网产生了什么独特数据?它们的价值何在,应该如何研究?要回答这个问题,看看自己最常用的APP就知道答案了。我们最常用什么?微信。国外呢?Facebook andTwitter。它们是什么?全部都是基于社交的软件或者服务。它们产生了什么样的数据?首先是网络结构数据,用于刻画了用户之间的社交关系。对于统计分析,这会带来什么样的变化?最根本的变化就是让信息沿着网络结构开始流通。通俗地讲,以前,我们判断一个人是好人还是坏人(因变量),主要参考他自己的特征(解释性变量)。但是,有了网络结构,与之相连个体的所有信息(即包括因变量、也包括解释性变量),都可以被利用起来,以提高预测精度。但是,能够符合该理念、满足该需求的统计学模型却少之又少。这就是网络数据赋予统计学发展的重大机会,这就是风口所在!
再看看制造业。制造业有几个特点。第一、中国是全世界的制造中心,但是亟待产业升级,进入工业4.0时代。第二、与世界制造中心相对应的是,对中国制造业的数据,我们却极其无知,远远落后于互联网。产生这个现象,可能有两个原因:首先可能是是传统制造业的数据采集困难,不如互联网方便;其次可能是互联网的故事太抢眼,让我们忘记了传统产业。但是,我个人感受到的传统行业,尤其是制造业,却蓄势待发!为什么?两个基本事实:(1)物联网技术越来越成熟,相应的数据采集越来越方便。一个典型的案例就是车联网。毋庸置疑,未来的汽车一定被成百上千个、各种各样的探测器所包围。这些探测器会准确记录汽车行驶的方方面面。例如:胎压、发动机温度、地理位置、行驶方向、行驶速度、加速度、角速度等。这就构成了统计分析的数据基础。(2)由于传统制造业体量巨大。动则一个汽车厂商年产汽车百万台,或者一个家电企业年产电视机千万台。因此,如果数据分析能够产生任何有益的改进方案,带来的价值都是极其巨大的,很可能远远大于数据分析(例如:精准营销)之于互联网的价值。由此可见,对于传统制造业,数据分析,很可能不以消费者为第一核心。而是以流程再造、产品改进、成本节省为第一核心。这点跟互联网行业很不一样。而这一切,都是以物联网的大规模、低成本的实施为前提。因此,物联网将是另外一个风口所在!
基于以上讨论,作为统计学工作者的我们应该如何应对?我认为需要以一种非常谦卑开放的心态,去学习业务知识,了解应用场景,实践统计学理论。这方面,可供我们实践的沃土太丰富了。它们包括但不局限于:游戏、电商、社交、广告、投资、金融、征信、可穿戴设备、车联网、设备监控、政府、医疗等。过去的历史已经很清楚地说明:统计学的发展,一定要顺势而为。要顺应产业变革,技术进步,以及制度环境。在中国,互联网和物联网就是大势所趋,这就是风口所在。统计学从这里出发,想不飞都难!
文/北京大学光华管理学院官微