如何对于统计专业来说,哪个方向是核心?

BugBuster喵

说句得罪人的话,如果谁现在还在纠结数理统计 vs 应用统计,已经落后这个时代至少五年了。

我知道这个开头会让很多人不舒服。但请你耐心看完。

我本科统计,博士期间做因果推断,现在在业界做 AI 相关的工作。看到了太多统计专业的学生,花了四年甚至六年时间,学了一堆正确但过时的方向规划经验,毕业后发现自己两头不靠。

学数理统计的,发现纯理论岗位几乎不存在;学应用统计的,发现自己写代码干不过 CS,做模型又没有自己的核心壁垒。最后很多人带着一种说不清的迷茫感离开了这个专业。

这不是统计学不行了。恰恰相反,统计学从来没有像今天这样被整个科学界和工业界如此迫切地需要过。问题出在:绝大多数人对"统计的核心"这件事,从一开始就理解错了。

统计学的核心方向,不是概率论,不是数理统计,不是回归分析,甚至也不是机器学习——而是"因果推断"以及围绕它生长出来的一整套关于"在不确定性下做出可靠结论"的方法论体系。

我们先搞清楚一件事:统计学到底在干什么。

大多数人会说:"统计就是分析数据的学科。"但是计算机也分析数据,物理学也分析数据,甚至你打开 Excel 做个图也在分析数据。如果统计学的定义就是"分析数据",那这个学科早就被吞并了,根本不需要单独存在。

统计学真正的独特之处在于,它是所有学科里唯一一个系统性地回答这个问题的——"你凭什么相信你得出的结论是对的?"

物理学家做实验得出一个规律,他怎么知道这不是偶然?医学研究者发现某个药有效,他怎么排除安慰剂效应?互联网公司上线了一个新功能,DAU 涨了 2%,这到底是功能带来的还是赶上了节假日?

所有这些问题的本质是同一件事:在一个充满噪声、混杂、偏差和不确定性的世界里,如何做出靠得住的判断。

这才是统计学的灵魂。不是计算均值方差,不是拟合一条回归线,不是调参训练一个神经网络。那些都是手段,而统计学的灵魂是在不确定性中逼近真相的思维方式。

一旦你理解了这一点,你就会发现所谓核心方向的问题豁然开朗了——因为不是所有分支都在同等程度上回应这个灵魂。

如果你去问一个统计系的老教授,"统计的核心是什么?",十个里面有八个会告诉你:数理统计。估计理论、假设检验、渐近理论、充分统计量、最优估计……这些东西构成了统计学过去大半个世纪的理论根基。

这个回答在二十年前是对的。甚至在十年前也基本没问题。但今天,如果你还把数理统计当作唯一的核心,你对这个学科的理解就还停留在上个时代。

数理统计真正的问题其实在于:它回答的是"假设模型是对的,怎么最优地估计参数"这个问题,但现实世界里,模型几乎从来都是错的。

你学了 UMVUE(最优无偏估计),在教科书里美得不行,可实际数据分析中你几乎用不到,因为无偏性在高维场景下反而是个灾难,有时候有偏的 estimator 表现远远更好。你学了 Neyman-Pearson 引理,觉得假设检验这套框架天衣无缝,但到了工业界你发现所有人都在被 p 值搞得焦头烂额,2019 年 ASA 直接发了声明呼吁大家别再滥用 p<0.05 了。

这不是数理统计的错。它在它的问题框架下是完美的。问题在于,现实世界的核心问题已经从"如何最优估计"迁移到了"如何做出可靠的因果性结论",而经典数理统计对这个问题几乎是失语的。

所以我的观点是:数理统计是地基,永远需要学,但它不再是核心方向。它是核心的基础设施,但不是核心本身。

然后我们来说说这十年来最火的方向:机器学习。

我见过太多统计专业的学生,从大二开始就 all in 机器学习。刷 Kaggle,学 PyTorch,读 transformer 的论文,然后在简历上写"熟悉各类机器学习算法"。我理解这种选择——因为就业市场的信号太强了,互联网大厂、AI 公司开出的薪资太诱人了,你不跟就觉得自己在被时代抛弃。

但我想泼一盆冷水:统计专业的学生跑去卷机器学习工程,是在用自己的短板去打别人的长板,这是一条性价比极低的路。

为什么?因为机器学习本质上干的事情是预测——给我一堆数据,我训练一个模型,让它在新数据上的预测尽可能准确。这件事需要的核心能力是什么?是工程能力。是你能不能高效地处理 TB 级别的数据,能不能把模型部署到分布式系统上,能不能在 GPU 集群上调度训练任务。这些能力,说实话,CS 出身的人天然就比统计出身的人强。人家从大一就开始写代码,数据结构、操作系统、计算机网络一路学下来,工程素养是刻在骨子里的。你一个统计出身的人跑去跟他们卷这些,除非你是天赋异禀,否则大概率卷不过。

"但是机器学习不也有理论吗?统计学习理论、泛化界、VC 维这些不都是统计的东西吗?"——是的,但做机器学习理论是另一回事。那个方向需要极强的数学功底(高维概率、经验过程、集中不等式),走纯学术路线,岗位极少,卷的程度不亚于纯数学。绝大多数说自己做机器学习的统计学生,做的并不是这个。

更关键的是,机器学习在本质上回避了统计学最核心的问题。它不关心为什么。深度学习模型可以告诉你一张图片里有猫,但它不关心猫为什么在那里。推荐算法可以预测你会点击某个商品,但它不关心你点击的真正原因是什么。在预测的世界里,你不需要理解因果,你只需要相关性就够了。

但统计学的灵魂不是预测,是理解。这就是为什么我说机器学习是统计学最大的误会——它借用了大量统计学的工具,但它骨子里追求的东西跟统计学不一样。统计学生当然可以做机器学习,也可以做得很好,但如果你把全部精力押在这上面,你实际上是在偏离统计学能给你的最大优势。

当初新冠的时候,全世界都在等一个答案:疫苗到底有没有效?你想想这个问题能靠机器学习回答吗?你训练一个神经网络,输入是一个人的各种特征,输出是他打完疫苗后会不会感染,然后你说准确率 95%,所以疫苗有效?任何一个有基本科学素养的人都会告诉你这是扯淡。因为你根本没有控制混杂因素——愿意打疫苗的人可能本来就更注重健康,可能更愿意戴口罩,可能社会经济地位更高。你观察到的"打了疫苗的人感染更少",可能根本不是疫苗的功劳。

要真正回答疫苗有没有效,你需要的是一套完全不同的思维框架。你需要随机对照实验(RCT)来消除混杂。你需要明确定义因果效应是什么——是 ATE(平均处理效应)还是 ATT(处理组平均处理效应)还是 CATE(条件平均处理效应)。你需要在不可避免的缺失数据(比如有人退出试验)面前,用合理的假设(比如 missing at random)去做敏感性分析。你需要考虑亚组效应——疫苗对老年人和年轻人效果一样吗?对有基础疾病的人呢?你需要把所有这些分析的不确定性诚实地量化出来,告诉决策者"我们有多大的信心"。

这套东西,从头到尾,每一步,都是统计学的核心能力。

而这套东西有一个统一的名字,叫做因果推断。

拿它到底为什么是统计学的核心?

首先,因果推断是统计学所有分支的最终目的地。你学概率论,是为了给随机性建模;你学数理统计,是为了在随机性中做出好的估计;你学回归分析,是为了刻画变量之间的关系;你学实验设计,是为了控制混杂——而所有这些东西最终指向的问题都是:X 到底有没有导致 Y?如果有,效果是多大? 这就是因果推断。它不是统计学的一个分支,它是统计学所有分支汇聚的终点。

你学了那么多年的 t 检验、方差分析、回归系数的置信区间,本质上你在干什么?你在试图从数据中分离出"真实效应"和"随机噪声"。这个"真实效应"是什么?就是因果效应。只不过传统统计教育从来不明确地告诉你这一点,它把因果推断藏在了假设检验的外衣下面,让你以为自己在做的只是"检验显著性"。

其次,因果推断是当下和未来十年最具爆发力的方向,没有之一。这不是我的主观臆测,你去看数据就知道了。2021 年诺贝尔经济学奖颁给了 Joshua Angrist 和 Guido Imbens,两个人都是做因果推断的。图灵奖得主 Judea Pearl 这几年最重要的工作就是因果推断的形式化理论。整个科技行业——Google、Meta、Microsoft、Netflix、Uber——都在疯狂招做因果推断的人。为什么?因为他们发现,预测模型解决不了他们最值钱的问题。

你想想,一个互联网公司最值钱的问题是什么?不是"用户会不会点击这个按钮"——这个预测问题已经被解决得差不多了。最值钱的问题是:"如果我把按钮从蓝色改成红色,用户的点击率会提升多少?""如果我给这个用户发一张优惠券,他的长期留存概率会增加多少?""如果我把推荐算法从 A 换成 B,用户的总使用时长会怎么变化?"

你注意到了吗?所有这些问题里都有一个"如果……会……"。这就是反事实,是因果推断的核心概念。你永远无法同时观察到"给这个用户发优惠券"和"不给这个用户发优惠券"两种情况下的结果——这就是 Rubin 说的"因果推断的根本问题"。而统计学恰恰是解决这个不可能问题的最佳学科——通过随机化实验、匹配、工具变量、断点回归、双重差分、合成控制……一整套方法论,在各种各样的假设下,逼近那个你永远无法直接观测到的反事实。

然后再看医疗领域。精准医疗的核心问题是什么?不是这个病人得了什么病——这是诊断问题,AI 确实可以做得很好。核心问题是"对于这个特定的病人,A 药和 B 药哪个效果更好?"这是一个个体层面的因果效应估计问题,是因果推断最前沿的研究方向之一。

再看政策评估。一个国家投入几十亿搞了一个扶贫项目,到底有没有用?是真的帮助了穷人,还是钱被中间环节截留了?这种问题你不能做随机实验(你不能随机把一半人变成穷人),你只能用观察性数据去做因果推断。这也是为什么经济学近二十年最重要的方法论革命就是"可信性革命",本质上就是把因果推断的严格框架引入政策评估。

不管你未来出不出国深造,如果你想在这个领域往深里走,我非常推荐你去啃一啃经济学里因果推断的经典,比如 Angrist 的 《基本无害的计量经济学》。这本书是社科实证研究的圣经级读物,它最大的价值不是让你背公式,而是帮你建立起寻找严格因果关系的思维底座。学会在现实世界的泥沼里寻找反事实框架,这会成为你职业生涯里最高维的武器。

写给社科生的高维武器——《基本无害的计量经济学》

一个方向,同时被科技巨头、医疗健康、社会科学、公共政策这些完全不同的领域迫切需要,你说它是不是核心?

但因果推断不是一个可以孤立学习的方向。它更像是一棵大树的树冠,底下有一整套根系在支撑它。如果你想把因果推断作为自己的核心方向,你需要同时打好几个基础,而且每一个都不能偷懒。

概率论和数理统计,这是地基。 因果推断的理论建立在概率论之上——你需要理解条件概率、条件独立性、充分统计量这些概念。你需要知道估计量的渐近性质,因为因果效应的估计量(比如 IPW estimator、AIPW estimator)的统计性质分析,全都依赖于经典的数理统计工具。如果你连大数定律和中心极限定理都没有吃透,你做因果推断一定是在沙滩上建楼。

回归分析和广义线性模型,这是你最常用的工具。 因果推断的很多方法最终落地的时候,都要用到回归。倾向得分(propensity score)本质上是一个 logistic 回归。结果模型(outcome model)可以是线性回归,也可以是更复杂的模型。双重稳健估计量(doubly robust estimator)同时用到了这两者。你如果连回归诊断、多重共线性、异方差这些基本问题都搞不定,因果推断的落地能力就会打折扣。

贝叶斯统计,这是你思维上的第二次跃迁。 经典统计的频率学派框架在因果推断中当然有用,但贝叶斯框架提供了一种更自然的方式来整合先验知识和量化不确定性。特别是在小样本、复杂层次模型、以及需要做敏感性分析的场景下,贝叶斯方法往往更灵活、更直觉。Andrew Gelman——当代最有影响力的统计学家之一——他的工作就是贝叶斯统计和因果推断的深度融合。如果你只学了频率派而完全不懂贝叶斯,你的统计工具箱是残缺的。

如果你所在的学校没开设像样的贝叶斯课程,不要干等,自己去学。而且别一上来就看那些满是积分和测度的枯燥教材,我建议你去读一读 《统计反思》(Statistical Rethinking)。这本书简直是贝叶斯统计界的清流,它没有满篇堆砌符号,而是教你通过写代码和建立直觉的方式,去理解如何在复杂的现实数据中量化不确定性,读完真的会对贝叶斯有一种“突然开窍”的感觉。

豆瓣 9.3,刷爆外网的贝叶斯神书《统计反思》

实验设计,这是因果推断的黄金标准。 随机对照实验之所以被称为因果推断的黄金标准,是因为随机化从根本上解决了混杂问题。但现实中的实验远比教科书上的复杂——你可能遇到不完全依从(noncompliance),也就是被分到治疗组的人拒绝接受治疗;你可能遇到溢出效应(spillover),也就是治疗组的效果"传染"到了对照组;你可能需要在实验进行过程中根据中期结果调整方案(自适应设计)。所有这些都是实验设计和因果推断交叉的前沿问题。而在互联网行业,A/B 测试就是最典型的随机实验——但做好一个 A/B 测试远没有听起来那么简单,里面涉及的统计问题多到你难以想象。

高维统计和机器学习,这是因果推断的现代武器库。 传统因果推断方法大多假设你的混杂变量是低维的,模型是参数化的。但现实世界的数据越来越高维、越来越复杂。怎么办?近十年来,统计学界发展出了一系列把机器学习和因果推断结合起来的方法——比如 Susan Athey 的因果森林(Causal Forest),Victor Chernozhukov 的双重机器学习(Double/Debiased Machine Learning),还有基于深度学习的异质处理效应估计。这些方法的核心思想是:用机器学习来处理"讨厌参数"(nuisance parameters),同时保证因果效应估计的统计性质(无偏性、渐近正态性、有效覆盖率的置信区间)。 这个交叉领域现在是统计学最活跃、发文章最快、招聘需求最大的方向之一。

你看,当我说因果推断是核心的时候,我其实是在说:以因果推断为核心,概率论和数理统计为地基,回归和广义线性模型为基本工具,贝叶斯统计为思维补充,实验设计为黄金标准,高维统计和机器学习为现代武器——这整个体系,才是统计学的核心。因果推断是那个把所有东西串起来的线,是那个赋予一切意义的终极问题。

再来说说另一个被严重低估的方向:不确定性量化

你现在去问任何一个做大模型的人,他们现在最大的问题是什么?所有人都会告诉你同一个词——幻觉。模型会一本正经地胡说八道,而且你无法分辨它什么时候在胡说。

为什么会这样?因为现在的大语言模型输出的是一个看起来很自信的答案,但它没有一个可靠的不确定性度量。而量化不确定性,恰恰是统计学最本源的能力。

这不只是大模型的问题。自动驾驶汽车在做决策时需要知道"我对前方障碍物的识别有多不确定";医疗 AI 在辅助诊断时需要告诉医生"我对这个诊断结果有多大把握";气候模型在预测未来温度变化时需要给出"不确定性范围是多少"。所有这些场景,都需要的不仅仅是一个点预测,而是一个带有可靠不确定性度量的预测。

保形预测(Conformal Prediction)就是近几年从统计学里长出来的一颗明星。它的核心想法非常漂亮:不管你的底层模型是什么(线性回归也好,神经网络也好),我都能给你一个具有有限样本覆盖率保证的预测区间。不需要任何分布假设,不需要模型是正确的。这个方法正在被整个 AI 领域疯狂采用,而它的理论根基,纯纯粹粹是统计学的东西。

贝叶斯深度学习、概率编程、高斯过程……所有这些不确定性量化的工具,都根植于统计学的传统。CS 的人可以用这些工具,但很少有人能像统计出身的人那样真正理解这些工具背后的统计假设和局限性。这就是你的比较优势。

说到这里,你可能会想:既然因果推断和不确定性量化这么重要,为什么我在本科阶段几乎没有接触过?

答案很简单也很残酷:因为很多统计系的课程体系还停留在二十年前。

你去看看国内大多数统计系的培养方案:大一学数学分析和线性代数,大二学概率论和数理统计,大三学回归分析、时间序列、多元统计,大四可能有一门抽样调查或者非参数统计。如果幸运的话,可能有一门选修课叫"统计学习"或者"数据挖掘",讲一点机器学习的皮毛。

因果推断呢?绝大多数本科生根本没听说过这个词。贝叶斯统计呢?很多学校连一门正经的贝叶斯课都开不出来。保形预测?双重机器学习?因果森林?更是想都别想。

这不完全是老师们的错。课程改革的惯性太大了,教材更新的速度赶不上领域发展的速度,而且老一代统计学者很多确实不做这些方向。但结果就是,统计专业的本科教育和这个学科真正的前沿之间,存在一条巨大的鸿沟。

而这条鸿沟,恰恰是你需要自己去填的。如果你是一个统计专业的学生,不管你现在是大一还是研一,我建议你认真想清楚以下几件事。

首先,数理统计的课一定要好好上,但不要止步于此。很多人觉得概率论和数理统计枯燥,是因为他们没有看到这些东西在更大的图景里扮演什么角色。当你知道了因果推断的框架之后,你回头再看假设检验,突然就理解了——原来假设检验的本质就是在量化一个因果主张的证据强度。当你学了贝叶斯统计之后,你回头再看最大似然估计,突然就发现——MLE 不过是贝叶斯推断在 uniform prior 下的特殊情况。知识之间一旦建立了联系,学起来就不枯燥了。

其次,尽早接触因果推断的思维方式。你不需要等到研究生才开始学。这几本书都很推荐:Hernán 和 Robins 的《Causal Inference: What If》写得清晰漂亮,本科高年级完全能看懂。Scott Cunningham 的《Causal Inference: The Mixtape》毕竟小白友好,适合完全零基础的人。Pearl 的《The Book of Why》是一本科普读物,但它能在思维层面给你一次震撼性的冲击。

几本让新手迅速开窍的因果推断神书!(含 PDF 下载)

然后,编程能力必须过关,但不要沉迷于工程。R 和 Python 至少精通一个。R 在学术界统计领域仍然是主流,而且像 tidyverse、stan、ggplot2 这些包的生态非常好。Python 在工业界更通用,特别是如果你要和机器学习打交道的话。SQL 也要会——不是精通,但至少要能熟练地从数据库里取数据。但请注意,编程对统计学生来说是工具,不是目的。你的时间应该主要花在理解方法的统计原理上,而不是花在配环境、调框架、优化代码速度上。后者 CS 的人做得比你好一百倍,你没必要在这上面和他们竞争。

还有一点非常重要——一定要找一个垂直应用领域深耕下去。统计学的力量只有在它被应用于具体问题的时候才能完全展现出来。你做因果推断,是在医疗场景下做,还是在科技公司的产品优化中做,还是在社会政策评估中做?这三者需要的领域知识完全不同,面临的数据特点也完全不同。纯粹的"方法论统计学家"在学术界还有一席之地,但在工业界几乎不存在这样的职位。你必须能跟领域专家对话,能理解他们的问题,然后用统计学的语言重新表述这个问题,最后用合适的方法去回答它。

如果你问我推荐哪个应用领域,我会说:医疗健康和科技行业是目前对统计学方法需求最大、增长最快的两个领域。 前者有 FDA 对临床试验的严格要求,有真实世界数据(RWD)的爆发式增长,有精准医疗的巨大需求;后者有 A/B 测试的海量实践,有推荐系统和广告投放中的因果效应估计问题,有大模型时代的不确定性量化需求。这两个领域的统计岗位不仅多,而且薪资水平在所有统计就业方向里也是最高的。

最后,回到那个最初的问题。

统计专业哪个方向是核心?

我花了这么多字来回答这个问题,不是因为答案本身复杂,而是因为大多数人问这个问题的时候,脑子里想的是哪个分支方向我应该选——好像统计学是一棵树,你只能选一根枝丫往上爬就可以了。

但真实的情况是,统计学不是一棵树,它是一条河。概率论和数理统计是上游,回归分析和实验设计是中游,因果推断和不确定性量化是下游——最终汇入大海,而大海就是,在一个充满不确定性的世界里,帮助人类做出更好的决策。

你不是在选一个方向,你是在选一条河的哪个段落作为你安身立命的位置。 而我的建议是,尽量往下游走。因为上游的水终将流到你这里,而你站在的位置,才是水最终汇聚、最有力量的地方。

这个时代不缺能拟合曲线的人,不缺能调参的人,不缺能跑模型的人。这个时代缺的是能看清曲线背后因果真相的人,缺的是能诚实地说出我们到底有多不确定的人,缺的是能在噪声、偏差和混杂的迷雾中,依然坚持追问这到底是不是真的的人。

而你,学统计的你,如果你愿意的话,天然就站在这个位置上。别浪费了。