为什么样本方差(sample variance)的分母是 n-1?

为什么样本方差(sample variance)的分母是 n-1?

张英锋,好答案不在对错,在于让心智获得更多自由!

非常好的问题,探索这个问题的答案,不仅能更好的了解自己和这个世界,还能避免被征收“偏差税”Bias Tax

先说结论,样本标准差的分母写成 n-1,是为了对自由度进行校正,这叫贝塞尔校正(Bessel's Correction)[1]。注意这个贝塞尔不是贝塞尔曲线(Bézier curve)那个贝塞尔。

为了让中学水平的读者就能理解,我尽量不用公式,用浅显的语言和生活中的案例,来叙述这个问题的来龙去脉。这算是对其他答案的补充,也许看完后,再看其他高手的回答就没那么难了。

在统计领域,你经常会看到,为了减少干扰数据对结论的影响,数学家设计了大量的技术手段来对数据进行校正。

先看一篇我改编的故事《比尔盖茨冲进酒吧》:

一天晚上,小镇酒吧里坐着 9 个人,大家都是小镇上的工薪族,年薪的平均值在 5 万美元左右。

从上面的数据和图表,你可以看出 50000 美元这个平均值,比较准确的体现了 9 个人的收入水平。

正在此时,比尔盖茨急匆匆的走进酒吧,冲向厕所……

假如比尔盖茨的年薪是 10 亿美元,在他上厕所的时间里,另外 9 个人啥也没做,加上比尔盖茨,10 个人的平均年薪平均值一下子从 5 万爆涨到 1 亿美元。

如图,相比之下,和比尔盖茨相比,9 人的年薪太渣,完全看不出高度,像二向箔一样薄。

而当比尔盖茨离开后,他们还是啥也没做,平均年薪却暴跌了近 1 亿美元。

9 人抱头哭死在厕所……

剧终^_^

在这个例子里,比尔盖茨就是一个干扰数据,因为他的存在,让平均值的计算并不能体现酒吧里工薪族的真实平均水平,9 人的平均年薪无缘无故的涨到了 1 亿。当然这个数也无法体现比尔盖茨的真实收入水平,因为他缩水到了 1 亿。

那统计学家应该怎么办呢?

在统计上,把比尔盖茨这种干扰数据称为异常值(Outlier)。

应对这种异常值,最简单的方法就是排除掉它们。在计算平均值时把比尔盖茨排除掉,就无法干扰平均值了。(当然实际应用比较复杂,排除异常值需要谨慎,不能随意的排除)

排除法这种技术手段也经常应用在比赛打分上。

我们知道裁判打分的主观性非常大,为了减少单个教练的影响,比赛通常会安排多个裁判一起给选手打分,然后再取一个平均值。

但实际上在求平均值时,还会再去掉最高分和最低分,然后对剩下的分数计算平均值。

这种排除最高 / 低分的手段也是为了消除干扰,因为最高分和最低分对平均值的影响比较大,会大幅偏离真实的水平。

例如,下面是 10 个裁判的打分

上图中最高分把选手的平均值拉高了 0.60 分,你可能会说,这点分数不算啥,应该影响不大。

但在实际的比赛中,选手的差距通常非常的小,0.1 分都会对选手的排名产生显著的影响。

为了尽可能消除其干扰,得到一个相对客观的平均值,通常在计算平均值时,会排除掉最低分和最高分,这样算出来的平均值叫裁剪平均值(Truncated mean)。

比尔盖茨和去掉最高 / 低分的这两个例子,都是为了说明统计领域的校正技术,用排除法来消除掉干扰数据的影响。

现在你也可能意识到了,在样本方差的计算上,分母使用(n-1),而不是 n,也是一种排除法来消除干扰的技术手段。

为什么要减去 1,这个 1 代表的是哪个数?

这个减去的 1,不特指任何一个数,1 代表那个失去“独立客观”的维度(自由度)。

看不明白?

正常,听我慢慢解释。

在我们在对全体进行采样时,有一个至关重要的前提条件,就是一定要随机采样,这其中的关键词是随机。

之所以要随机,这是为了避免出现样本偏差。因为如果样本错了,后面的计算步骤即使全部都正确,最终结果也是错的。

例如,要想回答“中国人是不是喜欢吃狗肉?”的问题。

请问,以下两个采样,哪一个能得到客观的结论?

  • 只去玉林狗肉节上采样。
  • 对中国人进行时间和地点都随机的采样。

两种采样方法,会得出截然相反的结论。

  • 前一种采样很不自由,被限制在一个极其有限的时空里。
  • 后一种采样有充分的自由,跳出限制,可以没有干扰的随机采样。

如果只在玉林采样,这个样本就是偏差样本(Biased Sample),是不具代表性的样本(Unrepresentative Sample)。

如果根据这个偏差样本,得出了“中国人居然吃狗肉,太野蛮了!”的结论。无论在逻辑上如何完美,最终结论也是荒谬的。

这就是所谓的“垃圾进,垃圾出”(Garbage in , garbage out)[2]

你在玉林采样越多,你的偏见就会越深,只会进一步的固化你的偏见

但自由的随机采样,你采样越多,你的偏见就会越来越少,看到更真实、更多样化的中国人。

在这里需要暂停一下:

请大家反思一下,自己是不是也曾犯过同样的错误,取错了样本,出现了偏差或偏见(Bias)?

反正,我经常会犯这样的错误,轻易就相信传言[3],或轻易给别人扣上帽子[4],这都是偏见。

(罪过,罪过,宽恕我吧,我知道自己错了!)

我们普通人经常会因为样本偏差,被收取“偏差税”(Bias Tax)

例如彩票,就是利用了人们的这一弱点。

彩民们只注意到了那些极少数获得大奖的人,看不到绝大数人赔钱。

越是盯着那些获奖的人看,彩民们的偏见越深,越是坚信自己会中奖。

他们因为在选取样本时出现偏差,而被别人收税。

好吧,我承认,偏差税这个词是我根据智商税这个词编造出来的(^_-)。

很多人喜欢用智商税这个词来嘲笑犯错的人智商低,但智商税这个词是有偏差的。

因为不能根据一个事件就推算出一个人整体的智商,这是不具代表性的有偏样本,这是偏见。

例如很多彩民的智商很高,他们使用各种复杂的公式,做了大量复杂的计算,他们的智商一点都不低,他们的问题是出在样本偏差上。

而偏差税这个词和智商税不一样,不论我们的智商高低,人人都会有偏见,事事都会出偏差,这个税每个人都在交。

例如,股票市场上的散户,迷信中医和保健品的大爷大妈,轻信谣言的吃瓜群众,……,几乎无人可以幸免,都在为样本偏差付出代价。

推荐一个 TED 演讲《为什么应该热衷于统计学》。

看完就知道人们对这个世界的偏差有多大了。

所以人们不是智商出了问题,是在选取样本时出现了偏差,所以偏差税是一个更客观(无偏)的词。

其实,不仅是普罗大众,就是那些权倾一时的政治家,也曾为样本偏差付出过惨重的代价。

1948 年美国大选,大部分报纸都预测杜威会战胜杜鲁门,当选美国总统。社会舆论一致看好杜威,以至于竞选当天,杜威认为杜鲁门很快就会打电话庆祝他当选。

但竞选结果却大跌眼镜,最终是杜鲁门当选。(是不是有些似曾相识?)

杜鲁门获胜后,兴高采烈的举着那些提前预测杜威击败杜鲁门的报纸,笑得好真诚啊!

图片来源:youtube.com/watch?

这次的预测之所以会失败,是因为调查机构通过电话调查的方式做的采样。

1948 年,虽然电话已发明多年,但价格并不便宜,有电话的多是相对富裕的家庭,多数人的家里没有普及电话。也就是说,这种采样是有偏差的,只反映了富裕阶层的观点,无法反映当时主流选民的意愿,也就是统计出现了样本偏差。[5]

在当时,除了很多美国人被误导,还有一个人也因为这个样本偏差,把所有筹码错压在了杜威的身上,结果却因此而丢掉了整个江山,此人就是蒋介石。本来杜鲁门在做副总统时就对蒋介石印象很差,在他当选后,更是变本加厉,很快减少了对蒋介石的援助。[6]

常凯申也哭死在厕所!

事实上,有太多的仇恨、歧视、偏见和武断的观点,是建立在样本偏差的垃圾数据之上的

因为“垃圾进,垃圾出”,无论人们如何雄辩,逻辑上如何完美,算法上如何先进,结论也是一堆错误的垃圾。[7]

这是值得你、我、以及所有人都应该警惕的现象。

例如:你想知道当代日本人是怎样的。就不能只对抗日神剧进行采样,不能只对日本右翼进行采样,要获得真实的数据,必须去日本实地对日本人进行随机采样。

只有采样是随机,是不带偏差的(Unbiased),才能保证自己吃进去的不是垃圾信息,这是得出正确结论的第一步。

只要人人都追求无偏差,世界会变成美好的人间

除了要做到采样是随机的,还要确保样本之间是互相独立的,在统计上用自由度(Degrees of freedom)来描述这种独立性。

我们以常见的招投标为案例,解释一下独立性。

有个学校要盖教学楼,邀请几个建筑公司来投标。学校希望建筑公司的报价尽可能低,而且还要确保质量。所以学校不能只选价格最低的方案,而是要挑选出综合评分最优的方案。

要做到公正客观的评分,必须确保几件事:

首先,学校不能让内部员工来评分,因为内部员工和项目有直接的利益关系,员工都希望自己在项目中获得更多利益,做不到评分上客观独立。

所以学校只能从外部请专家来评标,因为外人独立于学校之外,会减少直接利益所产生的影响。

于是学校计划邀请 3 个专家来评审,让专家对建筑公司的方案和报价进行综合评分。

其次,学校在挑选专家时,要尽可能确保这些专家之间的观点也必须是互相独立的,不能人云亦云。

假如其中 1 人是另外 2 人的上级,那上级说话,下级的观点就倾向于和上级保持一致,在评分时无法做到独立,这样的评分是有偏差的。花了 3 个专家的钱,却成了 1 个专家的一言堂。专家独立性从 3 变成了 1,这偏差也太大了。

最后,学校还必须确保,任何一个专家都没有被建筑公司收买,是独立于建筑公司,没有利益输送的。

如果被收买了,专家就会修改评分,让贿赂的商家胜出,这个专家的数据也是不独立客观的。

从上面的这个案例里,你会发现独立的重要性,一旦出现利益关联,独立性就会降低,数据必然会出现偏差。

类似的制度设计非常的广泛,例如陪审团制度,就设计了大量的机制来保证陪审团成员的独立性。

电影《十二怒汉》剧照

推荐重温一下《十二怒汉》这部经典,看看人们的偏见(Bias)是如何的根深蒂固,消除偏见是如何的困难。

几千年来,人类为了提高独立性,殚精竭虑的设计了各种精巧的制度,这些制度历久弥坚,逐渐成为了现代社会的基石。

在统计实践中人们发现,偏差的产生,很多时候也是因为样本数据之间出现了各种隐含的关联关系,降低了数据之间的独立性。

而解决的策略还很清晰,就是发现其中隐含的关联关系,然后进行校正。

让我们再回到样本方差(Sample Variance)的分母(n-1)上来。

你既然在看这个问题,那就已经知道了方差

的计算公式

需要注意的是这里的方差

其实是全体的方差,μ是全体的平均值,n 是全体变量的数量

例如一家啤酒厂每天生产 1 万瓶啤酒,我们想知道这些啤酒的质量差异性如何,可以打开这 1 万瓶啤酒测量,再把所有测量结果代入到上面的公式里求方差,在计算中,没有漏下任何一瓶啤酒的数据。

你也发现了,这样做不仅麻烦了,而且成本极高。

更好方法是对出厂的啤酒进行随机的采样,计算这部分样本的方差

例如,随机的从产品中找出 100 瓶,用这 100 瓶来估算 1 万瓶啤酒的质量差异,注意,除了这 100 瓶的数据,其他 9900 瓶啤酒数据是完全未知的。

样本方差

它是从全体数据中随机取出一小部分所做的计算,用这个局部的 100 瓶啤酒的方差去估计全体 1 万瓶啤酒的方差。

上面这个样本方差

公式,尽管在形式上和全体方差

的公式近似,但是内涵上发生了天翻地覆的变化。

我们来比较一下,全体方差

和样本方差

全体方差

是一个客观事实(Fact),是对所有个体数据的全体所作的客观描述(Describe)。

而样本方差

更像一个观点(Opinion),是我们根据少量抽样个体的数据,对全体所作出的估算(Estimation),或者说是预测。

既然样本方差

不是一个事实,而是一个观点,是一种估算,为了让这个估算尽可能的接近事实,就必须注意样本不要出现偏差(Bias),否则就会“垃圾进,垃圾出”,得出错误的估算。

例如

  • 我们不能只对某批产品取样,某个特定时间取样,我们的随机取样必须尽可能的覆盖所有批次,取样要有充分的自由度,足够的随机。
  • 另外还要注意,避免样本里的变量之间存在隐含的关联关系。

我们来看一个例子

假设随机抽出的样本里只有两个数

如果这 2 个数是独立和随机抽取的,你就不能从 x1 猜出 x2,例如我告诉你 x1=10,请问 x2 等于多少?

你根本猜不出来,因为随机抽取让 x2 和 x1 之间没有关联。

但是,没想到的是,因为一个数据的存在,让这个随机取样产生了一个隐含的关联关系。

这个数就是计算样本方差

时,需要用到的样本平均值 ,他的引入让随机抽取的独立性和自由度减少了一点点。

因为样本平均值

引入了一些信息,让 x1 和 x2 之间不再是相互独立的关系了。

根据平均值公式

只要知道了 x1 和

,就可以计算出 x2 的值。

如果 x1=10,

=10,那 x2=10

同样,知道了 x2 和

,就可以计算出 x1 的值。

如果 x2=10,

=11,那 x1=12

也就是说,出问题的并不是 x1 或者 x2,这两个数本来好好的,互相独立的。出问题的是平均值

,他引入的新信息,让样本数据之间的独立性减少了,关联性增加了。

或者还可以说,在平均值的介入下,x1 和 x2 的自由度降低了,原来是两个独立的数,现在只有一个独立了,另一个则不再自由,好像有些人云亦云了。

同样的,对于更多的样本量:

如果样本是 3 个数

则知道了 x1,x2,就能通过

,计算出 x3,独立性或者说自由度,就从 3 降到了 2。

如果样本是 4 个数

则知道了 x1,x2,x3,就能通过

,计算出 x4,独立性或者说自由度,就从 4 降到了 3。

……

如果样本是 n 个数

则知道了 x1,x2,...,

,就能通过

,计算出

,独立性或者说自由度,就从 n 降到了 n-1。

平均值

让样本的独立性或自由度减少了 1,导致了样本出现了偏差。

这就是为什么样本方差的分母不是 n,也不是 n-2 或 n-3,而是 n-1 的原因。

自由度变小会对样本方差产生什么影响呢?

这意味着,样本方差会变小。

我们知道,方差是通过计算样本和平均值之间的距离,来描述样本的分散程度,数据之间差异越大,方差越大,数据之间越是趋同,方差越小。

还是用专家评分的案例来解释:

如果专家组中,所有人都独立,每个人的评分会出现较大的差异性。

但如果专家组中有个领导,他自己没有任何主见,只是在看完大家的评分之后,取个折中的评分,是个老好人型的领导。

请注意,这个领导没有贡献任何新观点,他的观点不独立,只是重复了别人的观点,但这个重复数据污染了整体数据的独立性,让原本差异性较大数据,因为折中数据的出现,减少了差异,或者说,出现了一些趋同效应,这就产生了偏差。

回到样本方差

上,因为样本平均值

就是根据样本来计算的,样本平均值

成了那个贡献重复数据的领导,让原来独立的、随机的、没有偏差的样本数据,在计算加工过程中引入了偏差,减少了数据之间的差异性,这种趋同效应让样本方差

变小。

也就是说,数据取样没问题,是无偏的。但是在后来的方差计算中,均值的引入,让差异性减少,本来无偏的数据出现了偏差样本方差会一直小于总体方差,这是一个有偏样本方差。

上面是有偏差的样本方差公式,是没有经过校正的。

普鲁士天文学家贝塞尔(Bessel)在对海量的观测数据做计算时,也注意到了这个偏差。

这个偏差的特点是:

  • 在样本量小的时候偏差影响比较明显,样本方差比全体方差偏小。
  • 但是当样本量增大时,偏差逐渐减少,直到影响可以忽略不计。

既然样本方差变小了,那干脆让分母变小,增大样本方差就行了。

贝塞尔给出了修正方法,即把样本方差公式的分母修正为 n-1,所以这个修正被后人称为贝塞尔校正。

具体的公式推导过程,可以看 Emory University 的这篇关于 Bessel's Correction 推导的文章 [8]

德国天文学家和数学家弗里德里希·威廉·贝塞尔

图片出处:zh.wikipedia.org/wiki/%

样本方差

公式里的分母 n-1,就是这么来的,那个减去的 1,就是用来校正

所带来的偏差,他不代表某一个样本,而是对自由度的补偿,让缩小的样本方差重新变大一点。

样本方差偏小是不是采样出现问题?因为越接近平均值,就越容易被采样?

从直觉上好像是这样的,比如下面的这个鱼类长度的分布,数据聚集在平均值 106(蓝线)附近,如果采样,在平均值周围的确有更大的概率被采样到。

但是,直觉是靠不住的。上面的分布只是一种,还有很多的分布,其数据不在平均值附近,而是分散在四处。

例如,下面这个西班牙流感死亡年龄的分布

数据并没有聚集在平均值 43 附近,如果取样,就会发现样本更大的概率是远离平均值,而不是在平均值附近。

所以样本方差出现偏小的原因,并不是因为平均值附近被采样到的概率更大,这只在部分情况下成立,在很多情况下并不成立。

样本方差出现偏差的原因和采样无关,也和平均值附近更容易被采样无关,因为在很多情况下,远离平均值的数据更容易被采样到,这无法解释样本方差为什么会比全体方差小。

更好的解释是,计算过程中引入样本平均值,降低了样本的自由度,减少了数据的差异性。

所以直觉也是靠不住的,事实上,有太多的偏差和偏见(Bias)是由直觉贡献的。

结论

  • 样本标准差的分母写成 n-1,是为了对数据进行校正,这叫贝塞尔校正(Bessel's Correction)。
  • 统计经常用各种方法来消除掉干扰数据的影响,例如比尔盖茨和去掉最高 / 低分的这两个例子。
  • 样本数据之间也经常会出现各种隐含的关联关系,降低了数据之间的独立性或自由度(Degrees of freedom),这会让样本更聚集,让样本偏差变小。
  • 样本方差公式里的分母 n-1,就是校正样本平均值所减少的自由度,样本数据本身没有偏差,是计算过程中引入的新信息(样本均值),让计算结果出现了偏差。

推荐阅读

[1]en.wikipedia.org/wiki/B

[2]heap.io/blog/data-stori

[3]zh.wikipedia.org/wiki/%

[4]zh.wikipedia.org/wiki/%

[5]zh.wikipedia.org/wiki/1

[6]todayonhistory.com/lish

[7]zh.wikipedia.org/wiki/%

[8]math.oxford.emory.edu/s