统计学上标准差与标准误的区别与联系是什么？

知乎精选 2023-09-02 02:00:04

包寒吴霜，计算智能社会心理学丨R包开发丨喵星人

来一个萌版的解释ଲଇଉକ

共同点

标准差和标准误都在衡量一群“小点点”的变异程度 / 离散程度。

不同点

标准差（SD）的“小点点”是仅仅某一次抽样得到的一个「样本量为 N」的样本里的所有个体（单个分数）
标准误（SE）的“小点点”是很多次抽样得到的很多「样本量均为 N」的样本（样本的某种统计量，如平均值、回归系数等）

一言以蔽之

（以平均值为例，这是最简单的理解）

标准差 = 一次抽样中个体分数间的离散程度，反映了个体分数对样本均值的代表性，用于描述统计
标准误 = 多次抽样中样本均值间的离散程度，反映了样本均值对总体均值的代表性，用于推论统计

萌版结束，下面是太长不看的 Tips：

引入另一个概念可以极大促进对标准差和标准误的理解——bootstrap 重抽样。上面说的“多次抽样”及其抽样分布其实只是理论上的，利用公式计算标准误并不需要真正获得一个这样的分布。但利用重抽样技术可以真正获得一个抽样分布——当样本的正态分布假设不满足或者样本量太小，直接使用标准误公式来计算会存在较大的偏差和不稳定性，这时我们就会采用 bootstrap 重抽样法来模拟出一个真正意义上的抽样分布。具体来说，对于一个样本量为 N 的样本，重复进行多次（一般 1000~5000 次）有放回随机抽样，每次抽样时，样本量也均为 N，并且每次都计算出我们关注的统计量（如均值），从而可以真正获得一个关于这个统计量的抽样分布。

基于这个真实的分布，我们就能

通过其标准差（实际上是样本均值或回归系数等统计量的离散程度，而非个体分数的标准差）直接获得标准误。
通过其 2.5%和 97.5%的百分位数直接获得 95%置信区间。

这个过程不同于传统的公式计算法，因为 bootstrap 是使用样本统计量的标准差直接“拿到”了标准误、使用百分位数直接“拿到”了置信区间。当然，正因为 bootstrap 的模拟过程是随机化的，所以每一次运算都会得到有点差异的结果；而标准误计算公式只可能得到唯一的结果。

查看知乎讨论