有人说「骰子掷一次掷出 6 的概率为 50%,因为只有是 6、不是 6 两种事件」,请问如何反驳?

有人说「骰子掷一次掷出 6 的概率为 50%,因为只有是 6、不是 6 两种事件」,请问如何反驳?

曹天元 Capo,Bayesian

事实上,这个问题并没有看上去那么傻(当然有很大可能,提问者本人确实是在犯傻),它其实牵涉到一个很重要的事情,那就是我们至今并不完全理解现实中的“概率”究竟是个什么东西。我们可以从数学上对概率进行精确定义(不管是古典概率论还是现代概率论),但是由此把它引入现实就成了一种循环定义,即:为什么我们认为抛硬币得到正面的概率是 50%?因为我们定义它就是 50%。为什么我们定义它是 50%?因为我们现实中抛出正面的概率就是 50%。数学家很早就发现这条路是行不通的,也因此对概率的解释形成了种种分歧,从而有了如今的频率主义学派和贝叶斯学派等等。

我引用我书里的一段内容来说明贝叶斯学派的主要看法:

贝叶斯的想法很奇特,他想“反过来”推断概率。什么意思?就是“正常”的概率问题一般是这样的:已知一枚硬币每次扔出正面的概率是 50%,求该硬币连扔 10 次,全部都是正面的概率是多少?这样的问题,大家都早已司空见惯,对吧?
但贝叶斯突发奇想:凭什么就非要默认硬币“每次扔出正面的概率”一定是 50%呢?实际上,我们并不知道硬币是什么样子,我们应该假定它“扔出正面的概率”是一个未知数!至于这个未知数究竟是多少,可以从观察到的现象出发,通过概率的方式把它“倒推”出来。
就这样,贝叶斯在历史上第一次研究了所谓的“逆概率”(inverse probability)问题。“硬币每次以 50%概率扔出正面”的可能性是多少?这里牵涉到的,是一个复杂而有趣的主题,也就是“概率的概率”!
为了通俗地说明贝叶斯和其他人对于概率的不同理解,我们举一个金庸小说《鹿鼎记》里的例子。柳州城中,韦小宝手下的七个御前侍卫去赌场赌钱,结果庄家一连开了 13 记“大”。但是这些侍卫偏不信邪,他们认定:第 14 次非得开出“小”来不可,结果想不到居然还是“大”,最后全部被抓住当作人质,就不再多说了。在这里,御前侍卫犯了一个人们常见的认识错误,他们以为随机就是互相“抵消”。所以如果之前开的“大”多了,接下来就一定会更多地开出“小”。
而对于一般的概率论学者来说,他们显然意识到以上想法是不对的。只要各次掷骰都互相独立,那么扔出“大”的概率就不会改变。哪怕已经连续扔了 13 记“大”,下一次也还是全新的开始,扔出“大”的可能性依然和第一次一样。实际上,既然概率是一种“客观”的属性,那不管扔多少次,它都不会改变。
但是,贝叶斯对此有着完全不同的想法。他认为,赌场开出“大”的可能性,并不是一个常数,而是随着我们的观察不断变化的!至少,如果我是御前侍卫,我不会理所当然地认为,没事没事,连开 13 记大只是运气不好,自认倒霉算了。相反,我会产生一个合理的怀疑:这里面有没有人在搞鬼?是不是有一些高手以我不知道的方式在背后操纵?或者这里的骰子是不是灌了铅?
一开始,我的这种怀疑还只是隐隐约约,但随着赌场每开出一记“大”,我的怀疑就加深一分。连续开出 13 记“大”之后,我觉得,非常可能,这个赌场里的骰子确实有鬼,它投出“大”的概率要远远高于一半。在这种情况下,如果一定要下注,我宁愿跟风押“大”,除非之后的投掷结果渐趋正常,最终打消我的这种怀疑。
关键在于,贝叶斯证明,这种“怀疑”是可以量化计算的。他的想法后来被大数学家拉普拉斯继承和吸收,并总结出一个可以普遍应用的公式,这就是大名鼎鼎的“贝叶斯公式”。
无意之中,贝叶斯第一次触碰到了“概率”与“信息”之间的内在联系。在他看来,“骰子的概率”本身也是一个不确定的东西,它需要通过不断的观察去逐步推算。每观察一次投掷骰子的结果,我们就得到一点“信息”,从而“刷新”一次对该骰子的认识。
事实上,贝叶斯本人假定“骰子公平”假设的先验概率 p 在【0,1】之间均匀分布。那么,如果出现了“连扔 13 次大”的情况,我们就可以通过贝叶斯公式准确地计算出,p 落在区间【1/2,1】里面的后验概率等于 1-1/2^14≈99.994%。也就是我们有 99.994%的信心认为该骰子有偏好,它掷出“大”的机率要高于一半。因为具体计算过程涉及积分,我在这里就不详细写了,对数学有兴趣的读者不难自己得到同样的答案。

简单来说,在贝叶斯学派看来,假定“骰子扔出 6 点”的概率为 1/6 并不是天经地义的,我们不应该对先验假设有任何偏好,换句话说,我们同样可以先验地假定这个概率是 1/2,或者 1/3,等等,它们和 1/6 的假定都没有本质不同,是平权的。关键在于,贝叶斯允许通过实践来更新概率分布,也就是说,如果我们在实际中把骰子扔出 6 点的频率确实接近 1/6,那么通过贝叶斯公式,不管从 1/2 出发还是 1/6 出发,最后得到的后验概率都会无限收敛于 1/6。从这个意义上来讲,先验假定 6 点的概率是 1/2 或者 1/6,这两种假设其实是“同样好”的,只要后续信息量接近无穷,它们导致的后验概率就都会收敛于 1/6。

其实只要查查概率论的发展史就知道,关于先验假设的优先问题是一个引起众多学者争论的话题,另外还有无差别假定,最大熵等等不同的看法。无论如何,这并没有看上去那么简单。比如法国的著名数学家达朗贝尔就曾经提出过同样的问题,他认为扔两枚硬币“只有”3 种可能:两正、两反、一正一反,因此应该把每种可能性优先假定为 1/3。这并不是达朗贝尔犯傻,而是出于对“概率”的不同哲学理解而产生的学派分歧。

事实上,由于现代物理学的发展,对于“概率”的理解问题一直延伸到今天我们对宇宙本质的认识,包括在量子论里的系综诠释或者量子贝叶斯诠释等等。应该怎样优先地选取先验概率?这在今天被称为“测度”问题,按照 Tegmark 的说法,他认为这是现代宇宙学里面最大的危机,没有之一。无论如何,扔一颗骰子,为什么我们应当优先假定“扔出 6 点”的概率会是 1/6?这是一个值得思考的问题,也是一个尚没有答案的问题,但很明显,它绝不像看上去那么简单。