我经常因为自己学过某项知识又很快忘记感到既可惜、又不解。日后可能会遇到「要是还记得怎样运用这个知识就好了」的情况,为什么我就记不住呢?

概率(数学的一门科目)就是其中一项我学过就忘的知识,有多少次记下排列、组合的公式,就有多少次忘记。

我一度以为是不是中文教材的教学方式不对,找了本英文的教科书来看,但发觉这个年龄的自己根本没时间耐心啃下这么学术的英文书。

最后我发觉自己要找的并不是那种距离生活有一段距离、充满定义和数学公式的东西;我希望它能跟生活或者已有知识有关联、能脱离知识本身在更高的层面上讨论知识。

在一次无聊的搜索中,我找到了满足上述条件的书:Bayesian Statistics the Fun Way

这是本讲贝叶斯统计学的英文书,不过无论是用词还是涉及到的数学知识都不难,一个中国高中毕业生能看懂。

严格来说,这本书并没有告诉我新的知识,贝叶斯公式、各种概率分布、均值方差等等早就学过,但是它用了一种新的讲述方式,把知识应用在日常生活的事例中、把它们与别的知识关联起来。这种增添真实感的方式让我很受用,印象深刻。

说起来,概率本身就有点脱离现实生活。除了抛硬币、扔骰子,我们能确切知道某一面向上的概率,生活中还有什么事情——除了一定会发生的——有明确的概率?

将概率与现实生活联系起来的是统计数据。某事出现的概率,其实是:出现次数 / (出现次数 + 不出现次数)

因为现实生活中很多数据都没有纳入统计,所以我们不知道很多事情的具体概率。仔细看贝叶斯公式,

贝叶斯公式贝叶斯公式

等号的右边分子跟分母都有一个某事发生的具体概率,很多时候我们并不清楚这两个概率——尤其是分母——的值,导致很难计算贝叶斯公式等号左边的值。

但这并不意味着贝叶斯公式很难发挥作用。我们可以用收集到的数据和贝叶斯公式去比较两种假设对事实的解释力度。

假设现在有两个假设 A 和 B ,都可以解释某事 D 发生的概率,那么 A / B 为真的概率可以这样表示:

P(A|D) = P(D|A)A(A) / P(D) // 在 D 发生的前提下,A 为真的概率
P(B|D) = P(D|B)A(B) / P(D) // 在 D 发生的前提下,B 为真的概率

在同样的事实下,如果 A 假设为真的概率除以 B 假设为真的概率要大于 1 ,那就意味着 A 假设更有说服力。两者相除的好处是,抵销掉作为分母的事实发生的概率。

P(A|D) / P(B|D) = P(D|A)A(A) / (P(D|B)A(B))

我们不但可以比较不同假设在解释同一件事情发生的概率的有力程度,还可以比较同一个假设在解释某件事情发生概率时得出的不同数值。

比如说你买了一包瓜子,嗑开的前 10 粒中有 3 粒是坏的,你很自然会得出一个假设:这包瓜子里面有 30% 是坏的。也有可能这包瓜子里面只有 3% 是坏的,凑巧你先吃到坏瓜子而已。

但直觉上,就目前的数据来说 30% 比 3% 更有可能接近真实值,我们会用 beta 分布去具体描述这种「更有可能」。 beta 分布是概率的概率,分布的尖峰对应最有可能的那个概率值。

随着我们观察的数据增多,beta 分布的尖峰跟形状可能会改变。

比如说同样是 30% 的概率,如果这个数据是在吃了 100 粒瓜子后(发现有 30 粒坏的)估算出来的,相比只吃了 10 粒时估算的值,它对应的 beta 分布会更高更尖更瘦。这意味着基于更多的观测数据我们对这个估算值更有信心。

beta 分布beta 分布

书中提到一个观点:在此之前,我们可能会为自己的观点去收集更多有利的数据;在此之后,我们可以用更多的观察数据,结合贝叶斯理论来比较不同的理论假设,继而选择或改变我们的理论假设。

这是我看完书后,印象深刻的论点,虽然这里没有用到贝叶斯理论~

最后,如果你觉得很难想像贝叶斯公式是怎样推导出来的,推荐你看这本书的第七章,作者借助乐高解释贝叶斯公式,简直就是天才的创意!