第二十一章承先启后的全才

就在贝叶斯孕育他的概率理论的日子里，一个男孩出生在法国诺曼底地区一个盛产苹果白兰地的小镇子里。贝叶斯的文章在皇家学会会刊上发表的第二年，这个 16岁的少年只身离开家乡，前往诺曼底的大城市卡昂 (Caen)。

皮埃尔-西蒙·拉普拉斯的父亲来自一个世代受过良好教育而且广受尊重的家庭，不过到了他那一代，只是个富裕的农民而已。他有农场和一小片庄园，卖苹果白兰地，还参与镇子上的政府工作。有人说他可能还拥有一个公共马车的夜店。拉普拉斯从小受过很好的教育，但并没有显示出与众不同的数学天才。这也是他为什么到卡昂去上大学，而没有选择法国数学教育最好的巴黎大学的原因。由于他的父亲希望儿子成为天主教神父，所以拉普拉斯在卡昂大学读的是神学。

此前几十年，英国天文学家哈雷发现，在 1531 年、1607 年和 1682 年出现的 3 颗彗星的轨道要素基本相同。哈雷认为这 3 个报告来自同一颗彗星，并利用开普勒定律估算这颗慧星的运转周期为 75 到 76 年。哈雷估计了行星引力对彗星的影响，预测它将在 1758 年再现。那年的圣诞节，彗星首次被德国农民和天文爱好者帕利奇 (Johann Georg Palitzsch， 1723-1788) 短暂地观测到。 1759年，也就是拉普拉斯 10 岁的时候，法国天文学家对轨道重新进行了计算，预测慧星在近日点出现的时间是 4 月 13 日，误差大约是前后一个月。当 3 月 13 日彗星果真出现的时候，整个欧洲都震动了。这是牛顿力学第一次明确地向人类显示它的力量。这颗慧星从此也就有了一个确定的名字: 哈雷彗星。这个事件对少年拉普拉斯产生了不可估量的影响。

在大学里，拉普拉斯接受到相当先进的数学教育。那时牛顿、莱布尼茨究竟是谁首先发现微积分的争端早已结束，英国皇家学会在主席牛顿的领导下宣布牛顿获胜，莱布尼茨受到屈辱，黯然离世。可是，牛顿的微积分理论是依靠几何概念建立起来的，使用起来相当笨拙。英国数学家全都采用牛顿的别别扭扭的微积分，在一个多世纪里鲜有新的进展。而欧洲大陆则采用莱布尼茨依靠代数发展起来的微积分理论，灵活好用。靠着它，科学家们在天文学方面发现了许多新现象，得到许多新信息，哈雷彗星只是例子之一。拉普拉斯很快就显示出数学方面的天才。大学期间，他就把一篇关于微积分的论文发表在著名数学家拉格朗日(Joseph-Louis Lagrange， 1736-1813)编辑的数学期刊上。他意识到自己不适合神职工作，决意成为一名职业数学家。这个选择显然极大地伤害了他的父亲，直到老人去世，父子二人再也没见过面。

毕业之后，热情奔放的数学家拉普拉斯准备到巴黎去大显身手，他手持推荐信觐见了当时法国首届一指的数学家达朗贝尔 (Jean Le Rond D’Alembert， 1717-1783)。有个传闻说，第一次见面时，达朗贝尔对拉普拉斯没什么特殊印象，以为他跟那些每天前来求见的庸才一样，只是来混碗饭吃。他随手递给年轻人一本厚厚的数学书，对拉普拉斯说:“读懂了以后再来见我！” 可是没隔几天的时间，这个年轻人便又来了。达朗贝尔有些恼怒，不相信拉普拉斯竟然读懂了这部书。可是，对于他提出的所有刁钻古怪的问题，拉普拉斯都可以完整无误地回答。达朗贝尔这才对这个年轻人另眼相待，介绍他到陆军学院去教数学。

稳定的职业，固定的收入，业余搞搞自己的研究，这不是很好吗? 可这正是拉普拉斯想要避开的。他的梦想是进入法国科学院，成为专业研究人员，把精力全部放到顶尖的科学研究上。跟英国私人的皇家学会完全不同，法国科学院是一个由国家支持的组织，有才智的年轻人入选后可以得到固定的收入，专心从事科学研究。这是法国科学在 18 世纪领军欧洲的主要原因之一。

达朗贝尔是最先把牛顿力学引入法国的数学家。他看到拉普拉斯的潜力，交给他一个重要的研究课题。从 16 世纪初开始，在两百多年里天文学发生了翻天覆地的变化。哥白尼 (波兰语: Nikolaj Kopernik， 1473-1543) 把地球从至高无上的中心位置拉到一个普通行星轨道上，同金星、木星、水星、火星、土星等众星一起谦卑地绕着太阳转。开普勒把这些天体用简单的开普勒定律联系在一起。牛顿发现了万有引力定律，并结合他的运动学定律来解释开普勒定律。可是，虽然他在私下里研发了微积分，但在发表的论文中，他仍然坚持几何学的论证。他的理论只能粗略地描述天体的运行，无法解释细节。牛顿自己怀疑天体运动是否能用数学物理原理精确地描述，并依靠上帝的手来解释天体运动的周期性。牛顿在 1727 年去世后，给天文学和数学家们留下一个巨大的挑战: 究竟万有引力仅仅是个假说，还是普适的自然法则?

利用牛顿力学来描述天体的运动，一个至关重要的问题是，为什么这些天体能在万有引力的作用下保持稳定的运行状态，而不会在太阳的引力作用下坍塌下去? 几个世纪的天文观测数据似乎表明，木星的运行轨道正在收缩，而土星的轨道却在扩张。难道木星将会落入太阳，而土星会飞出太阳系? 人类是在等待《圣经》里预言的世界末日的到来吗?

三个以上物体在引力相互作用下的长期行为是数学上一个极为复杂的问题。拉普拉斯出生前两年，也就是在普莱斯努力修改贝叶斯的手稿的时候，达朗贝尔和他的长期竞争对手克莱罗 (Alexis Claude Clairaut， 1713-1765) 各自同时发表论文研究这个问题。 “三体” 问题很快成为世界数学家眼中的皇冠问题。 1767 年，拉普拉斯上大学的时候，欧拉(Leonhard Euler， 1707-1783)给出了3组具有周期性的特解。根据这 3 组特解，三个天体可以在同一平面上稳定运行，但这个复杂的问题似乎远远不止有 3 组解。今天我们知道，三体问题在数学上没有通用的解析解。从动力学角度来看，三体 (以及多体) 系统在多数初始条件下的行为是混沌的 (chaotic)，其数学描述只能用数值方法来进行。后来庞加莱 (Jules Henri Poincaré， 1854-1912) 证明，这个数学问题应该有无穷多个解。而到目前为止，人们已经发现了数千个解。

在达朗贝尔的鼓励下，拉普拉斯决定以太阳系的稳定性问题为自己的主攻目标。他的工具是数学，如同观测天文学家手中的望远镜。

想要仔细研究天体运动的规律，需要有精确的观测数据。法国科学院鼓励发展精密的天文望远镜和其他观测设备，这使科学家们得到越来越多的定量数据。数据采集和数据系统化在西方世界飞速发展。如何处理大量的数据变成一个十分紧迫的科学问题。研究人员该如何评估这巨大的观测数据库，从中择出最可验证的事实呢? 误差的数学理论在当时非常薄弱。

每天下午数学授课结束之后，拉普拉斯就在军事学校藏有 4000 多卷书籍的图书馆里翻来翻去。他意识到，需要用一个崭新的思路来处理大量的数据，而概率很可能是一条出路。就在这个时候，他在图书馆里发现了棣莫弗的《机会的理论》。突然之间，灵感如闪电般降临。天体的运动过于复杂，天文学家可能得不到精确的数据。概率论虽然不能给出绝对的答案，但可以帮助研究人员发现哪些数据最有可能是正确的。他开始考虑从充满误差的天文观测数据中推断物理规律 (也就是可能的原因) 的方法。他感觉有可能开创一种普适的理论，从已知事件利用数学手段倒推回去，挖出事件的起因。他把这样得到的概率称为 “起因的概率”，或 “起因及从过去事件导出未来事件的概率”。拉普拉斯还不知道，这其实就是贝叶斯理论。

1773 年 3 月， 24 岁的拉普拉斯在法国科学院宣读了一篇论文。年轻人将无知的人类同一个无所不知的高等智慧相比较，人类永远不可能对任何事情有百分之百的确定性，概率是我们无知程度的数学表示。 “对付人类虚弱的头脑，我们需要一套精致而天才的数学理论，那就是概率论。 ” (We owe to the frailty of the human mind one of the most delicate and ingenious of mathematical theories， namely the science of chance or probabilities.) 这篇论文不久在法国皇家学会会刊上发表，题为《从给定事件推测原因概率的备忘录》(Mémoire on the Probability of the Causes Given Events)。

跟贝叶斯的思路类似，拉普拉斯也是从一个思维实验开始的。设想一个坛子里装了两种颜色的纸牌，黑色和白色。古典概率的分析是，如何在已知黑色和白色纸牌数目的比值的情况下，估计从坛子里随机拿出一张纸牌的颜色。这相当于已知一个过程的原因 (两种颜色纸牌的比值) 来寻求一个事件 (随机取出一张纸牌的颜色) 的概率。我们在上篇里讲到伯努利，他就是这样处理概率问题的。

现在考虑与古典概率正好相反的问题。我们不知道坛子里黑牌与白牌的比值 (相当于一个过程的原因)，但我们是否可以不断地从坛子里取出纸牌 (相当于观测到的数据)，通过这些事件来推断坛子里面的黑色和白色纸牌的比值呢？

利用这个例子，拉普拉斯通过分析证明，概率统计方法可以用来作为 “修复” 我们知识的缺陷的工具。

拉普拉斯在文章里提出一个法则:

如果一个事件可以由 $n$ 个不同的原因所引起，则每个给定事件的这些原因的概率相当于给定原因的相应事件的概率; 并且每个原因的存在概率等于给定原因的事件的概率除以给定每个原因的事件的所有概率之和。

If an event can be produced by a number $n$ of different causes， the probabilities of these causes given the event are to each other as the probabilities of the event given the causes， and the probability of the existence of each of these is equal to the probability of the event given that cause， divided by the sum of all the probabilities of the event given each of these causes.

单从词语上，这个法则听起来非常复杂难懂。拉普拉斯还是用思维实验来说明其中的意义。假设有两个坛子 $A$ 和 $B ， A$ 里面有 $p$ 张白纸牌和 $q$ 张黑纸牌， $B$ 里面有 $p^{'}$ 张白纸牌和 $q^{'}$ 张黑纸牌。从其中一个坛子里 (我们并不知道是哪一个) 取出 $f$ 张白纸牌和 $h$ 张黑纸牌。通过这些纸牌，我们能否估计它们是从哪个坛子里取出来的?

从古典概率的基本理论，我们知道，如果 $f + h$ 张纸牌是从 $A$ 里取出的，那么得到 $f$ 张白纸牌和 $h$ 张黑纸牌的概率是

K = {\frac{( f + h ) ! ( p + q - f - h ) !}{f ! h ! ( p - f ) ! ( q - h ) !}} / {\frac{( p + q ) !}{p ! q !}} .

用现代概率符号， $K$ 应该记作 $P (f ， h ∣ A)$ 。同样地，如果这些纸牌是从 $B$ 里取出的，那么得到 $f$ 张白纸牌和 $h$ 张黑纸牌的概率是

K^{'} = P (f ， h ∣ B) = {\frac{( f + h ) ! ( p ^{'} + q ^{'} - f - h ) !}{f ! h ! ( p ^{'} - f ) ! ( q ^{'} - h ) !}} / {\frac{( p ^{'} + q ^{'} ) !}{p ^{'} ! q ^{'} !}} .

根据上述原则，这些纸牌从 $A$ 中取出的概率是 $P (A) = \frac{K}{K + K ^{'}}$ ; 从 $B$ 中取出的概率是 $P (B) = \frac{K ^{'}}{K + K ^{'}} 。$

从这个例子我们看出，拉普拉斯的法则可以用现代概率的语言这样描述: 如果 $E$ 是一个事件 (如拿出的 $f$ 张白纸牌和 $h$ 张黑纸牌)， $a_{1} ， a_{2} ， \dots ， a_{n}$ 是该事件的 $n$ 个可能的原因，那么，

\frac{P ( a _{i} ∣ E )}{P ( a _{j} ∣ E )} = \frac{P ( E ∣ a _{i} )}{P ( E ∣ a _{j} )} ， (21.1)

且

P (a_{i} ∣ E) = \frac{P ( E ∣ a _{i} )}{j = 1 \sum n P ( E ∣ a _{j} )} . (21.2)

回忆前一章里贝叶斯的故事，这其实正是贝叶斯想要表达但没有能够清楚给出的概率关系。再回想上篇里伯努利的尝试，我们发现这个想法比伯努利的 “反演” 概率方法直接明了了很多。拉普拉斯发现这个法则的时候只有 24 岁，从大学毕业还不到 3 年，不过完整的证明他要等到十几年以后才给出来。

有人会问，可是， $p 、 q 、 p^{'} 、 q^{'}$ 都是未知的， $K$ 和 $K^{'}$ 当然也是未知的，怎样才能从已知的 $h$ 和 $f$ 来估计 $K$ 和 $K^{'}$ ，最终求得期望得到的概率结果呢? 拉普拉斯用一个例子来说明。

首先要注意的是，古典利用组合和排列计算概率的规则在大量实验 (或大量数据点) 的情况下变得难以处理。拉普拉斯所考虑的问题涉及无穷多个实验，排列组合规则无法使用。在这种情况下，概率分布只能用连续平滑的曲线来模拟。但这意味着，使用者需要能够用积分来计算概率分布曲线所涵盖的面积，以计算概率值，并且需要用微积分的分析工具来查找诸如均值和方差之类的参数。这在拉普拉斯之前没人能做得到。

拉普拉斯还是用他的坛子来考虑这个问题。坛子里面装了无数张黑色和白色的纸牌，而且黑牌对白牌的比例是未知的。假设我们已经从坛子里取出了 $p$ 张白牌， $q$ 张黑牌，如果再从坛子里取出一张牌来，这张牌是白色的概率有多大?

拉普拉斯说，假定坛子里白色牌对所有纸牌的比值是 $x$ ，由于纸牌的总数是无穷大，可以把 $x$ 看成一个连续函数，它的取值范围显然只可能是从 0 (坛子里的牌全是黑色)到 1(坛子里的牌全是白色)。根据古典概率的知识，我们知道，从这些纸牌中取出 $p$ 张白牌和 $q$ 张黑牌的概率是 $x^{p} (1 - x)^{q}$ 。由于坛子里有无穷张纸牌，每一次取牌的事件可以认为是相互无关的，因为坛子里面两种颜色纸牌的比值 $x$ 并不因为其中少了几张而发生变化。利用上面的法则，拉普拉斯推论，取出的 $p$ 张白牌和 $q$ 张黑牌能够代表坛子里的真实比值 $x$ 的概率是

P (x ∣ p ， q) = \frac{x ^{p} ( 1 - x ) ^{q} d x}{C} ， (21.3)

这里， $C = \int_{0}^{1} x^{p} (1 - x)^{q} d x$ ，其中那个怪怪的拉长的 $S$ 是莱布尼茨积分符号，意思是把 $x$ 从 0 到 1 的区间分成很多小段，段长为 $d x$ ; 对每一段对应的一个 $x$ 值 (比如该段的起始 $x$ 值)计算 $x^{p} (1 - x)^{q} d x$ ，再把 $x$ 从 0 到 1 所有的计算值都加起来。它实际上跟式(21.2) 右面分母的含义是一样的。这样得到的分母保证了所有可能的概率之和等于 1。注意分母在对 $x$ 积分或求和之后就不再是 $x$ 的函数了，它只是一个保证所有可能概率之和等于 1 的常数。式 (21.3) 中的 $P (x ∣ p ， q)$ 只跟分子里的 $x$ 有关。

如果坛子里面白牌数目对总牌数的真实比值是 $x$ ，那么根据定义，从坛子里随机提取一张白牌的概率就等于 $x$ 。至于在取出 $p$ 张白牌和 $q$ 张黑牌之后，再取出一张白牌的概率，拉普拉斯认为应该等于白牌的真实比值 $x$ 乘以概率 (21.3)，也就是

x \times P (x ∣ p ， q) = \frac{x ^{p + 1} ( 1 - x ) ^{q} d x}{C} . (21.4)

但这只是对于一个假定的代表坛子中真正的 $x$ 值而言的概率。考虑到所有 $x$ 值的可能性，从坛子中再取出一张白牌这个事件 $E$ 的全部概率 $P (E)$ ，是对式 (21.4) 作积分或者求和，也就是

P (E) = \frac{\int _{0}^{1} x ^{p + 1} ( 1 - x ) ^{q} d x}{C} = \frac{p + 1}{p + q + 2} . (21.5)

从式 (21.3) 到 (21.5) 的过程现在被称为拉普拉斯的演替规则 (Rule of succession)。式 (21.5) 最右边的结果有一个很简单而直观的解释: 既然我们事先对一个实验 (即从坛子里取纸牌)有一个确定的知识，那就是它可能成功(取出白牌)也可能失败(取出黑牌)，那么在实验进行之前(也就是在提取 $p + q$ 张纸牌之前)，我们就等于已经有了一对观测结果 (两个可能的结果，一个成功，一个失败)。从这个意义上来说，在进行下一个实验 (提取下一张纸牌) 时，我们等于是有了 $p + q + 2$ 个观测点，其中 $p + 1$ 个是成功的， (得到白纸牌) 的概率当然就是 $\frac{p + 1}{p + q + 2}$ 。

这是一个很好的说明贝叶斯原理的例子 (见前一章)。在从坛子里取出任何一张纸牌之前 $(p = q = 0)$ ，我们唯一所知道的是坛子里有黑白两种纸牌。根据式 (21.5)， $P (E_{0}) = \frac{1}{2}$ ，也就是说，在这种情况下我们只能假定取出第一张纸牌是黑和是白的概率相等，这是我们的前置概率。如果取出的第一张纸牌是白的，也就是 $p = 1 ， q = 0$ ，那么根据式 (21.5) 我们得到 $P (E_{1}) = \frac{2}{3}$ ，这是我们对坛子里白牌数相对于总牌数比值的第一个估计。类似地，如果第一张牌是黑的，则 $p = 0 ， q = 1 ， P (E_{1}) = \frac{1}{3}$ 。在两者当中的任何一种情况下，把 $P (E_{1})$ 作为前置概率，再取下一张牌来计算 $P (E_{2})$ 。这样一步步继续，随着取出的牌数的增加，我们对坛子里白牌对黑牌的比例的估计也就越来越接近真实比值。

进一步，拉普拉斯说:

“在 $p$ 和 $q$ 非常大的情况下，我们可以确信坛子里面的白色纸牌对全部纸牌的比值可以被 $p$ 和 $q$ 限制在 $\frac{p}{p + q} - w$ 和 $\frac{p}{p + q} + w$ 之间，而且 $w$ 可以小于任何给定的正数。 ”

换句话说，坛子里纸牌的真实比值 $x$ 可以被下式的概率来表达:

P (\frac{p}{p + q} - w \leq x \leq \frac{p}{p + q} + w) = \frac{\int x ^{p + 1} ( 1 - x ) ^{q} d x}{C} ， (21.6)

上式分子上的积分是从 $\frac{p}{p + q} - w$ 到 $\frac{p}{p + q} + w$ 。令 $x = \frac{p}{p + q} + z$ ，拉普拉斯证明，式 (21.6) 的右端可以由下式近似地表达:

\frac{k}{π} \int_{0}^{w} 2 e^{- k^{2} z^{2}} d z (21.7)

而且其积分之后的结果约等于 1。这其实就是棣莫弗早先得到的所谓正态分布 (见第十八章)。

同贝叶斯连篇累牍的老式论述风格相反，拉普拉斯利用准确的数学分析，轻松而明了地解决了问题。许多统计学家认为，二百多年后，拉普拉斯这篇文章读起来就像现代人写的一样。

更重要的是，拉普拉斯希望定量地解决概率问题。有人比喻说，如果说贝叶斯的目的是根据地面的水洼来判断说，昨天下了雨，并且明天也可能下雨，那么拉普拉斯的目的则是希望根据水洼的大小利用递归法一步一步地改进对昨天下雨量的估计，并且估计明天的下雨量。青年拉普拉斯发现的这个方法的影响力马上就显示出来，得到广泛的应用。也就是在 24 岁时，拉普拉斯成功进入法国科学院。在很长一段时间里，人们一直以为拉普拉斯是这个思想的首创者，直到 20 世纪，人们才意识到是贝叶斯最先发现了这个原理。

如今，对一个 “实验” 所进行的 “完整” 的贝叶斯分析包括下面这些基本元素:

我们最感兴趣的参数，也就是式 (20.1) 中的 $θ$ 。不过这个参数所代表的意义非常广泛，它可以是二项式分布的参数如式 (20.1)，也可以是其他分布函数的方差或平均值，事件的发生比(odds)，或者一套回归参数等等，这些概念的细节将在下篇里讨论。这个参数可以被看成是实验的“自然真实状态”。
$θ$ 的前置概率分布 $f (θ)$ 。这个分布总括了在实验或测量之前我们对问题的所知程度。这个分布有很大的主观性，不同的人在处理相同的问题之前使用的前置概率有可能不同。
似然函数 $f (x ∣ θ)$ 。这个函数提供在给定 $θ$ 值条件下的测量数据 $x$ ，这些数据可能遵从二项式分布，也可能遵从其他分布形式，随不同模型而定。
后期概率 $f (θ ∣ x)$ 。这是对前置概率和新的测量数据综合起来以后所得到的信息。它告诉我们有了新的测量数据以后，我们对 $θ$ 的了解程度。
贝叶斯定理，也就是式 (20.2a， b)。在式 (20.2b) 里面， $P (A ∣ B) = f (x ∣ θ) ， P (B ∣ A) =$ $f (θ ∣ x)$ 。通过这个定理，我们在得到新数据之后对前置概率进行校正，得到后期概率。如果后面还有新数据进来，我们把得到的后期概率当作新的前置概率重新应用贝叶斯定理，这样一步一步地改进我们对 $θ$ 的所知程度。这是一个渐进过程，我们可能永远不会知道 $θ$ 的确切值，但是每一步改进，我们对 $θ$ 的了解就更进了一步，直到达到我们满意的程度为止。

从概率分析的角度来看，到此贝叶斯分析就可以结束了，但在实际应用当中，在达到第 5 步以后，我们有能力做更多的事，包括:

根据分析结果做出决定来采用行动 $a$ 。比如，有两种药物，药 1 和药 2，根据临床数据，通过贝叶斯分析，我们决定下一步对病人使用药 $1 (a = 1)$ 还是药 $2 (a = 2)$ 。
损失函数 $L (θ ， a)$ 。每次采取行动，取决于实验的自然真实状态和行动的内容，我们会面对损失或增益。比如，药 1 的疗效好于药 2，但由于我们不知道 $θ$ 的确定值，所以在第 6 步决定对病人使用药 2，那么我们的结果就受到损失。一般来讲 $a$ 也是 $x$ 的函数。虽然 $L (θ ， a)$ 叫做损失函数 (Loss function)，如果我们在第 6 步选择使用药 1，我们的结果也可能得到增益，所以这个函数应该叫损益函数。
期望的贝叶斯损失 (也叫贝叶斯风险， Bayes risk)。从前面得到的后期概率，贝叶斯理论可以帮助我们找到是期望的贝叶斯损失 (Expected Bayes Loss， EBL) 达到最小的行动 $a (x)$ ，这里， $EBL = \int L (θ ， a (x)) f (θ ∣ x) d θ$ 。

从第 6 步到第 8 步的过程比较复杂，其中建立损失函数是最困难的一步。这是贝叶斯理论在许多领域应用中研究的重点，但不在本书的讨论范围以内。

作为贝叶斯理论的应用，让我们看一个简单的例子。假设有一只黑盒子，里面有非常复杂的装置，但我们完全看不到。盒子正面有一个入口，左右两侧各有一个出口。我们把一只小球放进入口，它可能从左边的出口滚出来，也可能从右边的出口滚出来。我们对黑盒子一无所知，但我们知道，如果小球从左边出口滚出来的概率是 $θ$ ，那么小球从右边出口出来的概率就是 $1 - θ$ 。问题是我们怎样发现黑盒子所定义的概率 $p$ ? 设想我们已经把小球放进黑盒子 8 次，有 5 次从左边滚出来， 3 次从右边滚出来，那么可不可以预测，下一次小球会从哪个出口滚出来呢? 换句话说，小球从左、右出口滚出来的概率各是多少?

从射箭的故事里我们已经知道，这种情况下的似然函数满足二项式分布，其标准形式是 $\frac{N !}{( N - x ) ! x !} θ^{x} (1 - θ)^{N - x}$ ，其中 $N = 8 ， x = 5$ 。实际上，系数 $\frac{N !}{( N - x ) ! x !}$ 并不重要，因为它与 $θ$ 无关，而且可以在解决问题的最后一步时利用归一的方法来确定。至于前置概率分布，可以有不同的选择。不过在贝叶斯分析当中，一般认为下述函数使用起来最为方便:

f (θ) = \frac{1}{B ( α ， β )} θ^{α - 1} (1 - θ)^{β - 1} ， 0 \leq θ \leq 1 ， α ， β > 0 ， (21.8)

在不满足 $0 \leq θ \leq 1 ， α ， β > 0$ 的条件下，我们定义 $f (θ) = 0$ 。式(21.8)中的 $B (α ， β)$ 是所谓的贝塔函数，

B (α ， β) = \int_{0}^{1} y^{α - 1} (1 - y)^{β - 1} d y .

这个函数是约翰·伯努利的儿子丹尼尔·伯努利(Daniel Bernoulli， 1700-1782)最先发现的。对于满足式 (21.8) 的 $θ$ 来说，我们称它遵从贝塔分布，记作 $θ \sim Beta (α$ ， $β)$ ，其中Beta $(α ， β)$ 就是式 (21.8) 右侧的表达式。这个分布的方便之处在于，如果前置概率的分布是 $Beta (α ， β)$ ，而且在 $N$ 次测试中有 $x$ 次成功，那么后期概率分布就是 $Beta (α + x ， β + N - x)$ 。

现在微软的 Excel 里包含计算贝塔函数的功能 BETA.DIST $(x ， α ， β ， FALSE ， 0 ， 1)$ ，其中的参数 $x$ 对应着我们这里讨论的 $θ$ ， “FALSE” 告诉Excel，我们想要得到贝塔函数的概率密度，而不是累计概率 (也就是贝塔函数的积分)， 0 和 1 是 $θ$ 值的变化范围。利用这个功能很容易把不同的概率分布曲线画出来。

对于黑盒子的问题，已知在 “实验” 分析开始时 $N = 8 ， x = 5$ (设以小球从左侧出口滚出为成功)。先取用均匀前置概率分布，也就是 $Beta (α_{0} = 1 ， β_{0} = 1) = 1 。 N = 8$ 的后期概率分布则等于 Beta $(α_{1} ， β_{1})$ ，其中 $α_{1} = x + 1 = 5 + 1 = 6 ， β_{1} = N - x + 1 = 3 + 1 = 4$ 。这个后期概率如图 21.1 中的蓝色曲线所示，它的最高概率值在 $θ = 0.6$ 到 0.65 之间。

01952687-d372-7abb-afcb-1fdad5b56c54_222_287_509_500_361_0.jpg

图21.1 黑盒子小球实验中小球从左侧出口滚出的概率分布。每条曲线的形状完全由一对数字 $(α ， β)$ 来决定。正文中解释了这组数字同小球从左右两侧滚出的次数的关系。

现在假设我们又投了两次小球，一次从左边出口滚出，一次从右边滚出，也就是说，现在 $N = 10 ， x = 6$ ，这对应的是 $α_{2} = x + 1 = 6 + 1 = 7 ， β_{2} = N - x + 1 = 10 - 6 + 1 = 5$ 。根据式 (20.1)，这时的似然函数是

f (x ∣ θ) \propto θ^{6} (1 - θ)^{4} .

而根据式 (21.8)，如果选用Beta $(α_{1} ， β_{1})$ 作为新的前置概率，那么新的后期概率就具有如下形式:

f (θ ∣ x) \propto {θ^{6} (1 - θ)^{4}} \times {θ^{5} (1 - θ)^{3}} = θ^{11} (1 - θ)^{7} .

我们可以把这个后期概率写成 $Beta (α_{3} ， β_{3})$ ，其中是 $α_{3} = 12 ， β_{3} = 8$ 。这个后期概率是图 21.1 中的黑色曲线，它的最高概率值在 $θ = 0.6$ 。注意这条曲线所表达的峰比蓝色曲线要窄多了，也就是说，我们对概率分布的了解更加准确了。假设我们再把小球放进黑盒子 (第11次)，小球从左侧滚出，读者如有兴趣，可以采用Beta $(α_{3} ， β_{3})$ 作为前置概率，计算下一个后期概率，它应该是图 21.1 中的绿色曲线。

图 21.1 里还有一条用橙色虚线表示的概率分布，那是根据均匀前置概率Beta $(α_{0} = 1 ， β_{0} = 1) = 1$ 在连续投放 80 次小球以后计算出来的概率分布。它的概率最高值也在 $θ = 0.6$ 到 0.65 之间，而且峰宽和黑色曲线差不多。在这个计算里，我们假定小球从左侧和右侧滚出的次数的比值是 $50 / 30 = 5/3$ 。对比图 21.1 中的橙色虚线和黑色实线，我们可以看出，贝叶斯理论确实非常 “聪明”，小球实验进行到第 11 次，就已经预测出跟连续实验 80 次很接近的概率分布曲线了。对比图 10.2 伯努利试图反演概率的努力，贝叶斯理论的优越性一目了然。

现在我们考虑另外一个问题。在放入 8 次小球以后，如果再继续放小球入黑盒子，能不能估计一下，小球从右侧出口滚出次数高于左侧出口的概率? 实验中连续 3 次从右侧出口滚出 (使得右侧滚出次数高于左侧) 的预期概率 $E (R)$ 是带权重的 $(1 - θ)^{3}$ 对所有可能概率值的积分

E (R) = \int_{0}^{1} (1 - θ)^{3} f (θ ∣ L = 5 ， R = 3) d θ ， (21.9)

积分里面的权重 $f (θ ∣ L = 5 ， R = 3)$ 是小球从左边滚出 5 次 $(L = 5)$ 、从右边滚出 3 次 $(R = 3)$ 的概率分布。注意式 (21.9) 里面的 $θ$ 是满足小球从右侧滚出 6 次的概率，而不是依靠前 8 次实验结果估计出来的概率 (3/5)。对于前 8 次实验结果观测得到的是 $f (L = 5 ， R = 3 ∣ θ)$ ，它不等于 $f (θ ∣ L = 5 ， R = 3)$ 。我们要解决的是一个概率统计推断问题。

根据贝叶斯理论，由式 (20.2) 得到

f (θ ∣ L = 5 ， R = 3) = \frac{f ( L = 5 ， R = 3 ∣ θ ) \times f ( θ )}{\int _{0}^{1} f ( L = 5 ， R = 3 ∣ θ ) \times f ( θ ) d θ} . (21.10)

再重复一遍，这个式子的意思是说，满足式 (21.10) 的概率 (后期概率 $θ$ ) 与根据前 8 次数据得到的概率 $f (L = 5 ， R = 31 θ)$ 成正比，同时也跟前置概率 $f (θ)$ 成正比，分母是为了使所有可能的概率加起来等于 1。

回忆前面讲的射箭的故事，向黑盒子里放入 8 次小球 (相当于红箭) 对应一个二项式分布 [式(20.1)]，它给出在滚出 8 个小球以后的概率分布:

f (L = 5 ， R = 3 ∣ θ) = \frac{8 !}{5 ! \times 3 !} θ^{5} \times (1 - θ)^{3} . (21.11)

至于前置概率 $f (θ)$ ，我们跟射箭的故事一样，先取它为常数 $f (θ) = f (1 - θ) = 1/2$ ，于是它在式 (21.11) 的分子和分母中就相互抵消，由此我们得到

E (R) = \frac{\int _{0}^{1} θ ^{5} ( 1 - θ ) ^{6} d θ}{\int _{0}^{1} θ ^{5} ( 1 - θ ) ^{3} d θ} ， (21.12)

式(21.12)具有简单的解析解。著名的贝塔积分告诉我们

\int_{0}^{1} θ^{m - 1} (1 - θ)^{n - 1} d θ = \frac{Γ ( n ) Γ ( m )}{Γ ( n + m )} ，

其中 $Γ (x)$ 是所谓的伽马函数，而对整数来说， $Γ (n) = (n - 1)$ !。由此我们得到式 (21.12)的解是 $\frac{\frac{5 ! \times 6 !}{12 !}}{\frac{5 ! \times 3 !}{9 !}} = 1/ 11$ 。换句话说，小球从右边出口滚出的总次数高于从左边滚出总次数的概率只有不到 10%。如果有人和你用这个黑盒子打赌，看哪边小球滚出来的次数最多，根据最初的 8 次小球的结果，你不要选择右边。

这几个简单的例子具有非常普遍的意义，很多现实问题都可以用类似的方法解决，比如测试炮弹的落点，海上搜寻失踪的船只，法庭诉讼时估计庭辩的结果，破译极为复杂的密码等，都会用到贝叶斯理论。更多的故事我们将在下篇里介绍。

1781 年，普莱斯访问巴黎，向法国科学院秘书孔多塞侯爵 (Marie Jean Antoine Nicolas de Caritat， Marquis de Condorcet， 1743-1794) 介绍了贝叶斯的工作。拉普拉斯欣喜地看到自己的工作得到了证实，他很高兴地宣称，是贝叶斯首先发现这个秘密的:“我后来解释的这个原理，是他(贝叶斯)首先急切地、天才地，但是有些笨拙地完成的。 ”

可是在后来的几十年里，拉普拉斯越来越发现这个定理在应用上的限制。前置概率都假定为等概率分布，作为科学工作者，他不赞成对初始假定作这样的限制。他说: “必须小心使用概率科学; 当我们从数学进入物理世界时，概率理论应该得到相应的改进。 ” 他还意识到他的方法在实际应用中的技术困难，概率计算需要把数字不断地乘来乘去。把很多巨大的数字连乘，然后再除以巨大数字的阶乘，使用起来实在太不方便了 (在没有计算器的时代，想象如何计算 10000! 这个阶乘)。他曾经试图利用法国的乐透奖来检测自己的理论，可是那时的乐透奖竟然包含了 90 个数字，每次只抽 5 个奖，他无法完成对这类巨大数字的概率进行反复运算。而天文观测的数据量对于检验他的理论来说，又显得小了些。

拉普拉斯不怕计算。他发明了许多捷径和聪明的近似，把巨大的数字变成一系列较小的、容易处理的数学项，其中包括生成函数 (也叫母函数)、数学变换、渐进展开等等。他的生成函数和数学变换已经深深地嵌入今天的数学分析和实际应用当中了。

于是他到社会学领域去寻找 “大数据”，但社会学常常涉及到许许多多可能的原因，使得代数公式显得无能为力。其中一套巨大而且可信度高的数据是法国各大教区的出生、洗礼、婚姻和死亡记录。法国政府从 1771 年开始下令各省区政府向巴黎报告这些数据，这比英国的记录晚了一个世纪。 1774 年，皇家科学院公布了巴黎地区 60 年的记录。这些记录显示男孩的出生人数总是比女孩要多。格朗特当年在分析伦敦的记录时已经注意到这个事实。可是，长期以来，人们总是假定，男孩对女孩的比例同许多自然界的规律性的现象一样，是神圣的“天意”。

由此，拉普拉斯找到了机会，他有意避开天文学，开始研究起婴儿来。从概率论的角度来看，婴儿简直太理想了，因为他们只有男孩和女孩两种可能，是纯粹的二项式分布。我们前面已经知道，古典概率理论对处理这类问题已经很完善了，更何况每年肯定都有大量婴儿出生。拉普拉斯知道，研究这个问题绝对需要大量的数据，因为男孩和女孩的数目差别非常小，任何微小的数据波动和误差都可能对结果产生严重影响。

他从均等概率的假定出发，也就是说，实用的前置概率是男孩和女孩各占50%，这是典型的贝叶斯-拉普拉斯处理方法。后期概率最终取决于逐渐增加的观测数据。下一步，他尝试确认格朗特的男孩多于女孩的结论，这是在构筑测试假说的现代理论的基础。他查阅了大量的巴黎和伦敦的出生记录以后，得出结论，至少在未来 179 年里，巴黎出生的男孩都会比女孩多; 而对于伦敦来说，这个结论将维持 8605 年。他写道:“假如说这是偶然的，那简直太不可思议了。 ”

男孩真的总是多于女孩吗? 如果确实如此，那么是什么原因造成的呢? 他开始考虑气候、食物、风俗习惯等的影响。在以后的 30 年里，他搜集了世界各地的出生资料，南方如意大利的拿波里 (Napoli)，北方如俄罗斯的圣彼得堡 (Saint Petersburg)，当然还有法国的各大省。最后，他得出结论，气候不能解释出生婴儿的性别比例。随着后期概率不断地迭代修正前置概率，随着分析进展，他发现， “男孩出生率高于女孩的可能性快速地加大”。这个结论，他认为 “如同其他道德真理一样确定”，这个结论出错的可能性极小。经过几十年的不断探索和研究，他在 1812 年谨慎地宣称:“男孩出生率高于女孩，这是人类的普遍规律。 ”

在这个漫长工作的进行期间，为了检验他的大量采样法则，拉普拉斯在 1781 年决定估算法国人口。这是评估一个国家的健康和富足的测温计。法国东部一位认真负责的官员已经仔细地考察了若干教区的人口。为了估算全国的人口，这位官员建议把法国每年出生的婴儿总数乘上26。由此他得到法国的总人口约为 2500 万。可是没人知道这个神秘的数字 26 是从哪里来的。

拉普拉斯把全国各教区的出生和死亡记录同那位官员的人口普查结果结合起来作为前置概率，然后利用个别教区较为精确的数据来调整对全国人口的估计。经过 5 年的观测、调整和计算， 1786 年，他得出结论，法国的人口接近 2800 万，分析误差高于 50 万的可能性是千分之一。现代的人口学家认同拉普拉斯的结论。由于饥荒的减少和政府训练的接生婆人数的增加，法国人口在 18 世纪增长很快。

进入晚年，在从事人口普查工作的同时，拉普拉斯开始卷入关于法国司法系统的纷争。孔多塞侯爵相信，社会科学应该可以像自然科学那样定量化。为了把专制的法国转变为英国式的宪政王朝，他请拉普拉斯利用数学手段来探讨各种社会问题。比如，当法官或陪审团提交一个判决决议的时候，我们对这个判决到底有多大的信心? 陪审团的表决在多大程度上反映了整个犯罪事件的真相? 拉普拉斯把他的概率理论应用在众多社会学问题上，比如选举程序，证人的可信度，审判法官和陪审团的决定，以及如何寻找具有代表性的陪审团人员，等等。

拉普拉斯对法国审判法庭的公正性一直抱有怀疑。法医学在当时还不存在，审判系统全靠证人的见证。拿到证人的陈述以后，拉普拉斯想要考察证人究竟是诚实的、被误导了，还是错误的等这些可能情况的概率。他估计，对前置概率来说，被告人是否有罪也许可以取 50 对 50，陪审团的公正的概率可能稍微高一些。即便如此，按照他的计算，一个 8 人的陪审团根据简单多数投票表决，做出错误的 “有罪” 判决的概率是 $\frac{65}{256}$ ，高于 25%。这个误差概率太高了，所以无论从概率还是从道德的角度来看，他都认为应该废除死刑。

在进行以上这些工作的同时，拉普拉斯继续土星和木星轨道稳定性问题的研究。正是这个问题使他感觉到数据误差的影响，从而进入概率领域的。从 1785 年到 1788 年，拉普拉斯确定了木星和土星围绕太阳运行的轨道具有微小的扰动，扰动的周期大约是 877 年。月球围绕地球的轨道也有微小扰动，其周期有数百万年。他证明，土星、木星和月球的轨道基本上是遵从牛顿定律的。他还证明，太阳系是处在稳定状态，世界末日远没有到来。他的发现是自从牛顿定律问世以来天文学研究的最大跃进。可是，在这些研究中，他并没有使用我们刚刚介绍的新概率理论。他使用的是另一种理论，一种开启了科学数据进行现代化分析的理论。有关的故事，我们将在下篇里面继续。

本章主要参考文献

De Morgan， A. Reviews on Theorie Analytique des Probabilites. Par M. le Marquis de Laplace， etc. 3eme edition， Paris 1820. Dublin Review， 1837， 2: 338-354， and 1838， 3: 237-248.

Eddy， S. R. What is Bayesian statistics? Nature Biotechnology， 2004， 22: 1777-1778.

Kuusela， V. Laplace - a pioneer of statistical inference. Electronic Journal for History of Probability and Statistics， 2012， 8: 1-24.

Laplace， P. S. Memoir on the Probability of the Causes of Events (1774). English translation by S. M. Stigler. Statistical Science， 1986， 1: 364-378.

McGrayne， S. B. The Theory that Would not Die. New Haven: Yale University Press， 2011: 320.

Stigler， S. M. Laplace’s 1774 Memoir on Inverse Probability. Statistical Science， 1986， 1: 359-378.

Youliang Zhong

Table of Contents

Backlinks

Graph View

第二十一章承先启后的全才