第二十章 背对射手和靶子的牧师
还记得随机 (stochastics) 这个词的来历吗? 如果不记得, 请读者回去翻一下第十章。
现在设想你是一名射手, 面对着一张靶子拉弓射箭。 这时一位老人走过来, 对你说:“你把一支黑箭随便插在靶子的什么位置上, 然后用红箭来射靶。 不用瞄准, 只要上靶就行。 我背朝靶子, 一眼也不看。 只要你告诉我红箭落在黑箭的上边、下边、左边, 还是右边, 我就能告诉你黑箭的位置。 ”
“这可能吗?” 你说。
答案是肯定的, 但有个条件, 那就是你要射足够多的红箭, 而且它们的落点是随机的。 多少是 “足够多” 呢?那要取决于你对老人猜测结果的精确度的要求有多高。
这是一个既简单又令人惊奇的概率游戏。 它让许多杰出的概率统计学家疑惑了二百多年, 所以值得花些笔墨把它的基本原理描述一下。
为了简单起见, 让我们假定你的靶子是矩形的。 其实任何形状都无所谓, 选择矩形只是为了叙述方便。 这样, 我们只需要看看如何确定黑箭的横向位置就行了, 因为确定纵向位置的原理跟横向是一模一样的。
你开始朝靶子随机地射出红箭。 有一支箭几乎射到黑箭上。 你很兴奋:“我射到了!” 可是老人却低着头淡然地说:“不要管它。 只要告诉我它是在黑箭的哪一边就行。 ”在你射出第 26 支红箭之后, 老人说:“暂停!”
你看了看靶子上的红箭。 它们的落点如图 20.1 所示。 你显然是一个不怎么样的射手。 有 17 支箭落在黑箭的右边, 9 支落在它的左边。 为了区分它们, 落在右边的用红点表示, 左边的用绿点表示。
这些, 背对靶子的老人当然什么都看不到, 他只在小本子上记下了几个字, 左: 9;右: 17。 然后他简单计算了一下, 说: “黑箭的水平位置在从靶子的左边算起, 大约是靶宽的 35% 的地方。 ”
你看了一下靶子下面的标尺, 从靶子左边的边缘算起, 黑箭的水平位置在差一点就到靶宽 40% 的地方 (图 20.1)。 真神奇! 可他是怎么知道的呢? 不会是瞎猜的吧?

靶宽
图 20.1 矩形靶子上黑箭 (黑点) 的位置。 假定你随机地射了 26 支红箭, 17 支落在黑箭的右边, 9 支落在它的左边。 为了区分它们, 落在右边的用红点表示, 左边的用绿点表示。
“你想问我是怎么知道的, 对吧?” 老人眨了眨眼, 一副狡黠的样子。 “你看”, 他把小本子伸到你眼前, 只见上面写着: 。
可是, 为什么呢?
老人接着说:“从现有的 26 支红箭来看, 我这个估计大约有 20% 的误差。 不过如果你愿意的话, 咱们可以继续玩这个游戏。 你射的箭越多, 我的误差就越小。 ”
这又是为什么呢?
还记得第十章里伯努利的纠结吗? 通过一个过程的原因或者一个游戏的基本原理来计算该过程或游戏中每个事件的概率, 这是一个正过程。 我们知道原因, 通过原因来计算结果。 我们不妨用 (结果 I 原因) 来表示这个从原因来分析结果的概率。 从原理上, 伯努利很清楚地知道如何计算这个概率。 可是从结果如何估计原因呢? 换句话说, 如何得到一个未观察到的事件的概率 (原因) 结果) 呢? 这样的概率, 最早称为反演概率 (Inverse probability), 现在称为统计推断 (Statistic inference)。
在第十章里, 伯努利采用一个别别扭扭的办法来说明, 如果已知理论概率值, 那么当随机事件数目足够大时, 观测到的实际概率的数学平均值可以逼近理论概率值。 但是, 如果理论概率值完全是未知的, 也能够通过大量随机事件来反演这个概率值吗?从伯努利的话来看, 他相信是可以的。 但是他并没有能够证明这个反演问题。 后来数学家证明, 采用他的方法, 普遍的反演结果是做不到的。
有很多问题, 未来的真正状态永远不可能被精确地确定, 只能限定在某种可能的范围内; 不可能依靠理论 “先验地” (a priori) 确定, 而只能从已经产生的结果反推回去, 也就是说 “后验地” (a posteriori) 来确定。 而 “后验” 就意味着要对大量类似的情况事先做出观察、统计和归纳, 之后才能做出估计性的推论。 伯努利的思考方式是在固定允许概率的框架之内, 利用已知概率来计算获胜概率随游戏次数增加的变化 (见第十章图 10.2 及相关的讨论)。 这显得很笨拙, 而且逻辑上有问题, 因为他是从已知概率出发的, 而他想讨论的最终问题是没有已知概率的。
射箭的思维实验极为聪明地解开了这个逻辑困境, 确确凿凿地证明了伯努利的宣称:“我的观察越多, 我预测的偏差就越小。 ”
最先想到这个思维实验的人名叫托马斯·贝叶斯 (Thomas Bayes, 1702-1761), 那是差不多 280 年前了。 只不过他考虑的不是箭和靶子, 而是把球放到桌面上。 他利用这个例子说明这个“魔法”的数学原理(图 20.2)。
首先, 他做了如下的假定:
-
黑箭在靶子上的位置是任意的, 也就是说, 它在靶子上任何一点的概率相等。 他把这个假定的概率分布叫做前置概率分布 (Prior distribution)。
-
红箭落在靶子上任何一点的概率也相等。
-
由于不知道黑箭在靶上的位置, 不妨先假定红箭落在黑箭左侧和右侧的概率相等。 这个假定跟投一枚硬币出现正反面相等概率是类似的。

图 20.2 贝叶斯在计算后期概率的思维实验中使用的示意图。 取自 1764 年英国皇家学会年刊上发表的文章。 正方形 代表水平的桌面。 先把一个球 (相当于我们所说的黑箭) 抛向桌面, 它在桌面上的位置可以由一对坐标 来表示。 平行于 , 平行于 。 注意这张 1764 年的图跟我们现在的表达方式不大相同: 这里球 和 的位置是投球实验之前的任意位置。 投出后, 球 的 坐标值对应于线段 。 现在向桌面抛 次球 (相当于我们所说的红箭)。 根据 球在桌面的所有位置都是等概率的假定, 贝叶斯计算了概率的实际分布, 也就是通过图中字母 BjwhikmA 的那条曲线。 如果把这张图倒过来看, BjwhikmA就对应着图 20.1 的曲线。
在这些假定之下, 如果所有的红箭都落在黑箭的左边或右边, 那么黑箭最可能的位置就应该在靶子的最右边或者最左边。 如果红箭落在黑箭的两边, 比如落在左边的红箭有 支, 落在右边的有 支, 那么黑箭最可能的位置, 就应该在 处。 这是一个介于 0 与 1 之间的数, 代表黑箭在靶子上概率值最高的位置。 至于具体位置, 就是从靶子的左边算起, 靶子总宽度的 的地方。 至于黑箭的高度, 只要知道这些红箭高于和低于黑箭的数目就可以了。
那么, 他是怎样估计误差的呢? 在上述假定下, 贝叶斯导出了黑箭在靶子上任何一点的概率值。 这些概率值构成一个概率密度函数 , 其表达式如下:
这里 是一个代表概率的变量。 在图 20.1 里, 横轴有两个不同的坐标。 靶子的实际宽度没有标上尺度和单位, 这是因为实际宽度不重要。 标有从 0 到 1 的横轴坐标代表概率 对应着靶宽的变化的范围。 在假定 2 的前提下, 从靶子的最左端算起, 红箭落在靶子上的水平位置的概率同靶宽成正比。 图 20.1 中的那条黑色曲线是概率密度函数 的变化趋势。 这条曲线是分析了 26 支红箭落点之后得到的后期 (Posterior) 概率分布。 我们看到, 曲线在 的地方达到最大值。 从这条曲线所给出的峰值的宽度可以估计概率峰值的误差或估计值的可信度。 图20.1中, 95%的可信度的 值由两根竖直的蓝色线条给出, 大约在 0.346 两边 20% 的地方。
可能明眼读者已经注意到, 图 20.1 里的曲线左右不对称, 这是因为式 (20.1) 右侧的函数左右非对称。 为什么呢? 因为在一般情况下 。 而 95% 可信度对应的是曲线下的全部面积减去两端2.5%的面积, 所以左右两侧的蓝线的高度不同。 式 (20.1) 所定义的函数同所谓的 “正态分布曲线” [公式 (18.3) ] 是有区别的。
讲到这里, 有必要对前置 (Prior) 概率和后期 (Posterior) 概率这两个概念插几句话。 请注意这两个词的英文写法。 在不少中文文献里, 甚至包括一些专业概率统计文献里, 这两个词有时被翻译成 “先验” 和 “后验”, 这是把这两个英文词同拉丁文的 “ priori” 和 “a posteriori” 混淆了。 英文里借用了不少外来语, prior 和 posterior 就是两个例子, 它们都来自拉丁文。 但作为英文单词, 它们表示的是 “在……之前” 和 “在…… 之后”的意思, 跟拉丁文的“a priori”(先验)和“a posteriori”(后验)的意思完全不同。
言归正传。 如果你愿意继续这个游戏, 接着射红箭, 那么在一定的时候, 比如射出 100 支箭以后, 老人可以采用图 20.1 中的概率密度函数作为下一步的前置概率分布来对所有 100 支箭的落点进行分析, 以改进他对黑箭位置的估计。 这个过程可以一直进行下去, 直到老人估计的位置值达到你想要的精度为止。 由此我们看到, 贝叶斯思想的以下特点:
-
这是一个逐步演进的过程。 红箭射的次数越多, 对黑箭位置的估计越准确。
-
这是一个学习过程。 计算概率者不断地从观察 (射出红箭) 的过程中来改进自己的估计。
贝叶斯的父亲和祖父都是长老会教会的牧师, 所以他的童年应该是相对平稳富裕的。 他好像从小就喜欢数学。 可是, 虽然长老会也是新教的一个分支, 它跟同属于新教的所谓圣公会 (Anglican Church) 还是有些不同, 而英格兰圣公会认为长老会不是宗教改革的一部分。 当时的年代不能容忍具有不同宗教和观点的人。 在贝叶斯祖父的年代, 因为宗教信仰不同而死在英格兰监狱里的人将近两千。 即使在贝叶斯生活的时期, 数学也是按照宗教和政治信仰来区分的。 在英格兰, 信奉与圣公会不同信仰的人不能被大学录取, 他们只能自学。
苏格兰的教会则以长老会为主。 所以, 贝叶斯在 18 岁的时候跑到爱丁堡大学去学习神学和数学。 那里教学严谨, 使他终身受益。 1722 年, 他回到英格兰, 按例成为助理牧师, 协助父亲在伦敦的长老教会服务。 12年后(1734 年), 他搬到肯特郡的皇家唐桥井镇 (Royal Tunbridge Wells), 成为一名独立的牧师。 唐桥井距离伦敦只有 64 公里, 那里富含铁质的泉水受到伦敦中产阶级的广泛欢迎, 都喜欢到那里去作温泉疗养。 贝叶斯的家庭在钢城谢菲尔德 (Sheffield) 有炊具生意, 相当富有, 所以他的生活很轻松。
同年, 爱尔兰圣公会在科克郡科罗因镇的主教伯克利(George Berkeley, 1685- 1753)发表了著名的小册子《分析家》(The Analyst), 对信仰非圣公会教义的数学家们发起攻击。 有人说, 他攻击的主要对象是我们前面提到的哈雷。 伯克利有很好的数学基础, 他指出刚刚问世不久的微分学中有一个悖论: 牛顿和莱布尼茨在推导导数的时候, 先把无穷小量看成是非零的, 可以做除法; 可是在最后计算函数导数的时候, 又把无穷小量作为零来处理。 他把这个悖论称为 “消失量的幽灵” (Ghosts of departing quantities)。 这确实是早期数学逻辑上的一个难题。 直到 20 世纪中叶, 这个悖论才被真正解决。 不过, 伯克利小册子的真正目的在于神学。 他找到微分学初期的这个弱点, 目的是为了搞掉这门崭新的学科。 他指责那些 “不信神的数学家” 企图依靠 “自由思考” 的方式建立抽象数学来解释世界, 放弃上帝。 这种因为洗澡水不干净, 干脆连婴儿一起倒掉的手段当然是无法被科学界接受的。 后来, 在美国以伯克利命名的一所加州大学校园成为抽象数学的名校, 这位主教先生如果地下有知, 不知该作何感想。
贝叶斯写了一篇论文为牛顿利用流数理论为基础的微分理论辩护, 反击伯克利。 由于这篇论文, 贝叶斯在 1742 年被推举进入皇家科学院。 可是从那以后, 贝叶斯再没有发表过任何数学方面的研究成果, 直到 1761 年去世。 在整理遗物的时候, 他的亲属发现了一些数学手稿, 于是请贝叶斯的朋友、长老会的普莱斯(Richard Price, 1723- 1791) 前来帮助整理。
普莱斯这个人现在已经很少有人知道了。 不过在 18 世纪下半叶, 他在呼吁公民自由和支持美国独立方面的工作使他名震大西洋两岸。 美国第二届总统约翰·亚当斯 (John Adams, 1735-1826) 早期在英国担任美国大使的时候, 为了逃避国王乔治三世(George III, 1738-1820)的“殷勤款待”, 经常跑到普莱斯执掌的教会去当听众。 美国国会曾经邀请他移民到美国, 帮助管理全国的金融机构。 本杰明·富兰克林(Benjamin Franklin, 1706-1790)为他提名加入英国皇家学会。 汤玛斯·杰佛逊 (Thomas Jefferson, 1743-1826) 邀请他撰文批判奴隶制。 1781年耶鲁大学授予两个人名誉学位, 一位是乔治·华盛顿 (George Washington, 1732-1799), 另一位就是普莱斯。
贝叶斯在世的时候, 几乎没有人知道他在研究概率。 当人们遇到概率的难题时, 首先想到的是棣莫弗这样的专家。 所以当普莱斯在贝叶斯的遗物中发现这篇概率论手稿的时候, 也感到意外。 起初, 普莱斯没有太注意这篇手稿, 因为它尚未完成, 对问题的解是 “有缺陷的” (普莱斯语)。 而且, 根据贝叶斯的描述, 他的方法需要不断地修改前置概率分布, 重新计算后期概率, 反复循环, 计算量非常大, 从具体计算的角度来看在当时很不现实。 可是普莱斯越读发现它越有价值。 当时英国正在进行着一场关于宗教和经验主义哲学的大辩论, 普莱斯发现贝叶斯的概率论支持自己的宗教观点。 于是他花了两年多的时间研读和编辑它, 最终于 1764 年在英国皇家学会年刊上发表。
1748 年, 苏格兰经验主义哲学家休谟 (David Hume, 1711-1776) 出版了《人类理解研究》(An Enquiry Concerning Human Understanding)。 在这本书里, 休谟站出来公开声明, 基督教里所讲述的上帝的“神迹”是不可信的:
“神迹违反自然法则。 既然这些自然法则在我们的经验里是坚实而不可改变的, 从这些经验事实建立的反对神迹的证明就是完整的……这些论据不容任何怀疑与反对的空间。 ”
从概率论的角度来看, 休谟的论证逻辑是这样的: 如果自然法则是死人不能复活, 让我们用 来表示这个法则, 也就是原因。 根据过去的经验, 我们没有看到过死人复活, 这是结果, 用 来表示, 那么 。 反过来, 如果有死人复活, 我们把这样的事件记为 , 那么, 根据休谟的逻辑必然有 , 也就是说, 根据自然法则, 死人复活的概率等于零。 普莱斯是一位牧师, 他坚决反对休谟的观点。
在普莱斯看来, 贝叶斯的分析是反过来思考这个问题: 我们在世间看到的是 , 就像我们游戏里观察到的红箭的分布。 而 是我们没看到的, 它类似于黑箭的位置 。 单单从几只红箭的落点是推不出黑箭的位置也就是 的。
怎样才能通过 来推测 ? 贝叶斯通过他的思维实验的特例证明,
这个关系现在被称为贝叶斯定理。 采用标准的概率符号, 贝叶斯定理可以写作
这里, 是观测到的事件 (射手射到靶子上的红箭), 是起始条件 (随机放置的黑箭), 是起始条件下的概率分布 (完全随机), 是红箭落在靶子上的分布。 根据贝叶斯推导式 (20.1) 的思路, 应该是二项式分布, 正比于 。 通过这些信息, 我们就能估计黑箭的大概位置。
由于普莱斯的编辑和修改, 今天已经很难区分在 1764 年发表的贝叶斯的文章里面, 哪些是贝叶斯的原创, 哪些是普莱斯的贡献了。 投稿的时候, 普莱斯在投稿信中提供了发表这篇文章的宗教意义。 他说, 从数学世界转向自然世界, 反向回推到这个世界存在的原因, “自然世界必然是一个有智慧有能力的原因的结果”, 所以贝叶斯理论 “证实了上帝的存在”。
但是后人注意到, 贝叶斯的手稿里从来没有出现过 “上帝” 这个词。 贝叶斯把依据猜测建立的起始判断同反复观察得到的实验判断结合起来, 开创了一个新的方法: 根据客观的新信息来修改最初的信念。 利用这个方法, 他可以通过观察现实世界对可能的原因做出判断。 他的发现对概率论是个极其重要贡献, 后人称其为 “原因概率”. “反演概率”、“贝叶斯统计”, 或者“贝叶斯法则”。
贝叶斯没能完成他的手稿, 也许是健康原因, 也许是觉得这个想法的价值不高。 普莱斯帮助他发表之后, 最初也几乎没人注意到这篇文章, 直到拉普拉斯重新发现了它并把它数学化。 但即使是拉普拉斯, 后来也把这个理论放弃了, 因为需要的计算量太大, 当时的计算能力很难达到。
贝叶斯更没有想到的是, 这篇未完成的手稿会在二百多年里在哲学和科学界造成巨大反响。 从科学哲学角度来讲, 很多人无法接受把主观猜测同客观观察联系起来解决概率问题的想法。 相信贝叶斯理论的人被称为主观派或主观主义者。 从科学的角度来看, “主观” 是个很不好的形容词, 几乎等同于 “编造”。 大多数科学家认为, 只有大量观测, 才能客观地确定一个给定过程的概率分布。 这种过程就像骰子游戏的概率分析: 必须先利用排列组合把全部可能的事件都计算出来, 然后才可能得出任何一个具体事件出现的概率。 持这种信念的人被称为频率派或频率主义者, 可是对非常多的实际问题来说, 这种处理方式根本行不通。 比如下一章将要讲到的黑盒子问题, 频率派理论就得不到正确的结果。 人口死亡率的故事是另外一个典型的例子。 类似的例子举不胜举。 比如一座火山何时可能再喷发? 大洋里遭遇海难的航船最可能在哪个区域被发现? 核武器出现事故伤害无辜人民的可能性有多大? 这些问题, 靠大量观察来预测概率是不允许的, 甚至是荒唐的。 人们逐渐发现, 贝叶斯理论对这些问题都有帮助。
贝叶斯的理论引起巨大的争论, 有人支持, 有人反对, 互不相让。 贝叶斯这股微风, 时隐时现, 时有时无, 经历了二百多年, 才逐渐被人们接受。 现在的贝叶斯概率经过了长足的发展, 如果贝叶斯还活着的话, 恐怕也认不出来了。
本章主要参考文献
Bayes, T. An essay towards solving a problem in the doctrine of chances. By the late Rev. Mr. Bayes, F. R. S. communicated by Mr. Price, I a letter to John Canton, A. M., F. R. S.. Philosophical Transactions of the Royal Society of London, 1763, 53: 370-418.
Bellhouse, D. R. The Reverend Thomas Bayes, FRS: A biography to celebrate the tercentenary of his birth. Statistical Science, 2004, 19: 3-43.
Edwards, A. W. F. Commentary on the Arguments of Thomas Bayes. Scandinavian Journal of Statistics, 1978, 5: 116-118.
McGrayne, S. B. The Theory that Would not Die. New Haven: Yale University Press, 2011: 320.
Stigler, S. M. Bayes’s Bayesian Inference. Journal of the Royal Statistical Society. 1982, A145: 250-258.