第三十五章 贝叶斯与频率派之战
虽然优生学早在1883年就由高尔顿提出, 但有组织的优生学的真正兴起是在 20 世纪第一个十年。 它从英联邦、 德国和美国开始, 很快蔓延到法国、挪威、瑞典、丹麦、俄国, 甚至古巴、巴西、 墨西哥、加拿大和日本。 在英国, 皮尔逊和费舍尔都是优生学的极力鼓吹者。 皮尔逊这个人, 有学者形容他“极富争议、野心牢不可摧、果决而粗暴”。 他是坚定的社会达尔文主义者, 崇拜德国文化, 推崇优生论。 在种族主义方面, 他比老师高尔顿更为极端, 公然宣称: “高级人种和低级人种不可能共存。 要想让前者有效地使用全球的资源, 必须根除后者。 ” 对自己的族类也是如此, 为了挽救大英帝国, 他呼吁上流社会必须多生孩子, 而贫困者必须戒除性生活。 他多年控制着英国统计学界的数学家们, 在两代应用数学家当中引入了类似于中小学生一般的互相争斗和欺侮。
卡尔·皮尔逊继承高尔顿, 成为高尔顿优生学实验室主任, 一直做到退休 (1933 年)。 后来伦敦大学学院决定把优生学实验室分成两个系, 一个是优生学系, 由费舍尔担任系主任; 另一个故事外的故事

生物计量学在 20 世纪初的英国被广泛应用于优生学。 这张照片摄于 1937 年, 老师在课堂里演示如何测量头颅的指标。 头颅的形状被认为是一个人质量高低的主要指标之一。 亚洲、非洲人种的头颅指标被认为属于低等人种。 据说, 罪犯的头颅指标也跟正常人不一样, 似乎犯罪是可以事先预测的。
故事外的故事

1920年代伦敦的优生学宣传广告。 广告的大标题是: 只有健康的种子才能允许播种! 1931 年, 英国议会驳回了给不健康者强迫避孕的议案。 而几年后, 类似的议案在美国三十几个州通过。 是应用统计学系, 由皮尔逊的儿子伊冈 (Egon Pearson, 1895-1980) 担任系主任。 费舍尔从念大学起就跟卡尔·皮尔逊因为概率理论产生了矛盾, 二人关系恶劣。 其实, 虽然两个人一辈子互相仇视, 但费舍尔跟皮尔逊一样, 也是个极端的优生主义者, 坚信可以用科学的方法交配出大不列颠 “超人” 来。 早在剑桥大学读书期间, 费舍尔就参与组织优生学会。 他为英国优生教育学会写过 200 多篇综述。 他的固执的种族主义偏见我们在前面已经讲过了。 一些科学史研究人员认为, 皮尔逊和费舍尔研究概率统计的最终目的就是为了推行他们的优生学, 其背后的动力就是严重的种族主义。 费舍尔在遗传学著作里, 不惜违反他自己建立的概率理论原则, 使用没有根据的 “数据” 来支持自己的优生学观点, 而不少崇拜他的生物学家多年来对此讳莫如深。
但是费舍尔对概率统计理论的贡献是不容置疑的。 在清理皮尔逊理论中前后矛盾的问题的过程中, 费舍尔建立了较为完整的概率论体系。 从 1910 年代到 1930 年代, 他先后提出方差分析、最大似然估计、随机化过程、采样理论、显著性检验、实验设计等一系列方法。 1925 年, 他发表《研究人员的统计学方法》(Statistical Methods for Research Workers)。 这本书经过 8 次再版, 是许多非专业人士搞统计分析的实用 “菜谱”。 费舍尔的文章在理论上并不严密, 但是很适合应用。 许多方法的目的在于帮助人们在那个没有计算机的时代简化计算, 但跟费舍尔的其他著作一样, 这本书也写得很难懂。 因此有教授开玩笑说, 学生不应该读这本书, 除非他已经读过。
费舍尔的脾气比皮尔逊还要糟糕。 他把任何人对他的科学提问都看成是对自己人格的攻击。 他不断与人争吵, 说出的话 “连圣人也不大可能原谅”。 他这种个性让很多人望而生畏, 他的一些同事甚至怀疑, 费舍尔的理论之所以得到很多人的采纳, 是否是因为惧怕。 就连他的女儿也不得不承认父亲严重的性格缺陷。 在为费舍尔所作的传记里, 她说:“他在成长过程中没有学会考虑旁人的感情, 对自己行为如何影响别人毫无意识, 对表达爱意毫无能力。 ” “他会无缘无故地发怒, 对一些哪怕十分微小的不便也不能容忍, 脾气不可揣测。 ”
优生学系与应用统计学系在同一座大楼里, 但这两拨人从不聚在一起。 应用统计学系的人每天下午三点半到四点一刻在会客室里喝印度茶, 优生学系的人在他们后面喝中国茶。 伊冈有一位波兰合作者名叫尼曼(Jerzy Neyman, 1894-1981), 两个人从 1920年代初就一直合作, 建立了著名的尼曼 - 皮尔逊引理 (Neyman-Pearson Lemma), 这个引理在统计学里占有很重要的地位。 在古典概率以及后来直到皮尔逊、费舍尔等人的概率理论里面, 一个事件的概率对应的是该事件在许许多多重复事件当中出现的频率。 我们把采用这种思维的人称为频率派 (frequentist)。 在频率派看来, 只有对纯粹的随机变量才能定义概率。 这些随机变量在一系列重复的 “试验” 中在某种意义下变化。 满足这种概率的例子我们在前面的故事里已经看到很多了, 比如投掷一枚 “完全公正” 的硬币或骰子, 一个物理量的测量中所包含的随机误差, 等等。 根据这种思路处理问题, 假设是没有概率的。 假设或者成立, 或者不成立, 必须用前几章介绍过的 -检测或是 -值检测来评估。 尼曼-皮尔逊引理给出了频率派检验假设最为有力的工具。
但费舍尔反对尼曼-皮尔逊引理, 坚持使用自己的 -值方法, 并为此跟尼曼争论不休。 其实, 这两种方法给出了类似的结果, 而尼曼-皮尔逊在数学基础理论上更为牢固一些。 除了在学术上霸道, 费舍尔的反对还有更为隐秘的私意。 在伊冈的帮助下, 尼曼于纳粹德国占领波兰之前移民到了英国, 在应用统计学系里教书。 费舍尔坚持要尼曼使用自己的教材, 当尼曼拒绝了他的要求以后, 费舍尔公开宣称要尽全力反对他。 伊冈自小在老爸的阴影里成长起来, 个性柔弱, 而尼曼则不然。 尼曼和费舍尔之间的 “战争” 持续了 30 年。 二战爆发前夕, 尼曼移民去了美国, 在加州伯克利分校做教授, “战火” 于是越过大西洋, 烧到美国西海岸。 尼曼的数学底子比费舍尔要坚固, 他在统计学界的影响力越来越大, 尼曼-皮尔逊引理成了伯克利统计学的标志和徽章。 这更促使费舍尔加强了火力。
与尼曼 “交火” 的同时, 费舍尔又对贝叶斯概率发起攻击。 我们在中篇里已经看到, 贝叶斯对概率采用一种跟频率派完全不同的解释, 贝叶斯概率把相对模糊的 “可能性”的影响也包含在内。 当然, 这种 “可能性” 最终必须赋予一个准确的意义, 以便定量地应用。 贝叶斯理论认为, 概率论的数学工具不仅仅局限于计算随机变量出现的频率, 而是具有广泛得多的应用范围。 这种看法诞生于贝叶斯, 因而持这种观点的人也就被称为 “贝叶斯派” 了。 相对应的频率派有时也被称为 “费舍尔派”。 实际上, 贝叶斯的理论经过二百年的漫长发展过程, 直到 20 世纪中叶才逐渐被人所重视。 人们采用了贝叶斯思想的精华, 而贝叶斯理论的具体内容和方法已经发生了翻天覆地的变化。 利用这种思路处理问题, 假设也可以有概率, 概率越高的假设, 成立的可能性越大。 然而即使在今天, 仍然有很多人认识不到贝叶斯理论的重要性, 或者以为它不够科学。
指责贝叶斯概率 “不够科学” 的主要根据是 “前置概率” 的某些任意性。 我们在中篇里看到, 那位老者在猜测黑箭位置的起初, 先假设红箭可以落在靶子的任何地方, 这种 “等值前置概率” 的假定让许多人感到不自在。 科学发展到 20 世纪初, 似乎整个世界都可以用机械过程来描述, 而验证物理理论的基础是实验。 没有实验验证的假定是主观的, 不可信的。 “前置概率” 的任意性让一些人认为贝叶斯概率是主观的, 因而是不可信的。
首先对贝叶斯理论表示不安的是卡尔·皮尔逊。 他很少有拿不定主意的时候, 而贝叶斯概率恰恰是其中之一。 为什么呢? 因为概率统计的重要应用之一是 “概率反演” (后来改称概率推断), 也就是通过概率分析反过来评价理论假说。 在频率派的工具箱里找不到合适的反演工具, 他只能用贝叶斯派的方法。 费舍尔则理直气壮地否定贝叶斯派。 费舍尔本人是遗传学家, 概率统计是他的副业。 我们在前面提到过, 他在自己家里进行小动物杂交实验, 所以实验数据量相对有限, 而且数据的性质明确客观, 不大需要做主观判断。 所以他用实验数据的相对频率来评估误差, 而不需研究数据的相对概率, 认为频率派理论无所不在。 他称贝叶斯理论是 “无法穿越的原始森林”, 是 “一个错误, 可能是数学界深深陷入无法自拔的唯一错误”。 他认为前置概率的构成是一个“惊人的错误”, 宣称 “概率反演理论是建筑在错误之上的, 必须彻底推翻”。 这种傲慢, 这种夸大其词, 也就只有费舍尔才能说出。 其实, 费舍尔的一些理论本身就包含了贝叶斯的元素, 比如他的最大似然原理其实从本质上就是贝叶斯原理。 但是由于他几十年如一日的狂轰滥炸, 使许多搞统计的专业人士谈贝叶斯而色变。 这样, 不论是在理论上还是在个性上, 费舍尔都为抵制贝叶斯理论铺平了道路。
有趣的是, 视费舍尔如寇仇的尼曼也是贝叶斯派的坚定反对者。 在对待贝叶斯派的问题上, 频率派空前的一致。 他们把自己局限于理论上可以重复无数次事件的那些问题里, 把取样视为唯一的信息来源, 把每一套新数据当成是一个不同的问题来对待, 如果数据整齐干净, 具有统计上的显著性, 就采纳它们; 反之则弃之不用。 他们禁止使用 “主观的” 前置概率, 尼曼甚至称其为 “违法”。 于是在 1930 和 1940 年代里, 概率统计学界一片困惑迷茫, 许多人感到无所适从, 这被称为统计学历史上最大的裂痕 (widest cleft in statistics)。 概率论的黄金时代变成了两个阵营频繁交战的三重战线, 费舍尔和尼曼一面互相攻讦, 一面联合起来表达对贝叶斯理论的憎恶。 统计数学的领袖之间缺乏理性的论述, 众人如处漩涡混沌之中, 使贝叶斯理论的发展推迟了几十年。
这个裂痕反映出频率派和贝叶斯派在哲学上的重大分歧。 频率派要找的是在已知全部原因条件下数据的概率, 而贝叶斯派则是要通过数据来寻求对原因做出更好的理解。 贝叶斯派可以讨论单独事件的概率, 比如明天是否会下雨。 他们把一些主观信息装进前置概率, 然后按照新的信息不断地改进从直觉而来的猜测。 他们尽可能地把所有可能的数据都包括在内, 因为每一个数据都可能使最终答案有一些小小的改变。 这在频率派看来简直不可思议。
在这种环境中, 唯一敢于挺身站出来维护贝叶斯的, 是一位地球物理学家哈罗德·杰佛里斯 (Harold Jeffreys, 1891-1989), 他在剑桥大学教过数学和地球物理学, 后来成为天文学系教授。 他在面试时说自己很适合天文学教授的职位, 因为地球也是一颗行星, 他主要研究地震和海啸。 早在 1924 年, 他就发现了一种求解线性和二次微分方程的近似方法。 两年后, 量子物理学家薛定谔 (Erwin Schrödinger, 1887-1961) 提出了著名的薛定谔方程。 为了求解这个复杂的方程, 文策尔 (Gregory Wentzel, 1898- 1978)、克拉莫(Hendrik Kramers, 1894—1952)和布里渊(Léon Brillouin, 1889—1969) 一起提出了同杰佛里斯一样的近似方法, 现在称为JWKB或WKBJ近似。 这个近似方法不仅在物理学界, 而且在地震学界分析地震波传播中也具有极其重要的作用。 由于杰佛里斯的贡献, 1939年他被任命为国际地震综合站 (International Seismic Summary) 的第一位主任。 这个综合站后来变成国际地震中心 (International Seismic Center), 至今仍然是地震学界最主要的研究机构之一。
据说, 杰佛里斯的办公室里满地丢的都是书, 几乎可以埋到脚面。 在研究地震和海啸的过程中, 他研究出了可以用在科学数据分析上的贝叶斯理论, 并给出选择前置概率的规则。 他批评频率派的思维逻辑说: “一系列的研究人员没有去努力寻找更为令人满意的前置概率, 反而宣称前置概率没有意义; 既然概率反演不能没有前置概率, 于是概率反演也就没有意义了。 ” 在他看来, 所有的不确定性都可以用概率来考虑, 即使确定的物理定律也是如此, 这同量子力学的精髓不谋而合。 而频率派一般只把概率局限在依据理论可以重复的数据的误差上面。
1934 年, 退休的系主任卡尔 · 皮尔逊在为他举行的退休酒会上说, 他所倡导和研发的生物计量学和优生学的高潮是在未来, 是在纳粹刚刚掌权的德国, 在于希特勒 “重新培育的德国人民的提案”。 5年以后 (1939年), 英国对德宣战, 第二次世界大战启幕, 伦敦大学学院关闭了优生学系, 费舍尔教授竟然失业了。 他只好回到罗森斯特实验站继续分析化肥和有机粪的资料。 直到 1943 年, 剑桥大学聘请他为遗传学教授, 其成为杰佛里斯的同事。
于是频率派和贝叶斯派的战争又扩大到了剑桥, 只是这一回费舍尔遇到了对手。 杰佛里斯 (图 35.1) 性格内向而羞怯, 但一旦认定自己是正确的, 他锲而不舍, 毫不留情。 在两年的时间里, 这两位剑桥大学的教授宛如古罗马的角斗士, 把充满激情的论文像标枪一样投向对方, 批评, 反驳, 探讨, 争论, 其中不乏精辟的澄清, 直到皇家学会的编

图35.1 哈罗德・杰佛里斯。 辑们受够了, 强令角斗士们停止并熄火。
杰佛里斯和费舍尔很相似又很不同。 两个人都不是专业的统计师, 都是为了科研而钻研概率统计, 他们都毕业于剑桥, 都非常内向, 而且课讲得都很糟糕, 声音小, 言语含糊不清。 有个学生算过, 有一次杰佛里斯在课堂上 5 分钟内竟然 “呃, 呃” 了 71 次。 剑桥还有个说法: 剑桥有两位世界级的概率统计专家, 一个在天文学系, 一个在遗传学系。 但杰佛里斯是个真正的绅士, 他对费舍尔说:“在很多事情上我们的看法是一致的, 对于不一致的地方, 我们应该都对自己抱有一点点怀疑。 ” 这一点, 费舍尔同意了。
杰佛里斯特别接受不了费舍尔用 -值和显著性水准来测量数据的不确定性。 我们从前几章里看到, 值是在给定假定的条件下关于数据的概率表述。 这个想法来自于卡尔·皮尔逊, 后来由于费舍尔关于农作物的工作被广泛接受。 比较两种假定, 他可以从出糠多还是出麦子多这样的数据, 得到一个简单的 值, 用来决定化肥或有机肥的作用。
-值为实验人员提供了一个非常方便的指标, 用来表述实验结果相对某个假定在统计学上的显著性。 如果在一个假定下, 结果的出现只有很小的概率, 那么这个假定就应该被否决。 但杰佛里斯指出, 频率派的这种思路有严重的逻辑上的矛盾: 既然概率是只能依靠重复出现的事件来确定, 对于还没有出现的事件, 频率派怎么能考虑它们的概率呢? 换句话说, 频率派有什么理由进行预测? 杰佛里斯感兴趣的是如何通过地震波和海啸来估计一个地震发生的地点, 怎么可能用还没有发生的地震来决定地震的震中呢? 类似地震的自然现象是不可能人为地重复的。 另外, 值是对数据的表述, 而杰佛里斯想要知道的是, 根据手中的数据, 如何判别不同的假定。 因此他提出, 应该通过贝叶斯概率, 依靠现有数据来计算一个假定是否成立的概率。
如同费舍尔把拉普拉斯晚年的频率派理论发扬光大, 杰佛里斯则从年轻时代的拉普拉斯的手里接过接力棒, 把贝叶斯理论变成了对实验科学人员十分有力的研究工具。 1939年, 杰佛里斯发表了《概率论原理》(Theory of Probability), 详细介绍了他的贝叶斯理论, 成为现代贝叶斯概率统计的奠基人。 80 年后, 这本书仍然是贝叶斯概率的经典之作。 遗憾的是, 作为当时最有名的地球物理学家, 杰佛里斯拒绝接受地球运动的板块理论, 直到 98 岁离开这个世界。 那时候, 世界上拒绝板块理论的地球物理学家已经屈指可数了。
皮尔逊和费舍尔的 -值在科学界的滥用则成为越来越多研究人员的忧虑。 2015 年, 《基础与应用社会心理学》杂志决定在该杂志的文章中禁止使用p-值。 2016 年, 美国统计学学会 (The American Statistics Association, 简称 ASA) 召集了统计学专家, 对 - 值的使用范围和统计学价值进行了讨论, 之后发表声明, 为统计学分析使用 - 值给出六点指南。 声明明确指出, 值本身不能对假定或模型提供有效的量度 (By itself, a -value does not provide a good measure of evidence regarding a model or hypothesis.)
二次大战后, 高尔顿、皮尔逊、费舍尔等人的种族主义对科学和社会的负面影响逐渐被人们所关注。 1963 年, 高尔顿国家优生学实验室改名为人类遗传学和生物计量学系的高尔顿实验室, “国家” 和 “优生学” 两个词都不见了。 1996 年, 整个系改名为生物学系, “生物计量学” 这个词也不见了。 进入 21 世纪, 高尔顿等人的遗产受到越来越多的质疑, 目前伦敦城市大学和剑桥大学正在系统地把这些人的名字从建筑物和实验室的名字里拿掉, 免得它们经常提醒人们这段不光彩的历史。
本章主要参考文献
Louca, F. Should The Widest Cleft in Statistics - How and Why Fisher opposed Neyman and Pearson. Working Papers Department of Economics 2008/02, ISEG - Lisbon School of Economics and Management, Department of Economics, Universidade de Lisboa.
Matthews R. Bayesian critique of statistics in health: The great health hoax (1989). Available at: https://www2.isye.gatech.edu/ meni/isyebayes/bank/pvalue.pdf. Accessed on June 14, 2020.
McGrayne, S. B. The Theory that Would not Die. New Haven: Yale University Press, 2011: 320.
Wasserstein, R. L. and N. A. Lazar. The ASA Statement on p-Values: Context, Process, and Purpose. The American Statistician, 2016, 70: 129-133.