达特茅斯学院 (Dartmouth College) 教授惠伦 (Charles Wheelan, 1966- ) 在他的著作《赤裸裸的统计学》(Naked Statistics) 中编造了一个听起来可笑但给人启发的故事, 我在这里借用他的故事, 以稍微不同的方式简述一下。
设想你住在一个既没有手机也没有全球定位的城市, 市政府组织了一次世界性的马拉松比赛。 参赛那天早上, 从外国来的参赛者乘坐组织者安排的大巴到指定地点去注册。 不幸的是, 一辆大巴在路上走失, 车上没有一个人会讲中文。 市领导责成你去寻找这辆大巴。
你匆忙准备离家出门, 正好看见不远处有一辆大巴抛锚在路边, 上面坐着全是不懂中文的老外, 一个个愁眉苦脸, 唠唠叨叨。 这肯定是全市都在寻找的那辆大巴了!你庆幸自己的运气, 还没开始寻找, 大巴却自己送上门了!你打算找司机谈谈, 给他马拉松比赛注册的地址和方向。 可是, 这些乘客看上去似乎不太像马拉松运动员。 为什么呢? 因为……因为他们一个个体重起码都在 100 公斤以上, 任何一组马拉松运动员都不应该这么胖。 你用电话告诉搜寻总部: “我觉得这不是我们要找的大巴, 接着找吧。 ”
这时候英文翻译赶到了, 她告诉你说, 这辆抛锚的大巴是前来参加国际香肠狂欢节的。 不知道为什么, 市政府把香肠狂欢节和马拉松比赛安排在了同一周。
了不起, 你通过这些人的体重成功地推断出他们不是参加马拉松比赛的。 可是你也许不知道吧, 你在推断过程中所使用的基本理论就是中心极限原理。
通俗地讲, 中心极限原理的核心是说, 一组采集适当、足够大的数据组应该跟产生这组数据的原始来源很相像。 在上面的故事里, 有两个原始来源, 一个是参赛的所有马拉松选手, 一个是参加香肠狂欢节的所有食客。 虽然采样会有各种各样的变化, 比如, 去注册马拉松赛的大巴上的选手都是不同的国家和种族的混合, 但是每辆车上的选手的体重分布跟全部选手的体重分布的差别应该不会很大, 这是你做出判断的依据。 确实有一些体重 100 公斤左右的马拉松选手, 但绝大多数选手的体重都没有那么高。 一辆大巴里装的全是体重100公斤以上的马拉松选手的概率肯定非常非常之低。
中心极限原理不仅帮助我们做出这种定性的判断, 还可以给出定量的判断。 假如有一万名选手参加你们城市的比赛, 他们的平均体重是 70 公斤, 再假定这些人体重分布的一个标准偏差是 5 公斤, 那么 60 名平均体重 100 公斤左右的马拉松选手乘坐同一辆大巴的可能性远远不到 1%。
顺便提一句, 所有参赛选手体重的分布不可能服从正态分布。 体重分布一般来讲不会关于平均值左右对称, 这是因为选手们的身体都非常健康, 所以体重不大可能会低于某个临界值, 比如 40 公斤。 事实上, 很多原始数据都不满足正态分布, 比如全国人民年收入的分布也不会关于平均值左右对称。 根据2019年国家统计局的数据, 中国人均可支配收入的中位数是 26523 元, 高收入那边可以拉得很远很远, 到几十亿上百亿元, 但只有屈指可数的马云、马化腾等人;而在低收入的端头, 比如 1 万元, 则可能以数千万人计。 由于马云和马化腾等人的收入特别高, 全国人均年收入的平均值会比中位数高一些。 但即使按照平均数来看, 收入的分布也不可能是左右对称的。
但是, 如果从全部选手中 “采样”, 比如看看那辆迷路大巴上随机坐着的 60 个人, 他们的体重分布从概率上讲应该相对于参加香肠狂欢节全体人群的体重平均值上下基本对称, 也就是说大致满足正态分布。 同理, 如果在全国不同地区 (包括大城市和农村) 随机选出两千个人来, 他们的收入分布很可能以平均数为中心大致呈正态分布, 收入高于平均值和低于平均值的人数大致相当。
现在假定我们测量了 60 名随机挑选的马拉松选手和 60 名香肠 “发烧友” 的体重, 发现马拉松选手的平均值 是 70 公斤, 标准偏差 是 5 公斤; 香肠发烧友的体重平均值是 105 公斤, 标准偏差是 8 公斤。 图 39.1 给出这两组数据的正态分布曲线。 从第二十八章 (图 28.2) 的知识我们知道, 有 68.26% 的马拉松选手体重在 65到75 公斤之间 (正负一个标准偏差); 体重在 60 到 80 公斤之间的选手占所有选手总数的 95.44% (正负两个标准偏差); 体重在 55 到 85 公斤之间的则占了 99.73% (正负三个标准偏差)。 所以, 当你看到一辆大巴上坐了 60 名 100 公斤左右的人, 你马上就否决了这辆车是马拉松赛失踪的大巴这个假定。 你很有理由这么做。 图 39.1 的曲线告诉我们, 你这个推理出错的可能性在百分之一以下。
你注意到没有?这个推理过程实际上就是第三十四章介绍的评估假定的过程。 你根据直觉, 判断这一车的人不是马拉松选手。 你首先设立零假定: 这一车人是马拉松选手。 零假定总是跟你的判断相反; 你希望通过中心极限原理分析, 推翻零假定;

图39.1 马拉松选手 (蓝色) 和香肠发烧友 (橙色)的体重分布曲线。 在这个故事里, 马拉松选手的平均体重是 70 公斤, 标准偏差为 5 公斤。 香肠发烧友的平均体重为 105 公斤, 标准偏差为 8 公斤。 这样, 你就证明了替代假定, 也就是你的判断。 这个分析跟第三十四章里验证卡文迪许地球密度的方法是一样的。 不同之处是现在你的采样数目比较大 (100 名体重 100 公斤左右的大汉), 所以你不需要去查阅 -分布表, 直接使用正态分布就可以了。 这使问题变得非常简单。 另外, 在卡文迪许数据的分析中, 我们关心的是分布曲线左边的 “尾巴”, 而现在我们关心的是马拉松选手正态分布右边的 “尾巴” 和香肠发烧友正态分布左边的 “尾巴”。 在同时考虑两个 “尾巴” 的分布时, 我们知道, 95.44% 的香肠发烧友的体重在 89 到 121 公斤之间;99.73% 的马拉松选手的体重在 55 到 85 公斤之间。 在考虑一个 “尾巴” 时, 我们关心的是有多少选手的体重低于 85 公斤。 显然, 体重低于 55 公斤的选手也满足低于 85 公斤这个条件, 所以在考虑单 “尾巴” 分布时, 选手体重低于 85 公斤的概率值应该比 99.73% 还会更高一些。 也就是说, 这一车体重 100 公斤左右的乘客可能是马拉松选手的概率远远不到 1%。
总结上面的例子, 从一个集合群里 (比如所有马拉松选手) 取样, 在取样数目足够大的时候 (比如 60 或 100 ), 可以得到一个有意义的平均数。 从这个集合里反复取样, 每一组样品都有一个平均数, 这些平均数的平均给出取样平均数。 多数取样平均数应该跟这个集合群的平均数很接近。 中心极限定理告诉我们, 取样平均数应该以集合平均值为中心, 近似地呈正态分布。 不管集合本身的分布是否是正态的, 以上这些论断基本是正确的。
可是请记住, 我们这里所做的一切都是在概率理论的指导下进行的, 所以结论也只能是概率的。 概率给了我们推测的方法, 但依靠概率的推测不是实证。 福尔摩斯探案有一句名言:“一旦你排除了所有的不可能性, 剩下的无论多么不可思议, 一定是真相。 ” (Once you eliminate the impossible, whatever remains, no matter how improbable, must be the truth.) 这是从逻辑推理角度来讲的。 可是, 没有一个故事在福尔摩斯做出判断后马上就结束。 故事的高潮总是后来实证出现, 或者犯人认罪, 证明了福尔摩斯的判断。 为什么? 因为, 从概率上说, 任何小概率的事件仍然有发生的可能, 概率不能代替实证。 一个有犯罪动机的人, 即使有 99% 作案的可能性, 总不能在作案之前就判他有罪吧?汤姆·克鲁斯(Tom Cruise)主演过一部科幻惊怵片《少数派报告》(Minority Report), 故事的主题就是这种错误判断造成的严重后果。 麦多法则的致命错误 (第十一章)也就在这里。
马拉松和香肠狂欢节的故事是超简化的, 只需要考虑体重。 在真实世界里, 各种因素之间存在着千丝万缕的联系。 在分析问题时, 评价不同因素的影响非常重要。 定量分析时, 一个重要方法是线性回归。
1967 年, 英国启动了一项著名的研究计划, 考察职位对健康的影响。 这个研究的起因是人们通过统计发现, 普通劳动者患心血管疾病的比例要高于高层工作人员。 是哪些因素造成这个区别的呢?除了饮食习惯、吸烟历史、坚持锻炼、工作环境等这些 “影响因子” 之外, 工作的性质和地位是否也有影响呢? 伦敦有一条大街, 名叫怀特霍尔 (Whitehall), 直接翻译成中文就是白色大厅。 这里是英联邦政府的工作中心, 遍地都是政府工作人员。 这项研究考察了 17530 名 20 到 64 岁的男性政府职员的健康状况, 以地区命名, 叫作白厅研究 (The Whitehall Studies)。 1978 年, 研究人员发表了他们 7 年半研究的结果。 表 39.1 是基础数据的总结, 它给出若干个因子对不同职位 “级别” 的男性罹患心血管疾病的影响。 这些因子包括血压、胆固醇、吸烟历史、身高体重指数 (BMI)、运动锻炼习惯等。 通常的研究是把所有研究对象都放在一起, 研究不同危险因子对全体研究对象心血管疾病的影响。 表 39.1 一共考察了 7 种因子, 同时又把研究对象按照职位级别分成 4 类。 从高层主管到专业主管再到一般职员, 工作人员的级别逐渐降低。 在 “其他” 那一项里是最底层的服务人员。
这组数据量虽然极为巨大, 但具有明显的采样偏差。 偏差出在哪里? 那就是采样完全出自政府工作人员。 这不是一个从全国人口中随机采样得到的数据, 它不能代表来自不同阶层、不同背景的英国人处在不同工作地位的健康状况。 即便把重点集中在政府工作人员身上, 这组数据的采样也不是随机的, 因为研究人员不可能把不同的人员随机地安排在随机的职位上。 研究人员需要采用纵向研究 (Longitudinal study) 的方法, 考察人们在一个职位上工作若干年以后的健康状况, 特别是缺乏自主决定的工作对心血管疾病的发病率的影响。
表 39.1 1978 年英国白厅研究报告总结的关于职位级别对男性职员心血管疾病影响的主要基本数据
| 变 量 | 职 位级别 | ||||
| 高层管理 | 专业主管 | 一般职员 | 其他 | ||
| 血压高压 | 平均值 | 133.7 ± 0.67 | 136.0 ± 0.19 | 136.8 ± 0.42 | 137.9 ± 0.64 |
| 高于160的百分比 | 10.7 | 12.2 | 13.8 | 16.5 | |
| 胆固醇 | 平均值 | 201.0 ± 1.72 | ${198.7} \pm {0.44}$ | 196.6 ± 1.00 | 192.0 ± 1.47 |
| 高于260 mg/dL的百分比 | 12.6 | 10.2 | 10.5 | 7.8 | |
| 吸烟 | 吸烟者百分比 | 28.8 | 37.3 | 53.0 | 60.9 |
| 从未吸烟者百分比 | 33.0 | 23.2 | 17.0 | 14.8 | |
| 已戒烟者百分比 | 9.9 | 39.6 | 29.9 | 24.3 | |
| 体重/身高(BMI) | 平均值 | 24.5 ± 0.09 | 24.8 ± 0.03 | 24.6 ± 0.07 | ${25.0} \pm {0.10}$ |
| 超过 28 的百分比 | 9.9 | 11.8 | 13.8 | 17.4 | |
| 血糖 | 平均值 | 75.1 ± 0.47 | 75.3 ± 0.16 | 76.7 ± 0.40 | 77.5 ± 0.82 |
| 超过 ${90}\mathrm{{mg}}/\mathrm{{dL}}$ 的百分比 | 10.1 | 9.7 | 12.1 | 13.1 | |
| 糖尿病百分比 | 1.3 | 0.7 | 1.4 | 1.1 | |
| 运动 | 不运动者百分比 | 26.3 | 29.5 | 43.0 | 56.0 |
| 中等运动者百分比 | 36.8 | 45.3 | 36.3 | 30.0 | |
| 身高 | 经常运动者百分比 | 36.8 | 25.2 | 20.7 | 14.3 |
| 平均值 | 178.5 ± 0.20 | 176.3 ± 0.05 | ${174.0} \pm {0.13}$ | 173.2 ± 0.23 | |
| 高于183厘米的百分比 | 21.1 | 12.8 | 7.6 | 8.7 | |
在考察这样的数据时, 相关性和回归分析就变得很重要。 仔细考察这张表, 你会发现所有的因子都跟职位级别有某种相关性。 比如血压高于 160 的百分比与职位级别呈负相关, 越是底层的人员高血压的越多。 吸烟的百分比和超重的百分比与级别也呈负相关。 经常运动者的百分比则与级别呈正相关, 职位越低的人越不运动。 有趣的是, 身高似乎也与职位呈正相关, 职位低的人平均身高也低。
光看表格里的数字可能不大容易看出相关性来。 图 39.2 把这些变量超过某个阈值的百分比 (异常百分比) 按照不同的职位级别画出来, 看上去更直观一些。 这里, 我

图 39.2 六种健康因子与身高在不同职位等级中所占的百分比。
们设定高层管理人员的级别值为 4, 其余依次递减。 我们看到, 不吸烟的和经常运动的百分比从低级职员到高级职员呈显著地增加, 换句话说, 这些变量跟职位级别的相关性非常高。 读者有兴趣的话, 不妨按照第三十二章介绍的内容分析一下这些危险因子同职位级别之间的相关性, 找出它们的相关系数来。
从图 39.2 可以看出, 有益于健康的因子的百分比明显偏向于高职位的政府工作人员。 对这些数据可以有各种各样的解释。 比如, 高管们经常锻炼身体、不大抽烟, 这可能与他们的教育水准有关。 他们经常阅读关于健康的报告, 所以刻意抽出时间锻炼身体, 并努力戒烟。 也可能跟家庭背景有关。 高级职员之所以有较高的教育背景, 甚至较高的身高, 都可能是因为他们出生于富裕家庭。 比如, 他们衣食不愁, 营养足够, 所以身体高大, 并且从小就可以进入教育质量高的学校。 因此, 单看表 39.1 的数据不能确定健康数据的差别主要是决定于职位级别。 要想真正找到工作地位的影响, 必须先把其他可能的因素排除。 为此, 研究人员必须依靠其他统计数据对不同因子的影响进行修正, 然后对所有危险因子同时进行多变量相关分析。
在各种修正和分析之后, 研究人员发现, 在不同职位级别的工作人员之间仍然存在大约 60% 的心血管疾病死亡率的差别。 从这些分析, 心血管疾病同工作职位确实存在显著的相关性。
但我们也谈过, 相关性并不代表因果关系。 比如一个健康的人喜欢健身, 究竟是健身使他健康, 还是因为他身体健康, 所以能够经常做健身运动呢?反过来, 对患有心脏病的人来说, 运动是困难甚至危险的, 不能说他的心脏病是由于不锻炼。 那么, 怎样进一步帮助判别因果关系呢?
时间是一个很重要的变量。 如果很多职员本来是健康的, 可是在不同职位上工作一段时间后, 他们的健康状况发生了不同的变化, 那么在其他因子影响都类似的情况下, 我们就有理由推测, 是职位的高低影响了他们的健康。
长话短说, 这项研究计算了不同职位工作人员罹患心血管疾病的概率, 并对概率进行了年龄的统计学修正之后得到如图 39.3 所示的趋势。 我们看到, 随着工作时间的增加, 所有人患心血管疾病的概率都增加, 这显然是跟年龄的增长有关, 但是不同职位的人的增长速率有很大差别。 高级主管患心血管疾病死亡的概率最低, 其次是专业主管和一般职员, 而最底层的工作人员死亡的概率最高。 特别是 7 年以后, 底层工作人员因心血管疾病死亡的概率差不多是高级主管的 10 倍!
按说高管们的工作压力更大, 工作时间更长, 可为什么他们反而更健康? 研究人员猜测, 压力有各种各样, 被动工作的压力对身心健康的影响最为负面, 而主动工作的压力反而对健康有利。 所以, 从健康角度出发, 最好不做“螺丝钉”, 而是当“螺丝刀”。
这项工作 (现称一号白厅研究) 得到全世界各国的重视。 后来许多国家进行了相关的研究, 得到类似的结论。 在英国, 二号白厅研究的第一期从 1985 年进行到 1988 年, 考察了 10308 名政府职员, 后面跟着是第二期(1989-1990 年), 第三期(1991- 1993年), 第四期(1995-1996年), 等等, 到第十二期(2015-2016年)。 第十三期从 2019 年 2 月开始, 目前还在进行中。 这些后期研究基本肯定了一号白厅研究的结论, 后期研究的主要目的在于建立一个因果关系的模型, 以帮助专业人士找到舒缓低层工作人员身体和心理上压力的途径, 更加健康地工作和生活。

图 39.3 经过年龄校正后的心血管疾病死亡概率同追踪年数的关系。
这个成功的故事说明了相关性回归分析在统计学中的重要作用。 但是, 相关分析的使用需要十分的小心, 应用不当有可能造成严重的后果。
也就是白厅一期研究报告问世的时候, 哈佛大学医学院启动了一项 “护士健康研究” (Nurses’ Health Study)。 这是一项巨大的纵向研究, 它追踪了在美国注册的 121 700名女护士的健康状况, 特别是营养、荷尔蒙、环境、工作 - 生活关系等各方面的长期影响。 这也是一项名声赫赫、对妇女健康影响巨大、一直持续到今天的长期研究, 但其中有一项结果产生了巨大的争议。
妇女停经以后, 体内雌性荷尔蒙水平大大降低。 “护士健康研究” 在 1985 年发表论文, 指出停经妇女按时服用雌性激素不仅有助于减少绝经的不适反应, 而且还降低患心脏病的机会。 于是, 在 1990 年代美国广泛推行激素替代疗法 (Hormone replacement therapy)。 到了2001年, 已经有大约 1500 万妇女接受了这种疗法。 这时, 医学界开始对雌性激素进行对照实验(Controlled experiment)。 “护士健康研究” 关于雌性激素的数据是非可控的, 完全依赖于统计相关性回归分析。 而对照实验一组志愿者服用雌性激素, 另一组志愿者服用安慰剂。 对照实验的结果发现, 服用雌性激素的志愿者的心脏病、中风、血管阻塞、乳腺癌等一系列疾病的风险比服用安慰剂的志愿者实际上还要高。 于是激素替代疗法逐渐淡出, 但至今无法估计究竟有多少妇女由于接受激素替代疗法而丧失了生命。 所以, 假如使用不当, 统计分析方法也会害人的!
2005 年, 《美国医学会杂志》(Journal of American Medical Association)刊出一篇文章, 震动了整个医学界。 文章的作者, 一位希腊医生考察了 49 篇被广泛引用的临床研究论文 (文章的总引用率从 1000 次到 6000 次不等), 其中 45 篇宣称他们采用的医疗方法有显著效果。 在这 45 篇里, 7 篇 (16%) 被后来的研究所否定, 7 篇 (16%) 被后来的研究证明效果没有那么显著, 20 篇 (44%) 被后来的研究所验证, 还有 11 篇 (24%) 没人提出疑问。 从数据的性质上看, 这些研究可分为两类。 第一类数据不是随机采样得到的, 研究人员处理了他们的病人数据以后, 就报告了结果。 这类论文的问题最大, 80% 以上的结论最后被证明是错误的。 第二类数据是靠随机采样并通过对照治疗得到的, 但即使是这样的数据, 仍然有 23% 被证明是错误的。 为什么? 采样偏差是一个很重要的原因。 影响疾病的因素太多, 人体也过于复杂, 这就需要大量的采样来把一些极端情况给平均掉。 但多大量才是足够的呢? 我们不清楚。 另一个原因是对 值的滥用, 这一点我们前面已经讲过了。 其他还有很多可能的原因, 目前尚在研究之中。 总而言之, 很多医学、经济学、社会学问题牵扯到的因素极多, 把从自然科学发展而来的概率统计学理论应用到这些问题上面需要更加小心和慎重。
无论如何, 了解概率统计的知识, 对我们的生活会有很大的帮助。 懂得了统计分析的方法和过程, 你会对报纸和网络上耸人听闻的标题采取健康的怀疑态度, 而不会赶紧跑去买一种据说喝了以后让你考试时思若泉涌的糖浆, 或者顿顿大吃号称包治百病的营养食品。
本章主要参考文献
Marmot, M.G., Rose, G., Shipley, M., Hamilton, P. J. S. Employment grade and coronary heart disease in British civil servants. Journal of Epidemiology and Community Health, 1978, 32: 244-249.
Ioannidis, J. P. A. Contradicted and initially stronger effects in highly cited clinical research. Journal of American Medical Association, 2005, 294: 218-228.