第三十章 意外事件竟然也有规律?
我在攻读博士学位期间, 第一次访问巴黎, 参加国际会议。 从北美到欧洲的航班一般都是夜行, 入住旅馆时已经近午。 我独自一人找餐馆吃饭, 拿到菜单以后, 发现一个英文字也没有, 唯一一个我见过的法语单词是: poisson。
泊松 (Simeon Denis Poisson, 1781-1840), 我知道, 太有名了。 弹性力学里有泊松比, 光学里有泊松光斑, 电学和理论物理学里有泊松方程, 数学和统计物理学里有泊松代数, 信号理论里有泊松求和公式, 等等。 可菜单上的泊松会是什么呢? 于是我用手指头在 “泊松” 下面的菜肴里点了一份。 侍者端上来我一看, 是一份奶油烤鱼。
有人说, 泊松是 19 世纪最伟大的数学家和物理学家 (图 30.1)。 这条鱼在科学的大海里畅游, 处处留痕, 令人赞叹不已。 不过他在概率统计上的贡献却是我很久以后才注意到的。
西莫恩・德尼・泊松出生于巴黎南边约 80 公里的一个几千人口的小镇皮蒂维耶 (Pithiviers)。 他的父亲是平民出身的军人, 退伍后成为底层的公务人员。 父亲深感贵族阶层和长官的歧视, 痛恨那个等级森严的社会。 泊松有几个哥哥姐姐, 但都幼年夭折。 泊松自己也是自幼羸弱。 母亲深恐这个儿子也会夭折, 把他托付给一个护士全时看护, 直到他过了幼年的几个重要关口。 有故事说, 幼年的泊松又瘦又小, 有时护士想出门逛街, 怕他到处乱跑, 就把他拎起来, 用上

图 30.1 泊松的石板印刷肖像。 作者德尔佩克(Francois-Seraphin Delpech, 1778-1825)。 德尔佩克从 1819 年起连续出版了一系列的名人肖像。 衣的后领把他挂到挂衣钩上。 这条小鱼就睁着一双圆溜溜充满好奇的眼睛, 摆来摆去, 从墙上观察世界。 后来泊松自己开玩笑说, 这个经历使他开始对自由单摆感兴趣。
泊松的父亲深深宠爱这个幸存的儿子, 花了大量时间教他阅读和写作。 1789 年 7 月14日, 巴黎市民攻占巴士底狱, 法国大革命爆发。 那一年, 泊松 8 岁。 他的父亲全力投入大革命, 并成为皮蒂维耶镇的主席。
1794 年, 正在法国大革命高峰时期, 革命政府成立了中央公共工程学院, 后来改称巴黎综合理工学院 (École Polytechnique)。 这所大学很快成为众多法国大学里面皇冠上的珍珠, 在法国以别号 X 著称。 X 备受拿破仑的推崇和呵护, 连校旗和校训都是拿破仑所赠。 可以说, 巴黎综合理工学院的校史与法国大革命以来的法国历史一直交织并行。 两百多年来, 综合理工学院的毕业生中涌现出无数著名人物。 为了彰显 的特殊地位, 法国法律规定, 每年 7 月 14 日的法国国庆游行时, 的学生必须走在所有队伍的最前面, 并为共和国总统护卫。
1798 年, 17 岁的泊松以考试第一名的成绩进入 X。 在以后不到两年的时间里, 泊松发表了两篇重要文章, 一篇涉及代数, 一篇涉及微积分。 这些研究得到勒让德的赞赏, 并推荐发表在当时欧洲顶尖的科学期刊上。 18 岁的小鱼受到科学界的广泛注意, 老师拉格朗日待他如朋友, 拉普拉斯把他当儿子, 这是罕见的殊荣, 因为 3L是欧洲科学界的巨擘。 泊松毕业后, 直接留校任教, 并在 25 岁的时候 (1806年) 成为正教授。
第一共和国的寿命奇短。 1804 年, 拿破仑称帝, 建立法兰西第一帝国, 一系列的战争把法国的国土一度扩大到南逼葡萄牙首都里斯本, 东近俄国首都莫斯科。 不久拿破仑战败, 波旁王朝复辟。 在这个国内外局势剧烈动荡的时期, 泊松埋头于自己的研究, 对政治不闻不问。 复辟王朝期间 (1821 年) 他被授予男爵的头衔, 但他对这个头衔毫无兴趣, 从来没有出示过 “荣誉证书”, 也没有使用过这个头衔。 他说, “人生只有两样美好的事情:发现数学和讲授数学”。
泊松跟父母的关系十分融洽亲密。 每出版一套著作, 他定会给父母寄去第一版的全套。 父母看不懂, 但对儿子的著作极为珍视。 很多泊松的著作都在他父母家里保留下来。 这些书的封皮和前几页被磨得字迹模糊, 而主要内容的部分则完好无缺。 可以想象, 年迈的父母想儿子了, 就拿出他的著作, 或摩挲着书皮, 或一起读几句前言, 内心充满了对儿子的骄傲。 至于书中的实际内容, 他们完全不懂, 也毫无兴趣。
父亲去世以后, 泊松仍然准时给母亲写信, 讲述自己的工作和生活。 母亲文化程度不高, 信的很多地方看不懂。 不懂的地方, 她就在回信中把泊松信里的内容重复一遍, 将主语从我改成你。 比如, 泊松会说, “我正在准备一部天文学的备忘录, 然后考虑我的《力学专论》的第二版”。 老母亲会在回信中用颤抖的手写下, “你在准备一部天文学的备忘录, 然后考虑你的《力学专论》第二版”。 简单笨拙的字里行间充满了母亲的温馨和关爱。
泊松一生著述甚丰。 据他的学生兼挚友阿拉戈(Arago, 1786-1853)统计, 泊松生前发表论文和各类科学书籍共349篇, 去世后还有两篇问世。 在许许多多的里程碑式的天文、物理和数学著作之外, 泊松在 1837 年出版了一部四卷本的《刑事和民事审判中的概率学研究》(法文: Recherches sur la probabilité des jugements en matières criminelles et matiere civile)。
跟老师拉普拉斯一样, 泊松非常关注法国的犯罪问题。 实际上, 19世纪的巴黎, 犯罪是举国关注的问题。 雨果 (Victor Hugo, 1802-1885) 的名著《悲惨世界》活灵活现地描述了劳动阶层的悲惨生活与司法系统的黑暗。 当时的记录显示, 一次面包价格的波动就可以使得警察当局非常紧张, 因为统计数据表明, 每次面包涨价都伴随着犯罪率的增加。 《悲惨世界》中的冉阿让不就是因为少年时代偷了一次面包而成为罪犯的吗? 什么是处理罪犯的最佳方式? 在什么情况下值得考虑死刑? 法国统计学会当时深深卷入了关于死刑的争论。 1830 年, 学会以奖金悬赏关于废除死刑的最好的统计学分析, 但很快就无声无息了。
最先利用统计数据来研究犯罪率的是比利时人类学家凯特雷, 这个人我们在第二十八章里谈到过。 他考察了从 1825 年到 1830 年期间法国法庭审判刑事犯罪的结果, 列出犯罪嫌疑人数和最终判处有罪人数的比值, 不过他使用的数据有错误, 而且没有考虑到数据逐年变化的随机性。 他得出一个结论, 那就是, 犯罪率在逐年降低。 不久泊松也考察了这套数据, 并改正了原始数据的错误。 他的数据见表 30.1。
表 30.1 1825-1830 年法国法院审判刑事犯罪的统计数据
| 年 份 | 被告人数 | 被定罪人数 | 定罪率 |
| 1825 | 6 652 | 4037 | 0.6069 |
| 1826 | 6988 | 4 348 | 0.6222 |
(续表)
| 年 份 | 被告人数 | 被定罪人数 | 定罪率 |
| 1827 | 6 929 | 4 236 | 0.6113 |
| 1828 | 7396 | 4 551 | 0.6153 |
| 1829 | 7373 | 4 475 | 0.6069 |
| 1830 | 6962 | 4130 | 0.5932 |
泊松首先假定, 被定罪者与被告人的比例, 也就是表 30.1 中的定罪率基本保持不变, 其次假定陪审团成员的行为也不随时间和年代变化, 而且陪审团成员各自独立做出判决的决定。 在这种简化的情况下, 在全部 个陪审员当中不多于 个陪审员做出正确判决的概率是
其中, 是陪审团做出正确判决的概率, 它对应着表 30.1 中第四列被告与被定罪人数的比值 (大约 0.6 )。 式 (30.1) 我们应该很熟悉了, 它就是帕斯卡二项式。 这跟投一枚硬币的情况很类似, 不过正面 (正确判决) 和反面 (错误判决) 出现的概率不同。 这里, 我们假定在一般情况下定罪率是正确的, 所以定罪率正确的概率约在 0.6 到 0.62 之间。
1830 年代, 法国法庭的陪审团有 12 名成员。 裁决时, 必须至少有 7 人做出有罪的判决才算是最终判决。 根据式 (30.1), 如果 代表正确的无罪判决率, 那么错误的无罪判决率就是 。 根据式 (30.1), 一个有罪的被告被定罪的概率是 , 而一名无罪被告被判有罪的概率是 。 如果用 (guilty) 代表被告确实是有罪的概率, 那么总的定罪概率就是
泊松假定 和 都不随时间变化, 所以 也不随时间变化。 这是历史上第一次采用数学模型来描述法律过程。 泊松发现, 在 年之间, 等于常数这个假定基本上是正确的, 但 1830 年的定罪率明显偏低。 1830 年法国发生了七月革命, 波旁王朝的国王查理十世 (Charles X, 1757-1836) 被推翻, 建立了新的君主立宪政权。 泊松认为他发现了真实的司法系统的变化, 可能陪审员在革命当中更倾向于判决被告人无罪。
这里, 泊松考虑的是在一段给定的时间里 (上面的例子是一年之内) 发生事件的随机过程。 在一段时间区间内, 两个互斥事件 (有罪和无罪) 发生的数量相对独立而且随机。 这样的过程后来被称为泊松过程 (Poisson process)。 现在我们把式 (30.1) 中的变量 用 来代替。 这个改变是出于对泊松过程更为普遍的描述, 其中 是所有事件的总和, 是在单位时间段内出现某一种事件的数目的平均值。 换句话说, 是事件的总期待值。 比如表 30.1 中的定罪率就是每年被定罪的人数 (相当于 ) 除以每年的被告人数(相当于 )。
现在把式(30.1)中的任意一项拿出来, 就是
我们知道, 当 相对于 和 很大的时候, 逼近于 也逼近于 1。 至于 , 我们要另外寻找帮助。 数学家欧拉定义了一个神秘的无理数 , 这个数的定义是
如果我们令 , 那么 , 所以
式 (30.3) 就是著名的泊松分布, 它描述一组稀有的 (不经常发生的)、在单位时间里具有给定平均发生事件数 的离散事件 (也就是以整数 来代表的事件) 可能出现的概率。 泊松分布的条件是这些事件的发生是随机的而且相互无关。 以 为例, 这是任何稀有事件在单位时间里的发生数, 比如一个月里发生 4 起抢劫事件或有 4 颗流星出现, 一小时内打电话寻求帮助的顾客或要求赔偿的保险客户有 4 人, 一百年内可能发生 4 次大地震, 一个激光脉冲发射出 4 个光子, 等等, 而对应于 的泊松分布描述的是在相应的时间段里平均发生 4 次此类事件的概率。 那么, 式 (30.3) 里面的变量 是什么意义呢? 它是实际事件发生的次数, 就像前面泊松考虑的判定有罪的陪审员数目。
图 30.2 给出 的泊松分布。 从纯数学的角度来看, 式 (30.3) 说明, 当 , 泊松分布在 的地方取确定值为 1, 因为根据定义, 。 但这在概率上没有什么意义, 或者说, 当没有平均稀有事件发生时 , 不发生随机稀有事件的概率是 100%, 并且对于任何 情况的概率都等于零。

图 的泊松分布。 注意泊松分布是离散的, 只在那些圆点的地方才有定义值。 图中的连线只是为了读者读图方便。
从图中我们看到, 当 不等于零, 但数值很小时 (如 和 1), 泊松分布严重偏靠在 接近于 0 的地方, 呈左右不对称的形状。 概率 的最高点在 的整数值接近于 的地方。 随着 值的增加, 概率迅速降低。 在这种情况下, 稀有事件的发生不大可能小于 (因其值很小), 且其发生在 的方向的概率迅速降低。
随着 值变大, 泊松分布的形状越来越接近于钟形, 也就是正态分布。 你看, 当 时, 曲线的形状已经跟图 28.2 的正态分布很像了, 概率 的最高点还是在 的整数值接近于 的地方。 但随着 值的增加和减小, 概率都迅速降低。
泊松分布还有一个有趣的性质, 那就是这个分布的平均值 恰好等于分布的方差, 又等于分布的期望值。 在概率论和统计学中, 一个随机变量的方差描述的是这个变量的离散程度, 也就是它离其期望值的距离。 关于方差的概念, 我们在第三十二章里会详细讨论。 所谓期望值, 也叫期待值, 是所有可能的 的概率的平均值。 在泊松分布的情况下, 期待值
那么, 这个分布有什么用处呢?作为例子, 让我们看另一个故事。
自从 1871 年普鲁士王国统一了日耳曼地区, 成立了德意志帝国 (也就是所谓的 “第二帝国”), 与法国争夺欧洲大陆的领导权, 战争不断。 全国实行征兵制, 男子必须服兵役。 刚建国时, 德国军队有 40 万人, 40 年后, 兵力翻了一番。 1891 年, 德军总参谋长施里芬(Alfred von Schlieffen, 1833-1913)提出《施里芬计划》, 德国调整了对法国和俄国的作战方案, 以速战速决为原则, 先在六个星期内击败法国, 然后把目标转向行动缓慢的俄国, 并在四个月内将其击败。 这项计划在 1905 年圆满完成。 可是一时的战役胜利不能挽救整个战略的失算。 最终德国在第一次世界大战中战败, 丢失了大片国土。 这些领土后来归入法国、比利时、丹麦、捷克、波兰、俄罗斯和立陶宛等国。 这种国耻又导致了纳粹德国 (也就是 “第三帝国” ) 的兴起和第二次世界大战的悲剧, 不过这些都是后话了。
在这样的背景下, 1898 年一位俄罗斯出生的波兰人在德意志帝国出了一本薄薄的小书, 名叫《小数原理》(The Law of Small Numbers)。 在这本书里, 名叫波特凯维茨 (Ladislaus von Bortkiewicz, 1868-1931) 的作者做了一个很蹊跷的研究。
德军拥有大量的骑兵, 军方注意到不时会有军士被战马踢死的事件发生。 这些事件不仅发生在战时, 即使在和平时期也时有发生。 这种事件对士气影响很坏, 军方认为有可能反映了领导不力或者军事体系出现了问题。 以德国人的严谨, 他们连续几十年对这类事件进行了记录。 也许是应了德国政府的要求, 年轻的经济统计学家波特凯维茨分析了其中 20 年 (1875-1894) 的数据 (表 30.2)。
在这张表格里, 波特凯维茨列出在 20 年里 14 个骑兵团每年被战马踢死的骑兵的数目, 一共有 280 个数据点。 从 “年合计” 那一列里, 我们看到, 每年的死亡人数变化很大。 1880 年和 1890 年最为不幸, 每年死亡将近 20 人, 而 1875 年和 1894 年则相对平安。 总体来看, 每年平均死亡人数将近 10 人 (9.8)。 如果按照不同的骑兵单团来看, 第 11 和 14 团最糟糕, 20 年的总死亡人数 25、24 人;第 8 和 15 团表现最好, 只有 7、8 人死亡。 从这些数据, 能对不同骑兵团的组织、领导和运作做出有意义的评论吗?
表 30.2 波特凯维茨列出的每年被马踢死的骑兵人数
| 骑兵团 | ||||||||||||||||
| G | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 14 | 15 | 年合计 | ||
| 1875 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 0 | 0 | 0 | 1 | 0 | 3 | |
| 1876 | 2 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 5 | |
| 1877 | 2 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 0 | 0 | 1 | 0 | 2 | 0 | 7 | |
| 1878 | 1 | 2 | 2 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 1 | 0 | 9 | |
| 1879 | 0 | 0 | 0 | 1 | 1 | 2 | 2 | 0 | 1 | 0 | 0 | 2 | 1 | 0 | 10 | |
| 1880 | 0 | 3 | 2 | 1 | 1 | 1 | 0 | 0 | 0 | 2 | 1 | 4 | 3 | 0 | 18 | |
| 1881 | 1 | 0 | 0 | 2 | 1 | 0 | 0 | 1 | 0 | 1 | 0 | 0 | 0 | 0 | 6 | |
| 1882 | 1 | 2 | 0 | 0 | 0 | 0 | 1 | 0 | 1 | 1 | 2 | 1 | 4 | 1 | 14 | |
| 1883 | 0 | 0 | 1 | 2 | 0 | 1 | 2 | 1 | 0 | 1 | 0 | 3 | 0 | 0 | 11 | |
| 1884 | 3 | 0 | 1 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 2 | 0 | 1 | 1 | 9 | |
| 年份 | 1885 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 2 | 0 | 1 | 1 | 0 | 5 |
| 1886 | 2 | 1 | 0 | 0 | 1 | 1 | 1 | 0 | 0 | 1 | 0 | 1 | 3 | 0 | 11 | |
| 1887 | 1 | 1 | 2 | 1 | 0 | 0 | 3 | 2 | 1 | 1 | 0 | 1 | 2 | 0 | 15 | |
| 1888 | 0 | 1 | 1 | 0 | 0 | 1 | 1 | 0 | 0 | 0 | 0 | 1 | 1 | 0 | 6 | |
| 1889 | 0 | 0 | 1 | 1 | 0 | 1 | 1 | 0 | 0 | 1 | 2 | 2 | 0 | 2 | 11 | |
| 1890 | 1 | 2 | 0 | 2 | 0 | 1 | 1 | 2 | 0 | 2 | 1 | 1 | 2 | 2 | 17 | |
| 1891 | 0 | 0 | 0 | 1 | 1 | 1 | 0 | 1 | 1 | 0 | 3 | 3 | 1 | 0 | 12 | |
| 1892 | 1 | 3 | 2 | 0 | 1 | 1 | 3 | 0 | 1 | 1 | 0 | 1 | 1 | 0 | 15 | |
| 1893 | 0 | 1 | 0 | 0 | 0 | 1 | 0 | 2 | 0 | 0 | 1 | 3 | 0 | 0 | 8 | |
| 1894 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 0 | 4 | |
| 总计 | 16 | 16 | 12 | 12 | 8 | 11 | 17 | 12 | 7 | 13 | 15 | 25 | 24 | 8 | 196 | |
波特凯维茨似乎不是很有创意的统计学家, 但是他找到了一个最好的概率统计理论, 那就是泊松分布。 通过这个理论, 波特凯维茨得到了一个完全意想不到的结论。
如果所有 280 个数据点都是相互无关的, 那么在这 280 个数据里, 每个骑兵被战马踢死的概率可以认为是相等的。 各个骑兵团的人数也可以认为大致相等, 那么每年死亡事件发生的平均概率可以从死亡人数和全部数据点的数目来估计, 它等于 196/280 = 0.700, 单位是人/每年/每骑兵团。 从表 30.2, 我们可以找出每年出现零死亡的数据点的数目, 每年死亡 1 人的数据点的数目, 每年死亡 2 人的数据点的数目, 等等, 于是得到表 30.3 中的第一和第二列。
表 30.3 波特凯维茨通过分析表 30.2 得到的骑兵意外死亡时间频率
| 年死亡人数 | 对应年死亡率的 数据点数目 | $\lambda = {0.7}$ 的泊松分布 概率值 | 根据泊松分布计算 得到的数据点数目 |
| 0 | 144 | 0.496 58 | 139.0 |
| 1 | 91 | 0.347 61 | 97.3 |
| 2 | 32 | 0.121 66 | 34.1 |
| 3 | 11 | 0.028 39 | 8.0 |
| 4 | 2 | 0.004 97 | 1.4 |
| 5 + | 0 | 0.000 70 | 0.2 |
| 总数 | 280 | 280.0 |
通过泊松的分析, 波特凯维茨知道, 上面那个 0.7 就是泊松分布中的 。 泊松分布只有这么一个变量, 而表 30.3 的第一列就是泊松分布的 值。 根据 计算出来的概率分布我们已经在图 30.2 中画出来了, 就是那些黑点, 对应的数值在表 30.3 中的第三列。 既然总的数据点数为 280, 那么用 280 乘以第三列的概率值, 就可以得出泊松分布“预测”的数据点数目, 这是第四列的数值。
对比第二列和第四列的数值, 我们发现, 泊松分布可以相当好地描述德军 20 年的骑兵事故数据。 实际上, 后来人们进一步考查这组数据, 发现有几个骑兵团的日常运作跟大多数骑兵团不同。 比如表 30.2 中那个以 G 为名的骑兵团是卫队, 他们的人员组成、训练方式和组织结构跟战斗骑兵团有很大的不同, 所以应该从这组数据中剔除。 考虑了这类因素以后, 人们发现泊松分布描述骑兵事故的效果比表 30.3 中显示的还要好。
结论是什么呢? 结论是, 这些不幸的意外事件都是随机发生的, 它们跟骑兵团的领导和运作无关。 这些数据表明, 那些某年内死亡人数多的骑兵团只是在那一年里 “运气” 不好。 这就是波特凯维茨所谓的 “小数原理”。 这个原理, 现在有一个比较确切的名字, 叫 “稀有事件定律” (Law of rare events)。
现在作为练习, 让我们看一个钓鱼的例子。 设想一群人在一个很大的湖面上进行钓鱼比赛, 假设湖里面鱼很多, 而且每次钓上来的鱼与其他被钓上来的鱼没有关系。 如果比赛一整天之后, 平均每人钓到 6 条鱼, 那么钓到 6 条鱼以下的概率是多少呢?
在这个例子里, 。 根据式 (30.3), 我们可以对总共钓到 条鱼 ( , 5, 6 等等)的概率列出一个表来(表 30.4 )。
表 30.4 式 (30.3) 给出的正好钓到 条鱼和钓到小于等于 条鱼的概率
| 钓到鱼的数目 $k$ | 正好钓到 $k$ 条鱼的概率 | 钓到小于等于 $k$ 条鱼的概率 |
| 0 | $P\left( {X = 0}\right) = {0.0024788}$ | $P\left( {X = 0}\right) = {0.0024788}$ |
| 1 | $P\left( {X = 1}\right) = {0.0148725}$ | $\mathop{\sum }\limits_{{k = 0}}^{1}P\left( {X = k}\right) = {0.0173513}$ |
| 2 | $P\left( {X = 2}\right) = {0.0446175}$ | $\mathop{\sum }\limits_{{k = 0}}^{2}P\left( {X = k}\right) = {0.0619688}$ |
| 3 | $P\left( {X = 3}\right) = {0.0892351}$ | $\mathop{\sum }\limits_{{k = 0}}^{3}P\left( {X = k}\right) = {0.1512039}$ |
| 4 | $P\left( {X = 4}\right) = {0.1338526}$ | $\mathop{\sum }\limits_{{k = 0}}^{4}P\left( {X = k}\right) = {0.2850565}$ |
| 5 | $P\left( {X = 5}\right) = {0.1606231}$ | $\mathop{\sum }\limits_{{k = 0}}^{5}P\left( {X = k}\right) = {0.4456796}$ |
| 6 | $P\left( {X = 6}\right) = {0.1606231}$ |
从表 30.4 我们看到, 钓到小于和等于 5 条鱼的概率是 0.4456796, 远远大于正好钓到平均数 6 条鱼的概率 0.1606231。 实际上正好钓到 5 条鱼的概率跟钓到 6 条鱼是一样的。
骑兵和钓鱼的例子都是所谓的稀有事件, 也就是在大基数背景下很少发生的事件。 也许是数千名骑兵中有几个被踢死的悲剧, 大湖里上钩的鱼更是极少数。 这些例子给我们一些有益的启发: 我们的直觉在应付稀有事件的时候常常是错误的。 因此如果单单依靠稀有事件来考察一个单位或一个项目的表现, 而不考虑这类事件的随机性, 很可能会得到错误的结论。 这叫做 “考察悖论” (Inspection paradox)。
在日常生活中, 我们经常会遇到考察悖论。 比如你出门, 到地铁站等车, 你知道每 10 分钟有一班车, 所以你觉得平均应该等 5 分钟就可以赶上一趟地铁。 但实际上, 你几乎总是要等 5 分钟以上。 为什么?你到地铁站去 “考察” 下一班地铁的行为是个单一的过程, 不代表许许多多地铁班次的平均。 从概率上讲, 你去地铁 “考察” 这个事件相对于每天几十个班次的地铁来说是一个稀有事件, 而且由于你的 “考察” 是随机的, 你碰到两个班次之间间隔较长的概率要大于平均班次间隔的概率, 所以, 你的 “考察” 从一开始就存在一种倾向于遇到大时间间隔的偏差。 顺便说一句, 对等地铁这个例子, 我们不能简单地直接套用式 (30.3), 因为各班次地铁之间的关系不是相互无关的。 不过统计分析理论可以证明, 如果 10 分钟有一趟地铁, 那么你平均等待的时间应该接近于 10 分钟, 而不是 5 分钟。
在实际统计分析中, 考察悖论的因素也非常重要。 比如小国摩纳哥的人口平均寿命经常在全世界名列前茅。 2017 年, 这个国家的平均寿命高达 89.40 岁。 难道这个国家的人民都健康得不得了吗? 其实摩纳哥人的平均寿命是有很大偏差的, 原因也是由于“考察悖论”。 这个以赌场和银行著名的国中之国, 人口的很大成分来自于移民。 许多极其富有的人为了逃税, 跑到这里来, 他们在移民时岁数已经很大了。 我们知道, 每个国家都有自己的死亡年表, 每个年龄段都有人不幸死亡 (见第十四到十七章的故事)。 而这些人在移民到摩纳哥的时候, 他们都是统计数据中的幸存者, 而且生活条件一直非常优厚。 一个 80 岁的富翁移民到摩纳哥, 他所期望的寿命当然是 100% 要高于 80岁。 正是这些移民人为地把摩纳哥的平均寿命推到了 89.4 岁。
在医学界, 稀有事件被称为 “不可能事件” (Never event)。 比如手术医师下刀时割错了部位, 这种事件按概率来说本来不该发生, 但是正如我们以前所说, 非零的概率, 无论概率值有多么的小, 在现实生活中仍然有发生的可能。 在这类情况下, 如何区分 “随机” 事件和 “非随机” 事件就变得非常重要: 我们不能无故地冤枉一位兢兢业业的手术师, 同时也不能让玩忽职守的人轻易漏网。 详细合理的统计学分析是必不可少的。
关于科学数据统计分析方法的故事, 到此暂时告一段落。 下面, 让我们转去看看利用概率统计建立科学理论模型的故事。 到目前为止, 我们已经讲了许多欧洲关于天文学和物理学的故事, 下面我们要换一个领域, 也该回到中国来看看了。
本章主要参考文献
Maltz, M. D. From Poisson to the Present: Applying operations research to problems of crime and justice. Journal of Quantitative Criminology, 1996, 12: 3-61.
Pandit, J. J. Deaths by horsekick in the Prussian army - and other “Never Events” in large organisations (Editorial). Anaesthesia, 2016, 71: 3-16.
Preece, D. A., Ross, G. J. S., Kirby, P. J. Bortkewistch’s horse-kicks and the general linear model. Journal of the Royal Statistical Society. Series D (The Statistician), 1988, 37: 313-318.