第二十七章 误差也遵循某种法则吗?

天文学是第一个要求精确观测的科学, 也是最早需要考虑面对各种不同人、不同地点、不同时间、不同质量、不同误差的观测数据, 从中寻找正确答案的科学。 公元前 2 世纪的古希腊天文学家希帕恰斯似乎喜欢选择所有数据的中间值。 300 年后, 托勒密在处理地球年的时间长度时, 好像只选择跟自己模型符合最好的数据。 过了 1400 年, 第谷首次开始对同一个天文事件反复进行观测, 得到高质量的观测数据, 可是他却没有考虑如何从这些重复观测的数据里确定出一个对该事件有代表性的数值来。 后来的天文学家们则如八仙过海, 用各种不同的方法来寻求重复观测的代表值。 有的做代数平均, 有的取中位值, 有的把数据分成几组, 分别做平均值或取中位值。 一些人在报告中讲述他们的方法, 其他人根本不提。 比如, 开普勒在计算火星运行轨道的时候, 采用第谷在 1600 年 1 月某日上午 11 时 50 分到中午 12 时 17 分观测的火星的赤经位置。 在利用不同的恒星做参照点时, 得到的火星位置稍有不同 (见表 27.1)。

表 27.1 第谷观测的火星赤经数据

采用的参照恒星火星的赤经, 度火星的赤经, 分火星的赤经, 秒
双子星座井宿三1342339
轩辕十四1342737
北河三1342318
室 (处)女座左执法*1342433
  • 这个观测是在 12 时 17 分得到的。

开普勒在他的名著《新天文学》里说, 从表 27.1 得到的平均值是 134 度 24 分 33 秒。 可是根据现代的定义, 代数平均值应该是 134 度 24 分 5.5 秒, 中位值应该是 134 度 25 分 38 秒。 注意这里的数据有 4 个点, 是个双数, 所以不存在单一的中位值, 因此需要把中间的两个数值取平均, 作为中位值。 开普勒到底是怎么得到他的平均值的, 直到今天谁也搞不清。

平均值和中位值, 究竟哪种方法更好? 学界争论了好几个世纪。 科学史上第一位正式指出需要系统而科学地进行误差分析的人是伽利略和他的《对话》。 这我们在前面已经提到了 (第二十五章)。

到了 1722 年, 情况终于发生了变化。 那一年, 英国剑桥大学为了纪念英年早逝的数学教授蔻茨 (Roger Cotes, 1682-1716), 汇集出版了他的遗作。 蔻茨 24 岁拿到硕士学位后便留在剑桥大学数学系。 从 1709 年到 1713 年, 他的主要时间花在帮助牛顿编修《自然哲学的数学原理》的第二版上。 牛顿《自然哲学的数学原理》的第一版是哈雷出钱帮他出版的, 但其中错误很多。 更重要的是, 第一版出版以后, 牛顿关于月球和行星的理论研究有了很多新进展, 蔻茨以为应该加入到第二版内。 当时牛顿已年近 70, 本不愿再继续深入研究了, 是蔻茨的严谨和热情使老牛顿激情复燃, 两人整整花了三年半的时间, 利用牛顿的运动学定律导出月球的理论, 解释了春秋二分点, 以及彗星的轨道。 蔻茨自己的主要研究领域是数学。 在数值积分方面, 他为我们提供了牛顿- 蔻茨公式; 在三角学领域, 他给出了复数三角表达式的雏形。 可是蔻茨一生只发表了一篇文章, 因为 33 岁时一场高热夺去了他的生命。 牛顿对蔻茨的去世深感痛惜, 说: “他要是还活着的话, 会有很多发现的。 ”

在蔻茨遗作汇集中, 有一篇文章名为《混合数学中的误差计算》(The evaluation of errors in a mixture of mathematics, the variations of the parts of a plane and a sphere)。 假设对一个物理量有 个观测数据 。 蔻茨把它们看成是 个砝码, 砝码的重量分别是 , 并把它们排成一排, 放在一根没有重量的杠杆上。 作为一个直观的例子, 图 27.1 给出 的情况。 蔻茨说, 寻找这些观测数据的最佳代表值, 就相当于在图 27.1 中寻找所有这些砝码组合的重心

从数学上, 这个原理可以表示成: , 并由此得到:

01952687-d372-7abb-afcb-1fdad5b56c54_272_306_1389_1007_211_0.jpg

图 27.1 蔻茨对最佳代表值的物理解释 (阿基米德杠杆原理)。 对应的值使得 在左侧相对于 点的力矩等于 在右侧相对于 点的力矩之和。

当所有砝码的重量 (对数据来说, 就是它们的权重) 都相等时, , 也就是我们现在所谓的代数平均值。

可是蔻茨并没有直接给出同式 (27.1) 类似的表达式, 他的工作也没有引起很多人的重视。

50年后, 在巴黎金碧辉煌的荣军院 (法文: Les Invalides) 穹顶背后的军事学校里, 年轻的拉普拉斯利用授课之外的空余时间, 每日下午把自己淹没在图书馆浩繁的天文文献当中。 如何在这些繁杂的数据中求得合理的代表值, 是他每天都要问自己的问题。

天体的运动遵从万有引力定律, 牛顿用简洁的数学公式把它们的运动行为表达出来。 天文观测数据的误差也会遵循某种定律吗? 怎样才能从貌似随机的观测误差中找到最接近于真实情况的数据呢?

我们在中篇里已经讲过拉普拉斯在 24 岁时发表的《从给定事件推测原因概率的备忘录》(以下简称《备忘录》)和他的 “坛子模型”。 我们先用现代概率语言重复一下他的 “基本法则”:

如果 是一个事件 (如拿出的 张白纸牌和 张黑纸牌), 是该事件的 个可能的原因, 那么,

而且

拉普拉斯在《备忘录》中举的最后一个例子, 是著名的所谓 “概率反演” 问题, 这类问题现在更准确地称为 “统计推断” (Statistical inference) 问题, 它的具体表述如下:

如果对同一个天文学现象, 沿着时间轴上的一段 中有三个观测数据 , 其中 之间的时间差是 秒, 之间的时间差是 秒 [见图 27.2 的上图 (a)]。 应该如何从这三个数据之间正确地选取最佳平均值 , 使它最接近物理量的真实数值 呢?

拉普拉斯假定, 误差的概率分布可以用一个连续的概率密度曲线 (也就是概率密度函数) 来表达。 任何一个在时间上距离真实值 秒的观测点都对应着概率曲线上的一个点 。 拉普拉斯第一次把观测数据的概率分布看成是连续的曲线, 这是因为他要处理大量的数据, 而且他对于微积分已经相当熟悉。 比起前人来, 他手中的数学工具可算是超重型武器了。

拉普拉斯推论说, 这条曲线必须具有的三个性质, 可以帮助建立曲线 的具体形式:

  1. 的形状相对于 是对称的, 因为误差在 两侧发生具有同样的可能性。

  2. 随着 的增加, 单调减小, 因为 “观测数据同 之差是无穷大的概率趋于零”。

  3. , 因为所有的误差都在这条曲线下面, 而所有的概率之和等于 1。

为了避免困惑, 我们还需要加上一个性质, 那就是 不可能有负值, 这是因为负的概率没有意义。

根据图 27.2, 如果点 距离平均值 的时间差别是 , 那么这三个观测点 接近 的总概率就是 , 这个乘积里面的三个 分别代表的是 图 27.2 上图 (a) - 时间轴 上一个天文事件发生的真正时间 同三个实际观测的时间 的关系。 是我们要对这三个观测时间确定的平均值, 使它尽可能地接近 。 下图 (b) 一曲线 是假定的天文物理量随观测时间的变化。 这条曲线不一定是左右对称的。 对应横轴上 的物理量在点 , 而距离 很近的点 对应着曲线的点 。 接近 的概率。 同理, 如果点 距离真实值 的时间差是 , 那么这三个观测点接近 的概率就是 。 根据他的 “基本法则”, 拉普拉斯推论说, 真实值在 的相对概率是

01952687-d372-7abb-afcb-1fdad5b56c54_274_294_1220_504_484_0.jpg

现在的问题是要找到时刻 , 使得 “所担心的误差” (The errors to be feared) 之和乘以它们的概率达到最小值。 这里, 拉普拉斯所谓 “所担心的误差” 在概念上就是现代的所谓标准误差 (Standard error)。

怎样才能找到这个值 呢? 拉普拉斯的思路跟蔻茨相同 [图 27.2 的下图 (b) ], 也是利用阿基米德的杠杆原理。 物理和数学经常是相通的, 我们曾在《几何与代数卷》 里介绍过阿基米德利用杠杆原理的物理思路来计算圆球的体积。 假定曲线 是天文物理量随时间变化的曲线。 垂直, 对应的是我们想找的 对应的曲线上的点。 作直线 使它平行于 , 而且 , 使 无限地逼近 。 现在考虑曲线 在横轴 之上所涵盖的面积, 并把它看成是一张密度均匀且等于 1 的平板。 在 (或者 , 因为二者无限接近) 右侧的曲线下的平板的质量为 , 其重心 (严格地说应该是质心) 在点 。 我们把 的距离记为 。 类似地, (或者 ) 左侧的曲线下的平板的质量为 , 重心在点 。 我们把 的距离记为 。 这样, “‘所担心的误差’ 之和乘以它们的概率达到最小值” 的问题就等价于一个力矩平衡问题。 如果 是所要寻找的最佳值, 那么从 来考虑, 所有的力矩之和是

类似地, 如果 是所要寻找的最佳值, 那么从 来考虑, 所有的力矩之和是

这两个式子的差是 。 要想让误差值之和乘以误差的概率在任意小的 情况下都达到最小值, 必须要求 。 也就是说, 纵坐标 必须把曲线 分成左右面积相等的两半。

可是, 要想把曲线平分成两半, 使两侧平衡, 必须要知道概率曲线 的具体形状。 怎样才能知道它的形状呢? 拉普拉斯只能靠逻辑思维来推理。 首先, 一条跟横轴平行的直线可以被 平分而且两侧面积相等, 但这不满足前面提到的曲线的第二个性质。 根据这个性质以及所有概率之和等于 1 的要求, 拉普拉斯推论说, 我们必须要求 的变化率, 也就是 , 同 本身随着 的变化呈负的线性关系, 亦即

这里 是一个正的常数。 从这里, 拉普拉斯得到

式(27.6)中e指数前面的 保证对式(27.5)右侧从负无穷到正无穷的积分收敛到 1, 对应的 值恰好在 的地方。 如果 值在 的地方, 那么对应的式 (27.6) 就是

这样的曲线称为拉普拉斯分布。 图27.3给出了几个拉普拉斯分布的例子。

拉普拉斯的发现对于数据误差的概率统计研究具有开创性的意义, 可是最初也很少有人注意到它, 因为拉普拉斯所采用的变量的表达方式[式(27.4)中的 见图 27.2]比较古怪, 拉普拉斯可能是想把这个问题同古典概率的二项式表达式联系起来 (见上篇)。 如果我们用 来表示最佳代表值 [类似于式 (27.1)], 用 来表示 在时间轴上数值, 式 (27.4) 就可以写成

01952687-d372-7abb-afcb-1fdad5b56c54_276_286_1229_585_472_0.jpg

图27.3 拉普拉斯分布的例子。 这里 。 由此我们可以看出, 越小 越大), 拉普拉斯分布就越尖锐。

这种方式对搞概率分析的人来说就比较熟悉了。

24岁的拉普拉斯由于这项工作成功地成为法国科学院的一员, 他可以放开手来大干一番了, 但也正是在这个时候, 世界进入了一个大变革时期。

早在 1740 年, 神圣罗马帝国皇帝、哈布斯堡王朝最后的统治者卡尔六世 (Karl VI, 1685-1740) 逝世, 由于没有留下男性后代, 皇位受到欧洲各大国的觊觎。 普鲁士王国急于摆脱奥地利王国势力的压制, 首先宣战。 那年12月, 普鲁士国王腓特烈大帝 (Friedrich II, 1712-1786) 南下突袭西里西亚, 以迅雷不及掩耳之势击溃奥地利驻军, 攻陷首府布雷斯劳, 也就是纽伊曼研究出生和死亡规律的地方(见中篇)。 欧洲各国迅速站队参战, 法国、巴伐利亚、萨克森、西班牙与普鲁士联盟, 奥地利则与英国、波希米亚、匈牙利、荷兰、西西里亚和俄国结成阵营, 战争持续了八九年, 争端也从欧洲波及到美洲。

当时, 北美大陆基本上已被三个欧洲大国瓜分。 西班牙统治墨西哥和相当于今天美国的亚利桑那、新墨西哥、得克萨斯州的一部分。 加利福尼亚和它的北面以及落基山脉以东的高原地区尚属蛮荒之地。 大英帝国殖民地占据了俄亥俄河以东, 特别是海岸地区。 法国殖民地 (称为 “新法兰西” )则涵盖了广袤的中部地区, 从墨西哥湾直到加拿大。 新法兰西地区极为广阔, 相当于整个北美洲的三分之一。 随着欧洲战争的升级, 英法两国也在密西西比河谷起了冲突。

1754 年 5 月 28 日, 一个 22 岁的英国殖民军少校率领部下和协同作战的印第安勇士在俄亥俄河谷伏击了一小股法国殖民军。 争端一起, 迅速升级, 蔓延到欧洲。 英国利用海上优势扣留了众多的法国商船。 1756 年, 英法两国正式宣战。 而普鲁士军队则突然西进, 跨过中立国萨克森 (Saxony) 的边界, 萨克森和奥地利的联军毫无准备, 迅速溃散, 至此, 欧洲战争全面爆发。

这场史称 “七年战争” 的混乱局面使法国伤痕累累, 元气大伤, 不得不在 1763 年同英国签订《巴黎和约》。 在世界版图上, 法国失去了亚洲的印度、美洲的整个加拿大和法属路易斯安那, 只剩下新奥尔良地区。 在国内, 经济上濒于破产, 物价飞涨, 给百姓带来极大恐慌。 《巴黎和约》成为法国君主制时期最屈辱的事件之一, 一时民怨沸腾。

英国是这场战争的最大赢家, 成为海外殖民世界无可争议的霸主, 实现了日不落帝国的传奇。 不过它把这次战争所消耗的财富大部分转嫁到北美殖民地身上, 引起当地居民的强烈不满。 七年战争结束的第 13 年, 美国独立战争爆发。 而领导独立战争的主要人物之一, 就是当年那个 22 岁的少校乔治・华盛顿。

1774 年, 在位将近 60 年的法王路易十五 (Louis XV of France, 1710-1774) 在凡尔赛宫死于天花。 波旁家族有一个传统, 国王死后, 心脏要挖出来放在一个特制的箱柜里。 但路易十五没有这么做, 他叫人将酒精注入他的棺材并把遗骸浸泡在生石灰中。 路易十五年轻时极受百姓爱戴, 可是到最后却变成最遭人痛恨的国王之一。 他留给孙子路易十六 (Louis XVI, 1754-1793) 一个烂摊子:通货膨胀日益恶化, 国库空虚, 可是国王还要拿出钱来支持美国独立战争以报复英国。 战争的债务通过税收压在百姓头上, 而国王和王后还有贵族们却依然过着奢华的生活, 挥金如土。 1780 年代中期, 法国连续遭灾, 粮食歉收, 饥饿的农民大量涌入城市, 导致失业率和物价飞涨, 单单面包一项就要贫穷百姓花费 80% 的家庭收入。 法国的税收制度刻意压榨穷人, 滋饱国王和税收官员, 令百姓恨之入骨。 1789 年, 路易十六为了美国独立战争的财政问题, 强迫召开停止了 175 年的法国国会三级议会。 议会普选, 选出 1204 名代表, 第一等级教士 303 名, 代表大约 10 万名法国教士, 他们拥有全国 10% 的土地;第二等级贵族 291 名, 代表大约 40 万名贵族, 他们拥有 25% 的土地; 第三等级平民 610 名, 代表法国 95% 的人口, 他们大多是中产阶级。 第三等级议会成员与天主教神父西哀士(Emmanuel-Joseph Sieyès, 1748-1836)发表了著名的小册子《什么是第三等级?》, 宣称:“什么是第三等级?整个国家。 到目前为止, 第三等级在政治秩序中的地位是什么?什么也不是。 第三等级要求什么?地位!”

不久, 第三等级议会开始以公社的形式定期开会。 1789 年 6 月, 他们投票通过, 宣布成立国民议会, 声称他们已不再是第三议会, 而是人民的议会, 要独立处理国家事务。 一些第一和第二议会的成员也加入了国民议会, 但是国王的军队开始包围议会的会址和巴黎城市。 7月14日, 市民开始攻击巴士底监狱, 巴士底监狱的驻军首领洛纳侯爵 (Bernard-René de Launay, 1740-1789) 命令手下停火, 避免了大量民众死亡, 而他自己却被砍下了头颅。 闹事民众用枪尖挑着他的头颅在巴黎游行, 并在市政厅开枪杀死巴黎市长弗莱塞勒 (Jacques de Flesselles, 1721-1789)。 至此法国大革命正式揭幕。

8 月 26 日, 国民议会颁布了《人权与公民权宣言》。 《宣言》采用 18 世纪的启蒙学说和自然权论, 宣布自由、财产、安全和反抗压迫是天赋不可剥夺的人权, 同时肯定言论、信仰、著作和出版自由, 阐明司法、行政、立法三权分立, 法律面前人人平等, 私有财产神圣不可侵犯等原则。

1792 年, 法兰西第一共和国成立。 旧的社会秩序土崩瓦解, 暴力事件如燎原之火。 人们攻击教堂, 焚毁圣经, 另一些人组织民兵反抗革命。 几乎所有的欧洲国家都先后对法国宣战。 1793 年 1 月, 路易十六被送上断头台, 同年 10 月, 王后玛丽·安东尼特 (Marie Antoinette, 1755-1793) 也在断头台被斩首。 不久, 革命组织内部发生激烈斗争。 根据文献记载, 到 1794 年为止的三年里, 断头台上砍掉了所谓 “反革命分子” (其中包括大量法兰西第一共和国公安委员会的意见人士)至少 16594 颗人头。 职业革命家们如丹顿 (Georges Jacques Danton, 1759-1794)、罗伯斯庇尔 (法文: Maximilien Robespierre, 1758-1794) 和圣茹斯特 (Louis Antoine Léon de Saint-Just, 1767-1794) 在砍掉无数颗头颅之后, 自己也把头颅留在了断头台上。 大多数断头台的处决发生在革命广场, 也就是今天的巴黎协和广场。 据说, 广场的泥土都被鲜血所浸透, 散发出一股怪异的味道, 连拉车的马都拒绝前往。

01952687-d372-7abb-afcb-1fdad5b56c54_279_314_1159_479_546_0.jpg

在这个大变革、大混乱、大迷茫时期, 拉普拉斯 (图 27.4) 竟然继续着他的研究。 1796 年, 他的巨著《宇宙体系论》 问世, 书中提出了对后来有重大影响的关于行星起源的星云假说。 从 1798 年到 1825 年, 拉普拉斯陆续发表了他的一整套天体力学的研究结果, 一共五卷。

图 27.4 西蒙·拉普拉斯。 肖像作者是 19 世纪英国艺术家波色尔怀特 (James Posselwhite)。 第一、二卷出版于 1798 年, 主要解决行星的运动、行星的形状和潮汐问题。 这两本巨著是天体力学的经典之作, 它对科学界的影响具有里程碑意义, 拉普拉斯也因此被誉为法国的牛顿。 有一个故事说, 拿破仑 (法文:Napoléon Bonaparte, 1769-1821) 称帝以后, 读到这些著作, 问拉普拉斯, 为什么书中对上帝只字不提?拉普拉斯以他特有的个性明确地回答:“陛下, 我不需要这个假设。 ”

拉普拉斯在《天体力学》第二卷里花了相当长的篇幅来讨论地球的形状。 那时候, 关于地球形状的大地测量数据已经不仅仅局限于赤道和极地, 表 27.2 列出了拉普拉斯所采用的数据。 在拉普拉斯的原著里, 这些数据是用图瓦斯为长度单位, 角度是以梯度来表示的, 我们在这里都换成现代国际标准单位制 (米和度)。 拉普拉斯把测量数据简化成为一个线性的关系:

其中, 是测量的子午线长度, 是测线涵盖的纬度范围, 是该范围里的代表纬度。 如果地球通过极轴的截面是个椭圆, 其对应赤道的半径为 , 而对应南北极的半径为 , 则

表 27.2 拉普拉斯分析地球形状所使用的子午线长度测量数据

$\frac{\Delta s}{\Delta \lambda } = {c}_{0} + {c}_{1}{\left\lbrack \sin \lambda \right\rbrack }^{2}$, 千米 $/$ 度测线地点纬度 $\lambda$, 度测线纬度范围 ${\Delta \lambda }$, 度
110.6137秘鲁03.116 97
111.1672好望角33.308 371.221 48
110.876 8宾夕法尼亚39.200 041.479 15
111.054 2意大利43.016 582.163 06
111.130 9法国(全部)46.199 439.673 83
111.239 3奥地利47.783 342.946 06
111.884 4拉普兰66.333 330.957 96

每条测线根据式 (27.9) 给出一个线性方程, 拉普拉斯需要对表 27.2 中的 7 个线性方程求解两个参数 , 使得这 7 个方程的最大误差达到最小值。

考虑到误差分布的形式 (27.7), 拉普拉斯成功地找到了一对最佳的 的数值。 从残余误差来看, 拉普拉斯推论说地球的形状并非完美的椭圆 (他是正确的), 但是在椭圆的误差范围以内 (图 27.5)。 以椭圆来近似地球的形状, 椭圆率

01952687-d372-7abb-afcb-1fdad5b56c54_281_296_534_513_472_0.jpg

图27.5 拉普拉斯拟合地球形状的结果示意图。 蓝色十字是表 27.2 给出的数据, 红色曲线是拉普拉斯得到的地球椭圆拟合曲线的1/4。 假定椭圆的对称性, 这部分曲线可以描述地球的形状。

拉普拉斯在《天体力学》第二卷里还使用了其他的误差概率分布方法, 这些我们后面再谈。

本章主要参考文献

Laplace, P. S. Memoir on the Probability of the Causes of Events (1774). English translation by S. M. Stigler, Statistical Science, 1986, 1: 364-378.

Laplace, P. S. Mecanique Celeste, Volume II. English translation by N. Bowditch. Boston: Hilliard, Gray, Little, and Wilkins Publishers, 1829.

Nievergelt, Y. A tutorial history of least squares with applications to astronomy and geodesy. Journal of Computational and Applied Mathematics, 2000, 121: 37-72.

Sheynin, O. B. Laplace’s Theory of Errors. Archive for History of Exact Science, 1977, 17: 1-61.

Stahl, S. The Evolution of the Normal Distribution. Mathematics Magazine, 2006, 79: 96-113.

Stigler, S. M. Laplace’s 1774 Memoir on Inverse Probability. Statistical Science, 1986, 1: 359-378.