第二十八章 追星 “王子” 的误差曲线
开普勒发表《新天文学》以后, 地球和其他五大行星(水、金、火、木、土)围绕太阳运动的轨道得以确定。 开普勒注意到, 这些行星与太阳之间的距离似乎有某种规律, 只是在火星和木星之间的间隔太大。 18 世纪中后期, 德国天文学家提丢斯 (Johann Daniel Titius, 1729-1796) 和约翰·波德 (Johann Elert Bode, 1747-1826) 提出一个表达行星与太阳之间平均距离 的经验公式: , 其中 , 对应着从太阳中心算起第 颗行星, 是天文单位, 也就是地球到太阳的平均距离。 从这个经验公式我们看到, 当 , 亦即从金星开始, 每一颗行星离太阳的距离都比起前一颗要大约翻一番。 没有任何物理定律能解释这个经验公式, 而且在 的地方 (即在火星与土星之间) 是个空缺, 所以这个经验公式并没有引起太大的重视。
1781 年, 英国著名的德裔天文学家赫谢尔 (Frederick William Herschel, 1738- 1822) 在利用高倍望远镜寻找双星时, 注意到一个状似小圆盘的星体。 他做了大量观测, 认为它或是一颗彗星, 或是一颗行星, 因为其位置每天都在变化。 不久, 在俄国工作的芬兰瑞典裔天文学家雷克塞尔(Anders Johan Lexell, 1740-1784)估算了新星的轨道, 认为它是一颗行星, 而且轨道正好位于提丢斯-波德经验公式预测的比土星与太阳之间的距离大一倍左右的地方, 相当于 。 这就是我们现在熟知的天王星。 一下子, 提丢斯-波德经验公式变得神奇起来。 天文学家开始认真地推测, 在火星和木星之间, 或许真有一颗跟人们捉迷藏的行星。 1800 年, 匈牙利天文学家冯·扎赫 (Franz Xaver von Zach, 1754-1832) 向24位知名天文学家提出请求, 请他们抓出这颗狡猾的行星。 冯·扎赫把这24位戏称为“星空警察”。
1801 年元旦的晚上, 24位 “警察” 之一、意大利天文学家皮亚齐 (Giuseppe Piazzi, 1746-1826)登上西西里岛上的帕勒莫(Palermo)天文台, 在星空的背景中发现了一个移动的星点。 起初他以为这是一颗新恒星, 移动可能是观测上的误差造成的错觉, 可是连续三个晚上重复观测之后, 他确定小星点不是恒星。 1 月 11 日, 皮亚齐同时寄出4份报告, 分别送给在佩斯(今天的布达佩斯)的冯·扎赫、在柏林的波德、在米兰的欧里亚尼(Barnaba Oriani, 1752-1832)、在巴黎的拉朗德(Joseph Jérôme Lefrancois de Lalande, 1732-1807)。 皮亚齐继续观测到2月11日, 这时, 小星点已经非常接近太阳, 很难观测到了。 进入夏天, 整个欧洲的天文界都知道了皮亚齐的发现, 而且认为它很可能就是那个被 “警察” 追捕的 “小贼”。 名字都为它取好了, 叫做色雷斯 (Ceres), 也就是罗马神话中的农神, 中文叫谷神星, 可是这个顽皮的小贼躲到太阳背后, 不露面了。
如果谷神星重新出现, 会在浩瀚天空中的哪个地方呢? 皮亚齐只作了短短 40 几天的观测, 小东西飞行了不到 3 度的空间范围。 要想从如此有限的数据预测八九个月以后的星体位置, 实在太困难了。 欧洲的天文学家们都在努力地估算和猜测, 因为每个人都想成为确定这颗行星轨道的第一人。
这时候, 位于德国北部的布伦瑞克 (德文: Braunschweig; 英文: Brunswick), 有一个不为人知的年轻人也在考虑这个问题。 这个 24 岁的年轻人刚刚完成数学博士论文不久, 虽然在数学界崭露头角, 但基本上还是 “藏在深闺人未知”。 他出身于一个贫苦家庭, 母亲大字不识, 连他的生日都记不得。 可这孩子极有天赋, 三岁的时候就能指出父亲算数的错误。 父亲惊喜万分, 把他送到本地的学校去接受教育。 学校里, 数学语文对他来讲都太容易了, 老师认为他是个天才, 把他推荐给布伦瑞克公爵斐迪南 (Charles II William Ferdinand, 1735-1806)。 公爵一见到年轻人, 如同发现瑰宝, 当下允诺, 只要年轻人继续深造, 公爵就每年付给他年薪。 年轻人的父亲虽然希望儿子继承父业, 但不敢违抗公爵, 于是年轻人先是在布伦瑞克一所学院就读, 然后进入哥廷根大学。
年轻人在大学期间就完成了一部数论著作, 对后世产生深刻的影响。 他还解决了一个古希腊人留下的一千多年没能解决的几何难题: 用尺规作图的方法构画复杂的多边形。 他对这个结果尤其欣慰, 年纪轻轻就决定用尺规构画的 17 边形作为将来死后的墓志铭。 年轻人显然对现实世界考虑得很少, 后来他请到的石匠拒绝了这份工作, 说等到雕出这个 17 边形, 它看起来将跟圆形没什么区别。 1798 年博士毕业后, 他回到布伦瑞克, 依靠公爵提供的资助独立进行研究工作。 1801 年, 他关于数论的书出版了, 也就在这时候, 他听到了皮亚齐的观测结果。 年轻人正在考虑行星轨道的问题, 所以他马上就全身心投入了研究。 后来回忆起来, 他说:
“在天文学史上, 我们从未遇到过一个如此难得的机遇, 也很难想象能再找到比这个危机和迫切需求更好的机会来令人惊异地显示这个问题的价值了:在宇宙中无数的小星球之中, 在消失将近一年之后, 再次发现这个行星原子的机会完全依靠仅有的一点点观测资料所建立的轨道的有限的知识上面。 ”
这是一个相当复杂的问题。 人在地球上观测, 而谷神星围绕太阳运行, 计算需要涉及 80 多个参数和 3 个不同的坐标系。 年轻人没有采用任何抽象而高深的数学手段设计了一套 13 部曲来处理这个问题。 他通过深刻了解问题当中不同参数的关系, 使用多数属于今天高中的代数和三角学的方法, 一步一步解决了它。
冯·扎赫在自己主编的天文期刊的1801 年 12 月期上发表了年轻人预测的轨道。 虽然年轻人的结果跟大多数著名天文学家的预测不同, 但冯·扎赫认为他的结果更值得信赖。 几天以后 (12月7日), 冯·扎赫果然根据年轻人的预测在星空中找到了这个顽皮的小行星。 次年元旦, 天文爱好者奥伯斯 (Wilhelm Olbers, 1758-1840) 再次观测到了它。 几乎是一夜之间, 年轻人的天才被整个欧洲所注意。
这个年轻人就是高斯。 高斯 (图 28.1) 在几何学、数论、光学、天文学等方面都有显著贡献, 其中尤以数学在当时独步天下, 被誉为数学家当中的王子。
1809 年, 高斯发表了《天体运动论》(拉丁文: Theoria Motus Corporum Coelestium in sectionibus conicis solem ambientium), 书中的第 172 节到 189 节介绍了自己在推导谷神星运行轨道时采用的数值分析方法。 原来, 他发现了最小二乘法 (Least squares method), 并采用测量平差 (Least squares adjustment) 的理论来测算天体运行轨迹。

图 28.1 卡尔·高斯。 肖像作于 1840 年, 当时高斯 63 岁。 作者: 丹麦著名肖像画家克里斯蒂安·詹森 (Christian Albrecht Jensen, 1792-1870)。
在介绍最小二乘法之前, 我们需要先介绍一下高斯分析误差分布的思路。 高斯对误差的基本性质也做了三个假设:
-
小误差发生的概率要大于大误差。
-
对于一个实数值 , 误差等于 和 的概率相等。
-
如果对同一个物理量存在若干个测量值, 那么最能代表这个物理量的数值是所有测量值的平均。
读者不妨返回第二十五章和第二十七章去温习一下伽利略和拉普拉斯关于误差分布性质的分析, 并拿它们同高斯的假定比较一下。
从这些假定出发, 高斯利用拉普拉斯的概率 “基本原则” 和初级微积分导出了一个同拉普拉斯分布不同的误差曲线。 高斯的推导非常简单, 有一点微积分基础的高中生都可以看懂。 他的分析方法同拉普拉斯非常相近, 建议读者把下面的推导和第二十七章里的推导对照起来看:
假设一个物理量的真实而未知的值是 , 对这个物理量有 个测量值, 分别是 。 如果跟拉普拉斯一样, 我们把随机误差 的概率密度函数 (Probability density function) 记作 , 高斯假定这个函数是大于零的、光滑变化的, 并可处处求导数, 而且导数 也是连续函数。 根据高斯关于误差的第一个假定, 在 处取最大值。 根据他的第二个假定, 。 在这种情况下, 我们可以定义一个新的函数 , 这个函数具有反对称性, 也就是 。
设第 个测量数值 的误差是 , 假定所有的测量值所对应的误差都是相互无关而且是随机的, 那么根据拉普拉斯的基本原则, 把所有 个误差都考虑进来以后, 误差的概率密度就是
根据高斯的第三个假定, 的最大似然估计值 (Maximum likelihood estimator) 是 。 换句话说, 对应着误差概率 的最大值。 此时我们可以把 看成是 的函数, 因为 , 且 , 从微分学原理我们知道, 如果 在 处取得最大值, 那么 相对于 的导数在该处等于零, 也就是
由于 本身是个非零的函数, 所以上述结果意味着
到这一步, 为了得到 的形式, 高斯选择了一个特例。 他说, 测量值在允许变化的范围内是任意的, 那么让我们选择这么一套测量值: , 其中 和 是两个实数。 对这样一组测量值, 它们对应的平均值是
把这个 和对应的 个 值代入式 (28.2), 我们得到 。 由于 , 我们就得到
式 (28.3) 意味着 是一个线性齐次函数, 它的性质是对任意非零的常数 和变量 来说, 总能满足 。 具体到我们考虑的误差变量 , 式 (28.3) 意味着
由于 , 将式 (28.4) 两端同时积分, 我们得到: , 也就是
根据高斯的第一个假定, 一定是个负的常数, 否则式 (28.5) 在 很大的时候趋于无穷大。 令 , 再利用拉普拉斯在 1782 年得到的著名积分公式 , 最终我们得到高斯的误差分布
高斯说, 式 (28.6) 里的常数 代表测量值的精度。 注意 指数前面的系数 保证在 对 从 到 积分以后的结果等于 1。
高斯进一步评论说, 式 (28.6) 所表达的误差分布同实际情况是有区别的。 式 (28.6) 在整个实轴 上的值都是非零的, 而在实际观测中, 误差不可能大到正负无穷。 但是由于式 (28.6) 随着 的绝对值的增加成指数性减小, 所以距离真实值很远的地方式 (28.6) 给出的数值非常小, 不影响实际应用。
不过从上面的推导我们看到, 高斯的式 (28.6) 是从一个观测值分布的特例得到的, 并非严格的数学推论。 以致于后来有人批评说, 以严谨著称的高斯在这个问题上偷懒取巧, 甚至说, 假如高斯遇上负责的评审人, 这一节的数学逻辑肯定过不了关。 所以严格说来, 高斯找到了一个正确的方法, 但未能证明这个方法在数学上的正确性。 比较起来, 拉普拉斯得到式 (21.7) 的分析过程要漂亮多了。
讲到这里, 建议读者回到第十八章, 看一下棣莫弗从古典二项式的概率原理导出来的式 (18.3)。 这是棣莫弗在分析二项式定理时, 在把一枚硬币投出成千上万次以后所导出的 “钟形” 曲线。 高斯的误差曲线不就是钟形曲线吗? 今天, 式 (28.6) 的标准表达方式是
其中式 (28.7) 右边 指数函数前面的系数当然也是为了使 对 从 到 积分以后的结果等于 1。 换句话说, 曲线 (28.7) 在整个 轴 ( 从 到 ) 上面所覆盖的面积等于 1, 曲线 (28.6) 和 (28.7) 都是以 为中心的。 如果曲线中心在 , 那么只要把两个式子里的 换成 就好了。 显然, 式 (28.7) 中的 的数值越小, 的峰越尖锐。 我们现在把 称为方差 (variance), 用它来描述变量 离开期望值 的距离。
高斯的误差曲线开启了统计学的新时代。 自然科学研究人员现在有了一个仅仅包含两个参数 和 (或高斯的 ) 的分布曲线, 它指出测量值的代数平均给出对真实值的估计, 因而对最小二乘法提供了一个概率论的解释; 给 一个容易理解的解释, 即 描述测量方法的精度; 同时又是对经验的误差分布很不错的模拟。
不仅如此, 高斯的分布还能帮助我们估计拟合的置信度。 从图 28.2 我们看到, 如果以曲线的中心为起点 (在 处) 向左右各迈出一步, 大小为 , 那么从 到 这一段曲线所涵盖的面积是整个面积的 68.26%。 如果向左右各迈出两步, 则曲线从 到 这一段所涵盖的面积是整个面积的95.44%。 68% 和 95% 是数据拟合分析中最常见的所谓置信度。 它们对应误差的置信区间分别是 和 。

图 28.2 拉普拉斯-高斯分布曲线对应的各种置信区间。 显然, 涵盖的 范围越大, 置信度就越高, 但是对应的误差范围也就越大。
在高斯的《天体运动论》出版的当年, 拉普拉斯就买了一本来研读, 而且马上注意到了高斯给出的等式 (28.6)。 二十几年前 (1785 年), 拉普拉斯曾经发表《关于极大数函数的近似表达》(法文: Mémoire sur les approximations des formules qui sont fonctions de très grand nombres), 首次证明一个概率论的重要定理, 也就是后来所谓的 “中心极限定理”。 所以当他读到《天体运动论》中的等式, 也就是式 (28.6) 时, 一眼就看出它在概率论中的重要意义。 1810 年 4 月 9 日, 拉普拉斯在法国皇家科学院会议上宣读了一篇论文《关于极大数的函数的近似表达的附加说明》(法文: Supplement au mémoire sur les approximations des formules qui sont fonctions de très-grands nombres)。 这是拉普拉斯对自己 1785 年研究结果的附加说明。 文章对式 (28.6) 从误差分析和概率论的角度进行了系统的推导。 在推导过程中, 他采用的还是我们在第二十七章介绍的概率计算的“基本原则”。
1812 年, 拉普拉斯发表了著名的《分析概率论》(法文: Théorie analytique des probabilités)。 书中, 拉普拉斯再次讨论了式 (28.6) 和中心极限定理。 我们在上篇里面讲到, 雅各布 · 伯努利已经初步证明了著名的大数定律。 根据这个定律, 如果把一个实验 (比如检查一枚硬币出现正面或反面的次数) 重复很多次, 那么实验结果的平均值就越来越接近该实验特有的期待值 (比如正反面出现的机会相等)。 这个定律适用于相互独立而且具有同样分布的随机变量, 英文叫做 Independent and identically distributed random variables。 这个名称太绕口了, 人们把它简称为 i.i.d. 随机变量, 中文简称为 “独立同分布” 变量。 拉普拉斯证明, 对于 个独立同分布的测量值 , 来说, 在 是很大的情况下, 取这些测量值的平均值 , 那么 就满足分布 (28.6), 也就是
其中 是实验的期望值。 的平均值等于零, 而它的方差等于 。
由于拉普拉斯的重要贡献, 现在式 (28.7) 也被称为拉普拉斯 - 高斯分布。 有一段时间, 式 (28.7) 也被称为拉普拉斯第二类误差分布, 同第二十七章中的式 (27.7) 成为一对。
拉普拉斯 - 高斯分布起初还是没有引起人们的注意, 直到进入 19 世纪。 最先注意到这个分布的是统计学家和人类学家, 比如比利时学者凯特雷 (Lambert Adolphe Jacques Quetelet, 1796-1874)。 凯特雷的母语是法语, 早期从事天文学工作, 所以对拉普拉斯和高斯的工作比较熟悉。 后来他转入社会科学, 利用统计学研究人的成长规律。 由于熟悉科学方法并具有坚实的数学和概率统计学基础, 凯特雷开创了社会科学的统计学, 被称为 “近代统计学之父”。 凯特雷注意到苏格兰《爱丁堡医学与手术期刊》(Edinburgh Medical and Surgical Journal) 在 1817 年登载的对 5000 多名苏格兰士兵胸围的测量数据, 发现这组数据遵从拉普拉斯-高斯分布。 从这类数据的统计学分析出发, 凯特雷提出 “平均人”(Average man)的概念, 企图把人的物理参数(身高、体重、 肩宽、臂长等等)框入一个标准的框架。 我们今天观察男女初生婴儿发育状况所采用的身高和体重指标也是他的发明, 对于婴儿早期的护理很有帮助。 但这种罔顾个体差异的平均是一把双刃剑, 对于偏离标准的人们来说, 过分强调这个标准有可能造成对他们的歧视。 其实如果仔细分析人类学、社会学数据的话, 就会发现, 这些数据并不完全与所谓的 “正态” 分布相吻合, 它们只是在某种程度上近似而已, 而且社会学数据常常会受到采样偏差的影响。 凯特雷一生利用统计学研究犯罪率、结婚率、自杀率等, 企图从中找出社会学的规律, 著作等身。
再比如高尔顿 (Francis Galton, 1822-1911)。 高尔顿是英国维多利亚时代著名的博学家, 他研究人类学、心理学、遗传学、气象学和统计学, 到热带地区去探险, 还是优生学的创始人。 是他第一次在统计学里引入相关系数的概念, 我们在后面将会谈到。 高尔顿注意到钟形曲线的神奇之处, 他说:
“我不知道还有什么能像误差频率分布法则这样激发人们想象宇宙秩序的奇妙形式。 ”
的确, 无论是自然界还是人类社会, 越是混沌无序的过程, 似乎越是遵循这个分布法则。 高尔顿因此称它为 “无理之中的最高法则” (The supreme law of unreason)。 为了研究这个分布法则, 高尔顿甚至设计了一种游戏装置, 叫做撒豆机, 后人称为高尔顿板。 这是一块竖直放置的板, 板的下端有 排位置交错排列的小柱体 (图 28.3), 上端有一片空区 (图 28.3 中标有 的区域)。 两端相连之处有隔板。 先把高尔顿板平放, 把许许多多小球放入 A 区, 在整个板面上盖上一块玻璃。 然后把高尔顿板转成与地面垂直, 让小球从 A 区自

图28.3 左图是高尔顿设计的若干“撒豆机”的一种。 右图是现代教学演示用的实物。 注意每一层柱体的位置正好处在上下相邻的两层柱体正中。 当小球下落时, 必须经过 下方类似漏斗形状的管道, 使所有小球都从撒豆机的中间下落。 由下落, 每当小球碰到一个小柱体, 就会随机地向左或向右落下, 然后碰到下一层的小柱体, 再随机向左或向右落下。 最终, 小球会落至板下端的某个格子里面。 如果每个小球撞击柱体后向右落下的概率等于 , 那么向左落下的概率就是 。 从上篇古典概率的知识我们知道, 小球落入第 层格子的概率是一个二项分布 。 当大量的小球落到高尔顿板的底部时, 小球的分布就近似于钟形曲线。 这是棣莫弗近似的直观表达, 也是中心极限定理最直接的实验演示。
到了 20 世纪, 人们开始充分意识到式 (28.7) 的重要意义。 1920 年, 瑞士苏黎世联邦理工学院的匈牙利裔教授波利亚(George Pólya, 1887-1985)在德文刊物《数学期刊》(Mathematical Journal)上发表了《论概率计算的中心极限理论与矩的问题》(On the central limit theorem of probability calculation and the problem of moments), 首次把拉普拉斯的理论称为 “中心极限理论”。 这个名称的意思是, 误差的变化是有范围的, 或者说是有极限的, 而这个范围由拉普拉斯-高斯分布所限定, 因此称之为极限理论。 而所谓中心, 其实并非指曲线的中心, 而是 “核心” 的意思。 也就是说, 拉普拉斯-高斯分布是如此重要, 它成为整个误差理论的核心。 波利亚后来移民到美国, 在斯坦福大学任教。 他在概率界的影响使得 “中心极限理论” 这个名字被广泛接受, 这个分布也称 “正态分布”。 这个名称是在 1870 年代由三位科学家在美国、英国、德国不约而同地叫出来的。 英文 normal 这个词, 在日常用语里是 “正常” 的意思。 这个名称似乎暗示说, 所有不同于拉普拉斯 - 高斯分布的分布曲线都不正常, 属于异常分布, 这其实是不正确的。
现在, 不妨把第二十七章中的式 (27.6) 和本章的式 (28.7) 做一个比较 (图 28.4)。 拉普拉斯分布, 也就是式 (27.6), 现在称为第一类拉普拉斯误差曲线, 其中心峰既高又窄 (图 28.4a)。 式 (28.7), 也就是第二类拉普拉斯误差曲线, 其中心处虽然较为低矮 “肥胖”, 但是在远离中心峰的地方的 “尾巴” 比第一类曲线要低 (图 28.4b, c)。 有一种解释认为, 可以把第一类曲线看成是若干个第二类曲线的组合。 换句话说, 如果一组数据的误差变化较大, 由若干个分组构成, 每个分组内的数据误差大致可以式 (28.7) 来表示, 具有自己的特征方差 , 而且不同分组数据的方差不同, 那么第一类分布曲线能更好地描述这组数据的误差分布。 第一类曲线的弱点在于曲线在极大值的斜率不连续。 从图 28.4a 我们可以看到, 从 逼近 点的斜率是一个很大的正值, 而从 逼近 点的斜率是一个绝对值很大的负值。 换句话说, 曲线的导数不是连续函数, 这给利用数学方法分析这类曲线带来一些困难。

图28.4 比较拉普拉斯误差分布曲线 (蓝色) 与拉普拉斯-高斯分布曲线 (红色)。 注意蓝色曲线高而尖锐的中间部分 (a) 和低而宽的 “尾巴” (b) 和 (c)。
根据数据本身的特性, 第一类和第二类误差分布曲线各有自己的长处。 第一类误差分布最终收敛到数据期望的中位值, 而第二类误差分布收敛到期望的平均值。 有人认为, 对于很多经济学数据和社会学数据来说, 拉普拉斯第一类误差曲线比拉普拉斯-高斯曲线更为适用。
那么, 究竟怎样从拉普拉斯-高斯分布导出最小二乘法呢? 另外, 高斯也没有想到, 他的《天体运动论》会给自己招来很大的麻烦, 而原因也正是他的最小二乘法。 这些故事, 我们放到下一章来讲。
本章主要参考文献
Gauss, C. F. Theory of the Motion of the Heavenly Bodies Moving about the Sun in Conic Sections. English translation by C. H. Davis. Boston: Little, Brown and Company, 1857: 414.
Hald, A. A History of Parametric Statistical Inference from Bernoulli to Fisher, 1713 to 1935. Department of Applied Mathematics and Statistics, University of Copenhagen, 2004: 200.
Le Cam, L. The Central Limit Theorem. Statistical Science, 1986: 1: 78-96.
Laplace, S. P. Supplement au mémoire sur les approximations des formules qui sont fonctions de très-grands nombres. Mém. l’Institut, 353-415, 1809 (1810). English translation by Richard J. Pulskamp, Department of Mathematics & Computer Science. Cincinnati: Xavier University, 2010.
Stahl, S. The Evolution of the Normal Distribution. Mathematics Magazine, 2006, 79: 96-113.
Stigler, S. M. Gauss and the invention of least squares. The Annals of Statistics, 1981, 9: 465-474.
Stigler, S. M. The History of Statistics: The Measurement of Uncertainty before 1900. Cambridge, Mass.: Belknap Press of Harvard University, 1986: 398.
Teets, D. and K. Whitehead. The Discovery of Ceres: How Gauss Became Famous. Mathematics Magazine, 1999, 72: 83-93.