第二十九章 最小二乘法的发明权
高斯在《天体运动论》里给出从误差曲线导出最小二乘法的具体方法。 仍然假设对一个物理量有 个测量值 , 每一个测量值 相对于物理量的真实值 的误差是 。 根据前一章的式 (28.1) 和 (28.6), 所有这些误差的总概率密度是
显然, 测量值相对于物理量的最佳拟合结果是要使这个概率密度达到最大值, 也就是使 指数上的 达到最小值。 对于有一点微积分基础的读者来说, 寻求 最小值的工作很简单。 假设 是我们想要找到的最接近 的值 (也就是说, 是 的最大似然值), 我们暂且用 来代替 , 令 , 并把它代入 。 为了方便起见, 我们给它取个名字叫 :
这个式子最右端的求和符号内所有的项都大于或等于零, 而且在 最接近于 的时候式(29.2)取最小值。 此时的 值满足
也就是
到这里, 我们回到了前一章里提到的高斯的第三个假定, 就是, 物理量的真实值的最大似然值是观测数据的代数平均值。
在以上的分析中, 我们假定所有 个测量值的误差具有从统计学角度来看同样的性质, 对结果的影响相等, 这就是著名的 “最小二乘法” 最简单的形式。 高斯在同一部书里说, 很容易把这个原理推广到不同测量值具有不同精确度的情况, 因为对每一个测量值来说, 反映的就是它的精度。 在这种情况下, 式 (29.1) 变成
然后, 采用跟从式 (29.2) 到式 (29.4) 类似的步骤, 就得到
在式 (29.6) 里, 每一个测量值 对应着一个参数 , 它跟 在所有测量值当中的相对精度有关, 代表这个测量值在我们寻求真实值过程中的权重。 高斯在讨论了最小二乘法的原理之后说:
“我们从 1795 年起就一直利用这个原理来分析数据。 1805 年, 勒让德在巴黎发表了《确定彗星轨道的新方法》(法文: Nouvelles methodes pour la determination des orbites des cometes), 并在文中解释了这个原理的若干性质。 为了简便起见, 这些细节此处从略。 ”
法国著名数学家勒让德 (Adrien-Marie Legendre, 1752-1833) 读到了《天体运动论》里的这段话, 勃然大怒。
勒让德 (图 29.1) 在统计学、数论、抽象代数和数学分析上都做出过卓越的贡献。 他是椭圆积分理论的奠基人, 在天体力学和测地线理论方面的工作也令人瞩目。 在几何学里, 他把欧几里得《几何原理》中的定理按照逻辑重新排列, 成为历史上最为成功的几何学教材。 在 18 世纪后期到 19 世纪初期, 法国的数学界连续出现过三位著名人物:拉格朗日、拉普拉斯和勒让德。 由于这三位的姓氏的第一个字母都是 “L”, 又生活在同一时代, 所以人们称他们为 “三 L”。
勒让德又是一个特立独行、极富尊严的绅士。 法国大革命期间, 他由于观点不同, 不得不隐居, 直到 1795 年以后才恢复研究工作。 那一年法国皇家科学院改名为法兰西科学与艺术学会。 1824 年, 改为君主立宪制的法国政府推荐一位科学家进入
图29.1 亚德利安·勒让德。 这幅水彩画是目前唯一确认无疑的勒让德肖像, 由法国艺术家博瓦依 (Julien-Léopold Boilly, 1796-1874) 作于 1820 年, 也就是勒让德 68 岁的时候。 法兰西学会。 这是个极高的荣誉, 但勒让德反对。 他仍然坚持自己的意见, 甚至在波旁王朝取消了他的年金以后, 仍不让步。 图 29.1 这幅肖像极为传神地画出了他的个性。 他也不是为了宣传自己的研究成果而忽视别人贡献的人。 比如, 他曾经在一篇文章的末尾如此评论道:

“在本文结束之前, 我必须提及, 本文提出的定理的很大部分已经被欧拉在他的《彼得堡新备忘录》第七卷以及其他著作中发现了。 对于这个事实, 在我开始此项研究之前一无所知。 ”
1826 年, 在他刚刚出版了两卷本《椭圆函数论》之后, 两位年轻的数学家阿贝尔 (Niels Henrik Abel, 1802-1829) 和雅可比 (Carl Gustav Jacob Jacobi, 1804-1851) 改进了他的理论。 他很高兴看到这些结果, 并马上把这两个人的发现编入第三卷《椭圆函数论》出版。
勒让德的最小二乘法出现在他在 1805 年发表的《确定彗星轨道的新方法》的附录里面。 他论证说, 对于处理大量观测数据, 从中确定物理量的真实值可以有许多方法, 但是最广泛、最精确、最容易的方法是把误差平方之和最小化。 实际上, “最小二乘法” (Least squares) 这个名字就是勒让德发明的。 他的思路就是从式(29.2)到 (29.4), 然后推广到不止一个变量 , 而是任意个变量 , 等等。 不过他并没有给出式 (29.2) 的理论根据。 从这一点来看, 高斯的理论要完整多了。
勒让德研究最小二乘法主要是为了通过天文观测数据确定星体的运行轨道。 1793 年, 法国大革命正值最高峰, 第一共和国政府责成法兰西学会 (也就是以前的皇家科学院)改革单位制。 负责单位制改革的委员会里包括3L里面的两位(拉格朗日和拉普拉斯)以及前皇家学会秘书孔多塞。 摆动周期为 2 秒的单摆曾经是新长度单位米的最热门的选择, 可是由于它随地球纬度而变化, 委员会最终选择了一个大到不能再大的自然物体来定义长度单位:地球本身。 拉普拉斯建议把新的长度单位称为米。 这个建议得到大家的支持, 定义地球从赤道沿巴黎子午线到达北极的长度, 也就是地球等经度长度的四分之一, 为 1 万千米。
勒让德恢复工作以后, 参加了计算巴黎子午线长度的研究。 到了 1798 年, 他从繁杂的测量数据中导出一套数目极大的方程, 并指出极有必要 “平衡” 数据中的误差。 1805 年, 在撰写《确定彗星轨道的新方法》的时候, 他摒弃了之前的方法, 改用最小二乘法。 勒让德还用最小二乘法分析了第二十七章里表 27.2 给出的子午线测量数据, 得到了跟拉普拉斯一致的结果。
勒让德对高斯的不满, 是因为科学界对发现权和发明权有一个原则, 那就是以出版日期为准。 他在得到高斯的著作以后, 马上写信给高斯 (1809年5月), 明确指出自己不满之处:
“不可能有一种新发现, 一个人先说是自己的, 同时又说它在几年前已经被别人发现了。 如果他无法提供自己发表过这个发现的证据, 他的宣称就是没有意义的, 而只能伤害真正的发现者。 ……先生您已经有足够的宝藏了, 没有必要再嫉妒别人。 ”
勒让德最后的语气显然具有强烈的调侃和讽刺意味。 高斯觉得很委屈。 自己十七八岁时就发现了这个方法, 而且一直在处理天文学问题时使用它, 为什么不能把这个事实公布于世呢?
现代科学史研究认为, 高斯确实在还没有进入哥廷根大学的时候就开始研读德国天文学家迈耶(Tobias Mayer, 1723-1762)关于月球轨道的数值分析方法, 并从中得到启发, 想到了最小二乘法。 在高斯同扎赫的通信当中, 我们看到, 他经常使用一种方法分析别人发表在科学期刊上的数据, 甚至指出数据在印刷过程中出现的错误。 只是他没有讲明自己的方法是什么。 高斯一直认为这个方法太简单了, 迈耶肯定已经知道, 因此觉得没有必要总结出来发表。 他的朋友和同事都知道高斯这个观点。 在迈耶临近生命的末年, 高斯得到几页迈耶的手稿, 发现其中错误多多, 这才意识到, 迈耶不可能发现这个方法。 这对高斯来说是一件很失望的事, 因为他一直很崇拜迈耶。
两个异常珍惜自己羽毛的大数学家为此争论了一辈子。 高斯曾经请几位朋友, 尤其是奥伯斯来作证, 证明自己确实很早就使用这个方法。 勒让德死后, 高斯仍然对这件事耿耿于怀, 一旦有机会, 一定会对同事和朋友唠叨, 说自己 “真的” 很早就发现它了! 30 年后的 1839 年, 62 岁的高斯在给青年天才阿贝尔的信中还在唠叨这个问题, 不过已经没有早期的那种急迫感和危机感了。
实际上, 拉普拉斯在 1820 年就已经把这件事说得很客观清晰:
“勒让德先生得到了一个简单的想法, 考虑误差平方之和, 并取其极小值。 这个想法直接给出许多我们最终使用的方程, 其中需要一些修正。 这位数学家是第一位将这个结果发表的, 但是高斯在这个结果发表之前已经有了相同的想法, 一直在使用, 并且同若干位天文学家讨论过这个方法。 ”
若干年后, 英国数学家德摩根 (Augustus De Morgan, 1806-1871) 也加入争论, 宣称最小二乘法起源于英国人蔻茨。 德摩根指出, 第二十七章里的式 (27.1) 在形式上跟式(29.6)相同。 由此他推论说, 蔻茨的式(27.1)是从误差平方之和求微分取极小值得到的。 但我们从蔻茨的原文里知道 (见第二十七章), 他的思路跟最小二乘法实际上很不相同。
在这些早期的分析中, 高斯的结果最为完整, 但是高斯的推导有个逻辑问题。 他先假定算术平均最能代表测量物理量的真实值 (现代的术语叫做最大似然值), 推出误差服从式 (29.6) 的分布;然后反过来, 从式 (29.6) 出发, 再证明自己的假定, 也就是算术平均最能代表测量物理量的真实值。 其实, 高斯的概率分析从拉普拉斯的基本定理出发, 而那个定理属于贝叶斯概率体系的一部分。 他似乎是把前置概率和后期概率混淆了。
还记得第二十章的介绍吗? 根据贝叶斯概率, 如果 是一个观测事件 (当时讲的是射出的红箭, 这里是对一个物理量的观测), 是我们要寻找的物理量的真实值 (那里讲的是那支黑箭), 是该物理量的概率分布 (在那里我们的第一个前置概率分布假定红箭是随机分布的; 在这里我们对真实值有一个大致的估计, 比如测量值代数平均值), 是该物理量测量值的概率分布, 贝叶斯概率告诉我们, 通过观测值, 可以估计真实值的概率 , 因为
这个公式给了我们一个理论根据, 可以从物理量的测量值的概率分析 来反推由测量值反映的真实物理量的可信度, 也就是概率 。 也正是如此, 我们才可以从测量值的误差的概率密度式 (29.1) 来限定物理量的真实值。 拉普拉斯说, 如果误差的分布满足拉普拉斯-高斯分布 (也就是前置概率), 那么后期概率 (物理量的真实值的概率) 也满足这个分布, 所以最小二乘法是我的理论的一个特例。 进一步, 如果误差分布的方差是有限的但是未知, 那么中心极限理论证明, 这个方法在测量值数量很大的情况下是适用的。 拉普拉斯的理论给了高斯的结果以强有力的支持。 不仅如此, 我们还可以靠不断地增加观测值的办法来改进对真实值的可信度。 这里, 分母 的具体形式不重要, 可以通过对式 (29.7) 左边的概率分布总体归一来得到。
贝叶斯只分析了式 (29.7) 的一个特例。 我们知道, 式 (29.1) 的函数形式来自中心极限定理, 拉普拉斯在 1810 年第一次对式 (29.7)(现在称为贝叶斯原理) 进行了系统的分析。 可是, 他的分析仍然包括了很多假定。 这些假定被后人一个一个地除掉, 直到 1900 年, 一位名叫李雅普诺夫的俄国人严格地证明了式 (29.7)。 据说他的证明是严格按照拉普拉斯的思路进行的。 同年, 他的同胞马尔可夫 (Andrey Andreyevich Markov, 1856-1922) 又把随机变量之间必须完全相互无关这个假设拿掉了。
但是从 1811 年起, 拉普拉斯开始偏离贝叶斯概率, 从古典概率的角度去考虑最小二乘法。 1812年, 他发表了著名的《概率分析理论》(法文: Théorie Analytique des Probabilités; 英文: Analytical Theory of Probability)。 这部里程碑式的巨著包含了到 1811 年为止所有的概率理论, 无论是古典概率还是贝叶斯概率; 处理的问题也各式各样, 从传统的赌博游戏, 到人口统计甚至法庭诉讼, 总之几乎把我们在本书前面介绍的内容都包括在内了。 其中有一个章节, 拉普拉斯专门讨论大量观测数据和微小误差的科学分析问题。 他利用傅里叶变换和自己的中心极限定理导出了最小二乘法。 不仅解决了一个变量的最小二乘法, 他还给出了处理多个变量的最小二乘法。
比拉普拉斯小28岁的高斯受到前者极大的影响, 他为最小二乘法提出的第一个证明依据的是拉普拉斯 1774 年的概率反演理论。 拉普拉斯在证明了中心极限理论以后, 改用古典概率的频率主义方法来分析最小二乘法, 高斯也很快改弦更张。
高斯是个独往独来的人, 在纯数学领域很少与人合作, 也没有耐心给别人解释自己的想法。 他有一本数学日记, 里面写满了新的结果和想法, 证明尚不完美, 他不想过早发表。 不过在应用数学上他倒是经常同天文学家、大地测量学家、物理学家合作。 除了对数据进行数值和统计分析之外, 他还做了大量的观测工作甚至物理实验。 从 1818 年起, 他参与了汉诺威的大地三角测量工作, 每年夏天去野外测量, 连续8 年。 正是这些实地测量工作导致他在 1820 年代发表了他的最小二乘法的第二种版本。 在这个版本里, 高斯试图解决数据量较少情况下的误差分析问题。 他把这类情况同古典概率里的赌博游戏来比较, 认为这个问题类似于一种赌博游戏, 赌客完全不可能赢, 只能尽量减少输的机会。 他假定, 把损失最小化等同于数值分析中的取正值的误差和取负值的误差幅度相等。 这个假定在适当选择损失函数的情况下可以满足, 损失函数或者正比于所有误差绝对值之和, 或者正比于所有误差的 次幂之和, 而 是个正的偶数。 选择 就导出最小二乘法。
高斯还指出, 在应用最小二乘法时, 没有必要事先知道精度参数 。 事实上, 结果的精确度与观测数据之间的关系同 无关, 但是 的数值对了解数据的质量有帮助。 他采用了若干种方法来确定 , 对误差的 次方求和, 其中 , 然后对这个和求 次方根。 他发现, 对于误差满足正态分布的数据来说, 给出最佳的结果, 也就是最小的 值。
拉普拉斯和高斯的后期工作逐渐成为概率论的主流, 也就是所谓的频率派。 到了 19 世纪末, 贝叶斯的理论遭到多数统计学家的攻击, 几乎彻底销声匿迹, 直到二次大战时期才开始复苏。 不过这是后面的故事了。
本章主要参考文献
Gauss, C. F. Theory of the Motion of the Heavenly Bodies Moving about the Sun in Conic Sections. English translation by C. H. Davis. Boston: Little, Brown and Company, 1857: 414.
Hald, A. A History of Parametric Statistical Inference from Bernoulli to Fisher, 1713 to 1935. Department of Applied Mathematics and Statistics. University of Copenhagen, 2004: 200.
Harter, W. L. The method of least squares and some alternatives: Part I. International Statistical Review, 1974, 42: 147-174.
Legendre, A.-M. On Least Squares. English translation by H. A. Ruger and M. M. Walker, in A Source Book in Mathematics, Edited by D. E. Smith. New York: McGraw Hill Book Company, Inc., 1929: 576-579.
Plackett, R.L. Studies in the History of Probability and Statistics. XXIX: The Discovery of the Method of Least Squares. Biometrika, 1972, 59: 239-251.
Sheynin, O. C. F. Gauss and the method of least squares. ŚLASKI PRZEGL4D STATYSTYCZNY (Silesian Statistical Review), 1999, 12: 9-37.
Stigler, S. M. Gauss and the invention of least squares. The Annals of Statistics, 1981, 9: 465-474.
Zabell, S. L. De Morgan and Laplace: A tale of two cities. Electronic Journal for History of Probability and Statistics, 2012, 8: 1-29.