第三十二章另一位种豆人和他的学生

在本书的引子里，我们讲到孟德尔在 1855 年前后通过豌豆来研究生物遗传因子的故事。在英国，也有人做这方面的研究，其中一位就是我们在前面提到的高尔顿。

早年在英国有一位著名的医生、诗人兼发明家，名叫伊拉斯谟斯·达尔文 (Erasmus Darwin， 1731-1802)。他结过两次婚，生下 14 个孩子。第一个婚姻里生了 4 个儿子和3个女儿 (3个是婚外情的产物)，老三是《物种起源》的作者、演化论之父查尔斯·罗伯特·达尔文(Charles Robert Darwin， 1809-1882)的父亲；第二个婚姻又生了 4 个儿子和 3 个女儿，大女儿后来成为高尔顿的母亲。达尔文和高尔顿这表兄弟俩虽然都没有见过自己的祖父/外祖父，但很可能都继承了他的高智商。

高尔顿与孟德尔同岁，但是由于兴趣过于广泛，在生物遗传方面的研究比孟德尔晚了几年。 30岁以前，高尔顿的主要兴趣是探险。进入剑桥大学以前，他曾经只身横穿东欧，抵达君士坦丁堡。 23、24岁时，又到非洲探险，从埃及沿尼罗河而上，进入苏丹，再到贝鲁特、大马士革，最后折回约旦。表哥达尔文的《物种起源》发表时 (1859 年)，高尔顿已经 37 岁了。他读到第一章 “家养下的变异”，一下子关心起人的遗传问题来。后来他说，表哥的研究改变了自己的生命进程。高尔顿想出一个办法来研究人的素质的遗传问题。他认为，如果素质是遗传的，那么杰出人士的亲戚当中的知名人士应该比普通人中出露头角的人要多。为了检验这一点，他以颁发奖金的方式收集名人传记和家庭记录，从这些传记中获得广泛的数据，再用不同的方式将统计数据制表并进行比较，计算有名的杰出男性的亲戚当中的杰出人物。 1869 年，也就是《物种起源》发表 10 年后，高尔顿在《遗传的天才》中详细描述了自己的研究结果。他用传记的数据说明，从直系亲属到第二级的亲属，再从第二级到更远一些的第三级亲戚，杰出人物出现的数量逐级下降。他把这个统计结果归结为素质传承的证据。

这样的研究显然存在很多问题。传记、名人录等的记录不可能很完整，数据存在不少缺陷和漏洞。更重要的是，它完全排除了后天环境的影响。实际上，一个衣食无忧而且具有深厚教育背景的家庭，同贫困、缺乏教育、整天为温饱而奔劳的家庭对后代的影响显然是很不一样的。高尔顿知道自己研究结果的局限性，于是引入 “相关性” 的概念。比如 $A$ 不是造成现象 $X$ 的唯一原因，但 $A$ 促成了 $X$ 的产生。 $X$ 的发生可能是由几个、也许很多原因如 $B 、 C 、 D 、 E$ 等造成的，其中有些原因我们不了解，或许永远也不能完全了解。我们无法通过数学分析把这些其他原因的影响排除在外，但可以把 $A$ 对 $X$ 的影响做定量的分析，再比较 $B 、 C 、 D 、 E$ 等对 $X$ 的影响，以此来评估 $A$ 造成 $X$ 的程度有多大。这种分析给出 $A$ 与 $X$ 之间的 “部分因果关系”，也就是相关性。

高尔顿的相关性概念对科学研究产生了深远的影响。在遗传学里，父系和母系的因子都不可能完全决定下一代的素质和外观。父亲和母亲的上一代的影响也很重要，环境的影响同样不可忽视。遗传是很多因素综合在一起的总体效应。相关性不能代表因果性，但是不同原因 $A 、 B 、 C 、 D 、 E$ 等对结果 $X$ 的相关程度确实更能帮助我们理解复杂现象发生的主要原因。

传统物理学分析 $A$ 与 $X$ 之间因果关系的过程建立在一个重要的基本假定上面，那就是在诸多可能的原因 $A 、 B 、 C 、 D 、 E$ 等当中， $A$ 与 $X$ 之间存在最大的相关性。高尔顿的学生皮尔逊后来在为高尔顿作传记的时候说，老师的相关性概念对物理科学也产生了深刻的影响，使得物理学中的因果概念 “碎如齑粉” (crumble to pieces)。这就未免有点夸大其词了。很多物理研究是可以通过实验控制把不同的影响因素尽可能地分离开来的。当然，相关性确实为物理学和其他自然科学提供了研究因果联系的新思路和新手段。

孟德尔报告了豌豆实验之后 20 年，他的研究结果仍然默默无闻，而此时高尔顿则开始研究甜豆了。高尔顿研究甜豆是迫不得已，他真正感兴趣的是人的遗传，但是在花费大量时间和精力仍然收集不到足够的数据之后，他只好转向甜豆。 1875 年，高尔顿选择了一批甜豆种子，把它们分成 7 份，每一份里面的豆粒大小 (直径) 一样，但 7 份豆种的直径不同。他把这 7 份种子分别寄给 7 位朋友，请他们种植甜豆。这些朋友收获了第二代豆子以后，寄回给高尔顿。高尔顿在后来的文章里分析并报告了这个实验结果。报告里每份第二代的豆粒都是 100 粒。表 32.1 是他报告的甜豆豆粒直径的数据，这里，直径的单位是百分之一英寸，也就是 0.254 毫米。注意，虽然对应每一份豆种的直径只有一个子豆粒的直径，但那是 100 颗豆粒测量的平均值，我们用 $y_{i}$ 来表示。子豆直径的变化范围在表中第四列。

高尔顿把结果画成图，如图 32.1 所示。豆种的颗粒变化范围较大，从 15 到 21，而子豆平均直径的变化范围要小很多，从 15.61 到 17.5。如果对豆种和子豆的颗粒分别作平均，全部种豆颗粒的平均直径是 18，而全部子豆颗粒的平均直径是 16.33，这相当于图 32.1 中间垂直的和水平的虚线。

表 32.1 高尔顿测量的甜豆直径的实验数据

豆种的直径， ${x}_{i}$	子豆的平均直径， ${y}_{i}$	每组子豆的数目	子豆直径的实际变化范围	子豆直径的预测值， ${\widehat{y}}_{i}$
15	15.612 44	100	13.77—19.77	15.402
16	16	100	14.28—20.28	15.711
17	15.6	100	13.92—19.92	16.021
18	16.3	100	14.35—20.35	16.330
19	16	100	14.07—22.07	16.639
20	17.3	100	14.66—22.66	16.949
21	17.5	100	14.67—22.67	17.258

INHERITANCE IN SIZE or SWEET PEA SEEDS.

01952687-d372-7abb-afcb-1fdad5b56c54_328_321_824_961_642_0.jpg

图32.1 高尔顿通过甜豆实验做出的两代甜豆果实颗粒直径的关系。这是高尔顿 1877 年在皇家研究院 (Royal Institution) 讲座中展示的，后来被皮尔逊放在他为高尔顿所作的传记《高尔顿的生活、文字和工作》(Life， Letters， and Labours of Francis Galton) 里。图上方的标题是: 甜豆粒大小的传承。横轴是种豆的直径，纵轴为子豆的直径 (单位为百分之一英寸)。横向和纵向的两条虚线给出母豆与子豆的平均直径。黑实线是对数据作线性拟合得到的，它给出母豆与子豆直径之间的相关系数 $(R)$ 为 0.33。皮尔逊宣称这是科学史上第一条拟合直线。

通过这张图，高尔顿得到了一个重要的结论，就是所谓 “向均数回归” (Regression to the mean)。简单地说，如果把豆子看成是人，比人均身高要高的父母的子女成长起来，他们的身高倾向于比父母要矮; 而比平均身高要矮的父母的子女的身高则倾向于比父母要高。换句话说，后代的身高在总体上倾向于人的平均身高。子豆直径的平均值落在 16.33，同个体豆子颗粒直径变化的范围比起来，这个值非常接近豆种的平均值 18。实际上，豆种直径的平均值大于子豆，很可能是高尔顿选择豆种时无意中选取了大颗粒的种子，并不代表真实的豆种平均直径。在现实情况中，豆种直径的变化范围应该同子豆没有太大区别。 “向均数回归” 的意义是，对于很多变量来说，自然过程是一种 “衰阻” 过程: 它不鼓励极端现象的出现，而总是倾向于把个体变化拉向平均值。

从统计学角度来看，向均数回归是说有些现象暂时偏离了正态分布的中心值 (也就是均数)，当这些现象重复出现的时候，它们更倾向于回到接近中心值位置。比如一个球星在某年度表现特别出色，得到最佳球员奖。除非这位球员真的是个杰出的天才，否则下一年他很可能就没有那么出色了。广大观众可能很失望，但其实这是意料之中的。

在数据变化的范围以内，种豆与子豆的直径之间的关系可以用线性关系来近似 (图 32.1)。假如把表 32.1 中的数据看成每个 $x_{i}$ 对应一个单独的 $y_{i}$ ，那么利用最小二乘法，拟合直线很容易得到。

假定数据满足线性关系

y = a + b x ， (32.1)

那么，对每一对数据 $(x_{i} ， y_{i})$ ，式 (32.1) 都应该近似满足。如果式 (32.1) 中的系数 $a$ 和 $b$ 被确定了，对于每个豆种的直径 $x_{i}$ ，我们都有一个对 $y_{i}$ 的预测值 $y_{i}$ ，满足 $y_{i} = a + b x_{i}$ 。相对的预测误差是

e_{i} = y_{i} - y_{i} . (32.2)

最小二乘法告诉我们，寻求下面这个表达式的最小值:

Q = i = 1 \sum n e_{i}^{2} = i = 1 \sum n [y_{i} - (a + b x_{i})]^{2} ， (32.3)

就可以得到最佳拟合直线。这条最佳拟合直线也叫回归线。 “回归”(regression) 这个词就来自于高尔顿的“向均数回归”概念。

怎样从式 (32.3) 中得到回归线的系数 $a$ 和 $b$ 呢? 根据微分原理，当式 (32.3) 在它关于 $a$ 和 $b$ 的一阶导数等于零的时候取最小值。令式 (32.3) 对 $a$ 的导数等于零，我们得到

\frac{\partial Q}{\partial a} = - 2 i = 1 \sum n (y_{i} - a - b x_{i}) = 0 ， (32.4)

由此我们得到

a = \frac{1}{n} i = 1 \sum n (y_{i} - b x_{i}) = \overset{y}{ˉ} - b \overset{x}{ˉ} ， (32.5)

其中， $\overset{y}{ˉ} = \frac{1}{n} i = 1 \sum n y_{i} ， \overset{x}{ˉ} = \frac{1}{n} i = 1 \sum n x_{i}$ ，是两个变量测量值的代数平均。同理，令式 (32.3) 对 $b$ 的导数等于零，我们得到

\frac{\partial Q}{\partial b} = - 2 i = 1 \sum n (y_{i} - a - b x_{i}) x_{i} = 0 ， (32.6)

再把从式(32.5)得到的 $a$ 值代入式(32.6)，就得到

b = \frac{i = 1 \sum n ( x _{i} - x ˉ ) ( y _{i} - y ˉ )}{i = 1 \sum n ( x _{i} - x ˉ ) ^{2}} ， (32.7)

这样，我们就确定了回归线

y = a^{'} + b x . (32.8)

读者如果熟悉微软的 Excel 的话，可以自己对表 32.1 的数据做一个线性拟合。拟合的结果应该是 $a = 10.761 ， b = 0.3094$ ，外加一个看起来挺奇怪的东西: $R^{2} = 0.7494$ 。我们暂时先不考虑这个 $R^{2}$ ，把注意力放在式 (32.8) 这条直线上。对应于每一个 $x_{i}$ ，通过式 (32.8) 我们可以计算出相应的 $y_{i}$ ，它是对一个给定的豆种直径 $x_{i}$ 我们所期望的子豆的直径。表 32.1 最右边的一列数据就是这样得到的子豆直径的期望值。

高尔顿就是这样得到了图 32.1 中的那条黑实线——科学史上第一条回归线。注意，由于我们在表 32.1 里只给出了每一组子豆的平均直径值，而不是对所有的原始数据采用权重来回归，所以结果跟高尔顿的稍有不同。高尔顿的 $b$ 值 (也就是图 32.1 中的 $R$ ) 是 0.33，而我们得到的是 0.3094。

从以上分析我们知道，回归线一定要穿过 $(\overset{x}{ˉ} ， \overset{y}{ˉ})$ 这个点。这是因为当 $x = \overset{x}{ˉ} ， y =$ $a + b \overset{x}{ˉ}$ ，而根据式 (32.5)， $a = \overset{y}{ˉ} - b \overset{x}{ˉ}$ ，所以 $y = \overset{y}{ˉ}$ 。这就是图 32.1 中水平与垂直虚线相交的那个点。

严格说来，对数据进行简单线性回归的模拟需要满足四个条件，它们是:

在给定的 $x_{i}$ 值下，有多个不同的 $y$ 值，这些 $y$ 值的平均值与 $x_{i}$ 满足线性关系。
所有的误差，定义如式(32.2)，都是相互独立的。
对每个给定的 $x_{i}$ 值，与之相关的 $y$ 值的误差遵从拉普拉斯-高斯分布，也就是正态分布。
对每个给定的 $x_{i}$ 值，与之相关的误差的方差 $(σ^{2})$ 相等。

这四个条件中后两个恐怕不大容易理解，我们用图 32.2 来说明。对应于每一个给定的 $x$ 值，有 $m$ 个 $y$ 值，它们的分布大致满足拉普拉斯-高斯的钟形分布 (也就是图 32.2 中的那个正态分布)。这样的分布要求对应于一个给定的 $x$ 值，有关的 $y$ 值数据的分布相对于平均值 $\overset{y}{ˉ}$ 对称，而且在 $\overset{y}{ˉ}$ 附近数据出现的概率最高; 距离 $\overset{y}{ˉ}$ 越远，数据出现的概率越低。与这个分布对应的是方差 $σ^{2}$ 。条件 4 要求，对应于所有 $x$ 值的 $y$ 值数据分布具有相同的方差，这样的要求在实际数据当中是很难达到的。

这四个条件，线性(Linear)、相互独立(Independent)、正态分布(Normal distribution)、等方差 (Equal variance)，它们英文的第一个字母正好构成英文单词LINE (线)，这就是我们要找的回归线。记住这个单词，也就记住了这四个条件。

01952687-d372-7abb-afcb-1fdad5b56c54_331_304_1274_615_424_0.jpg

图 32.2 关于线性回归的第三个条件的示意图。对应于每一个给定的 $x$ 值， $m$ 个 $y$ 值的分布基本满足拉普拉斯-高斯的钟形 (正态) 分布。

应该指出的是，高尔顿的数据虽然对应每个 $x_{i}$ 有 100 个 $y$ 的数据点，但这 100 个数据点并不满足正态分布，也就是第 3 条，因此也就不满足第 4 条。虽然图 32.1 中黑实线所显示的趋势看起来同数据吻合得挺好，但还不能说明这条回归线能准确表达两代甜豆的直径的变化规律。要想进一步考察这个简单的甜豆生长 “模型” 的可靠性，还需要更进一步的研究。

参考拉普拉斯-高斯误差分布，定义数据的方差为

σ^{2} = \frac{i = 1 \sum n ( y _{i} - y ˉ ) ^{2}}{n - 1} ， (32.9)

其中，分子是对应每个 $x_{i}$ 的所有 $y_{i}$ 值与平均值 $\overset{y}{ˉ}$ 之差的平方和，分母不是 $n$ 而是 $n - 1$ 。 $\overset{y}{ˉ}$ 其实是对拉普拉斯-高斯分布的位置参数 $μ$ 的大致估计 (参见第二十七章)。由于我们不知道这组数据的平均 $μ$ 值，只能用 $\overset{y}{ˉ}$ 来代替它。又因为我们用 $\overset{y}{ˉ}$ 来代替 $μ$ 值，我们的 “自由度” (也就是所有独立变量的数目 $n$ ) 就减少了一个，所以分母不是 $n$ 而是 $n - 1$ 。

表 32.1 的数据包括 7 个子数据组，对应 7 个豆种的直径 $x_{i}$ 。一般情况下，子数据组 (也就是 $x_{i}$ ) 可以有很多个 $(i = 1 ， 2 ， 3 ， \dots ， n)$ 。而对应于一个给定的 $x_{i} ， y$ 值也可以有很多个。注意对应于一个给定的 $x_{i} ， y$ 值的数目 $m$ 一般不等于 $n$ ，而且与 $n$ 无关，所以拥有自己的平均值。在高尔顿的例子里，对应于每一个 $x_{i} ， y$ 的数目都是 $m = 100$ 。我们在表 32.1 里给出的是对应每个 $x_{i}$ 的平均值 $y_{i}$ 。这些平均值可以用来近似对应于每个 $x_{i}$ 的 100 个 $y$ 的 $μ$ 值，也就是 $μ_{i}$ 。在这种情况下，一般是采用均方差 (Mean square error，简写为MSE)来估计误差:

MSE = \frac{i = 1 \sum n ( y _{i} - y _{i} ) ^{2}}{n - 2} ， (32.10)

这个式子跟式 (32.9) 相似，但是分母变成了 $n - 2$ 。这是因为我们又引入了一个新的参数 $y_{i}$ (相对于 $x_{i}$ 的 100 个 $y$ 的平均值)，从效果上，这是用式 (32.8) 里的 $a$ 和 $b$ 两个参数来估计 $μ_{i}$ ，所以在这里 “自由度” 少了两个。

为了考察回归的结果与观测数据的符合程度，让我们再引入几个指标。第一个指标叫 “回归方和” (Regression sum squares，简称 SSR):

SSR = i = 1 \sum n (y_{i} - \overset{y}{ˉ})^{2} ， (32.11)

第二个指标叫“误差方和”，也就是误差之和的平方(Error sum of squares，简称SSE):

SSE = i = 1 \sum n (y_{i} - y_{i})^{2} ， (32.12)

第三个指标叫 “总方和” (Total sum of squares，简称 SSTO):

SSTO = i = 1 \sum n (y_{i} - \overset{y}{ˉ})^{2} ， (32.13)

很容易证明，

SSTO = SSR + SSE . (32.14)

从这些定义出发，描述回归线的著名的 $R^{2}$ 就容易定义了，它是

R^{2} = \frac{SSR}{SSTO} = 1 - \frac{SSE}{SSTO} ， (32.15)

这就是我们前面在使用微软 Excel 做线性回归时得到的 $R^{2}$ 。行文至此，我们总算可以讨论所谓的相关系数了，它的定义是:

R = \pm R^{2} ， (32.16)

这个指标被称为皮尔逊积矩相关系数 (Pearson product-moment correlation coefficient，简称PPMCC)。在图 32.1 中，子豆的直径随着豆种直径的增加而增加，所以两代豆子的直径成正相关，因此 $R$ 值为正，二者之间的关系称为正相关。假如子豆的直径随着豆种直径的增加而减小，那么 $R$ 值就取负值，二者之间的关系称为负相关。根据定义，显然 $- 1 \leq R \leq 1$ 。从我们前面得到的 $R^{2} = 0.7494$ ，我们知道，对于子豆的平均直径来说， $R = 0.8657$ 。这个数值接近于 1，也就是说，两代甜豆之间的直径确实存在一定的正相关关系。

实际上，相关系数的定义最早是法国晶体学家布拉维 (Auguste Bravais， 1811- 1863) 在 1844 年提出的。在科学史上，类似的现象极为普遍，许多做出最早发现的人都没有得到命名的荣誉。

图 32.3 弗朗西斯・高尔顿(右)与卡尔· 皮尔逊的合影。大约摄于 1909 年。

01952687-d372-7abb-afcb-1fdad5b56c54_334_819_246_486_593_0.jpg

这里需要再重复一遍，相关性不等于因果关系。举个例子，某小学对所有一到六年级的学生进行统一作文比赛，又统计了学生们脚上鞋子的尺码。统计的结果发现，学生的鞋子尺码跟作文的分数呈正相关，但这是不是说学生的语文程度跟脚的大小有关呢? 当然不是。真正的原因是，高年级的学生年龄大，多上了几年课，多认了很多字，他们的作文水平当然比低年级同学要高。

皮尔逊是老师高尔顿的忠实信徒 (图 32.3)，坚信研究生物遗传问题只能靠概率统计的方法。他一生致力于扩展概率统计思想，提出了许多新的概念，为现代概率统计的定量化奠定了基础。比如从表 32.1 中的数据来看，豆种和子豆的直径确实有相关性。用现代概率统计语言来说，式 (32.8) 提供了一个两代豆子直径关系的模型: 颗粒较大的豆种结出来的子豆也较大。但是我们前面又强调说，相关性不代表因果性。如何从概率统计的角度来判断这个模型是否成立呢?

为此，皮尔逊提出 “卡方检验” ( $χ$ -square test，又写作 Chi-square test) 的概念。我们不知道两代豆子的大小是否存在因果关系，那么就先假定数据之间任何确定的关系都不存在，这叫做 “零假定” 或 “无假定” (Null hypothesis) 检验。如果通过概率统计分析发现，零假定不能满意地解释两代豆子直径的测量数据，那么至少可以断定它们之间很可能存在某种因果关系。

皮尔逊用观测值与预测值之差的平方来定义卡方:

χ_{n}^{2} = i = 1 \sum n \frac{( O _{i} - E _{i} ) ^{2}}{E _{i}} ， (32.17)

其中 $χ$ 的角标 $n$ 是数据的 “自由度”，简单地说，就是数据的数目， $O_{i}$ 是第 $i$ 个观测数据， $E_{i}$ 是对应于 $O_{i}$ 的预测值。显然，卡方值越小，零假定成立的概率也越小。换句话说，预测值越接近观测值，说明具有相关关系的模型对观测值的描述越精确。所以，一个好的模型应该对应很小的卡方值。实际上，卡方和相关系数这两个指标是有关联的，这可以从 $R^{2}$ 的定义式 (32.15) 看出来。这两个指标的分子都是观测值与某种预测值之差的总和，但是相关系数 $R$ 有个 “归一化” 的分母，使 $- 1 \leq R \leq 1$ ，而卡方则可以取任何正的数值。如果卡方为零，那么预测值就完美地描述了观测值，但这种情况在实际研究中发生的概率小到几乎不存在。

回到表 32.1，其中最右边一列给出的 $y_{i}$ 值就是根据式 (32.8) 回归得到的预测值，左边第二列的 $y_{i}$ 是观测值。从表 32.1 的数据，假定等权重，我们得到一个很小的卡方值 0.000 479。这说明式(32.8)的回规拟合直线 $(a = 10.761 ， b = 0.3094)$ 对观测数据给出了相当不错的描述。这同前面通过相关系数 $R$ 得到的结论一致。

现在我们不妨回到第一章，看看表 1.1 中克里奇硬币实验的结果。我们问，他所用的硬币是公正的吗? 为此，我们先作零假定: 克里奇的硬币不是公正的。首先，一枚硬币只有出现正面 (1) 和反面 (0) 两种情况，对应于式 (32.17) 的 $n = 2$ 。根据表 1.1，在克里奇投了 30 次之后，硬币的正面出现了 17 次，反面出现 13 次，它们是克里奇实验在 $j = 30$ 时的观测值 $O_{i}$ 。而如果克里奇的硬币是公正的，我们期望出现正面和反面的次数是一样的，都等于 15，这是我们的预测值 $E_{i}$ 。根据式 (32.17)，我们便得到

χ_{2}^{2} = \frac{( 17 - 15 ) ^{2}}{15} + \frac{( 13 - 15 ) ^{2}}{15} = 0.533 .

类似的计算，我们可以从投第二次硬币开始，一直做下去。图32.4 给出表 1.1 里面次数编号从 2 到 100 结果的卡方计算。为了比较方便，我们把图 1.3 也包括在这张图里面 (图 32.4a)。从图 32.4b 我们看到，卡方值在次数小于 10 时数值很大，而且随着投掷次数的增加飞快减小，但变化不是单调的。在次数大约为 40 与 60 之间，卡方值接近于 0。这对应着图 32.4a 中出现正反面的次数比非常接近于 0.5。这似乎说明，克里奇的硬币是比较公正的。可是，在投掷次数高于 60 以后，出现正面的比值反而降低了，对应的卡方值也开始增加。根据图 1.4，克里奇投掷硬币的数据要到高于 1000 次以后，出现正面和反面的机会才逐渐相对平稳地接近于相等，那时我们才能期待卡方值平稳地接近于 0。显然在这种分析中，仅仅依靠一个卡方值是不能评估一枚硬币是否公正的。

01952687-d372-7abb-afcb-1fdad5b56c54_336_278_234_618_798_0.jpg

图 32.4 克里奇投币实验的卡方分析。图a是硬币正面出现的次数比 (图 1.3)，图 $b$ 是根据式 (32.17) 得到的每一个次数编号情况下的卡方值。

为了进一步对零假定进行检验，皮尔逊又定义了一个指标，叫做 $p -$ 值 ( $p -$ value; 又称拟合概率值， Probability value)，这个指标是从卡方衍生出来的。他证明，如果观测值与预测值之间的误差遵从拉普拉斯-高斯分布，那么 $p$ -值可以通过下面的式子来计算:

p = \frac{∭ _{χ}^{\infty} e ^{- \frac{1}{2} χ 2} d y _{1} d y _{2} \dots d y _{n}}{∭ _{0}^{\infty} e ^{- \frac{1}{2} χ 2} d y _{1} d y _{2} \dots d y _{n}} . (32.18)

这个式子看上去有点吓人，但实际上很简单。我们讲过，积分符号 $(ʃ =$ 拉长的字母 S) 的意思就是求和。为了简单起见，我们先考虑只有一组 $y$ 值的情况。假设这组数据的误差遵从拉普拉斯-高斯正态分布，如图 32.5 所示，那么，式 (32.18) 分子的积分或求和就是计算在误差绝对值大于一个卡方值 $χ^{2}$ 情况下所有误差之和，这其实就是

01952687-d372-7abb-afcb-1fdad5b56c54_337_309_237_595_404_0.jpg

图 32.5 关于 $p$ -值含义及其计算的示意图。正态分布曲线下面大于某个误差值的面积 (图 32.5 里绿色的区域)。而式 (32.18) 的分母则对应着正态分布曲线在极大值右侧的全部面积。

同理，在存在 $n$ 组数据点的情况下，式 (32.18) 右边的分子表示对 $n$ 组数据点中所有绝对值大于一个给定卡方值 $χ^{2}$ 的误差在正态分布曲线之下的面积，而分母对应于所有正态分布曲线在极大值右侧下面的面积。这两个面积的比值就是零假定在大于一个给定卡方值 $χ^{2}$ 时能否存在的概率。零假定存在的概率越小， $p -$ 值就越小，也就意味着拟合回归得到的结果存在的概率越大。

以上这些指标对后来科学数据统计分析的影响十分巨大。直到今天在许多领域，尤其是在数据量不很大的情况下，仍然是绝大多数研究人员使用的主要工具。

让我们再换一个角度来看看表 1.1 给出的硬币数据。我们把计算得到的硬币正面出现的比值分成若干个小 “格子”，比如 0 到 0.05， 0.051 到 0.1， 0.101 到 0.15，等等，然后把图 1.1 (也就是图 32.4a) 的比值数分别装入这些格子，就得到图 32.6。这张图清楚地显示，绝大多数的比值出现在 0.4 与 0.6 之间。读者大概已经猜到: 如果投币的次数足够多，比值的格子分得足够细，我们就得到一个近似于正态的分布。这个分布到底是不是 “正态” 的？它的中心是不是在 0.5 呢？利用 $p -$ 值来进行检验就可以了。

皮尔逊在 1900 年发表 $p$ - 值的文章时意识到， $p$ - 值的计算步骤相当复杂，于是他建议把在不同 $χ^{2}$ 和自由度 $n$ 数值下的 $p$ -值事先计算出来，制成表格，供研究人员查找。现在有很多软件可以用来直接计算 $p$ -值了。对表 32.1 的数据进行 $p$ -值计算，我们得到 $p = 0.000003$ 。这意味着种豆与子豆颗粒大小之间不存在相关性的概率很小，所以有理由相信，从颗粒较大的种豆收获的子豆颗粒也较大，这正是高尔顿想要寻找的父母的遗传。

01952687-d372-7abb-afcb-1fdad5b56c54_338_386_238_829_569_0.jpg

图 32.6 克里奇投币数据的另一种表达形式: 在界定的比值范围内出现正面相对于反面的比值的次数。

回想第二十八章的图 28.2，它告诉我们，从 $μ$ 值 (也就是正态分布曲线的极大值处) 向两侧扩展到 $\pm 2 σ$ ，这一段分布曲线所涵盖的面积是分布曲线总面积的95.44%，或者说大约 95%。从 $p -$ 值的角度来看，当图 32.4 中的红点落在距离偏离正态分布曲线中线 $2 σ$ 的时候， $p -$ 值等于 0.05。这样，通过 $p -$ 值我们可以建立一个非常方便的评估模型能否成立的判据: 如果 $p < 0.05$ ，说明零假定成立的概率低，也就是说，我们的模型从统计学上说能更好地解释观测数据。这个方法太简便了，皮尔逊建立这个指标 100 年以来，越来越多的人开始误用。这个问题我们后面再讲。

我们已经说明过，表 32.1 对高尔顿的原始数据做了重要的简化，采用平均值来代替真正的观测值。这只是为了用简单的语言来解释概率统计基本概念。为了避免误解，我们用图 32.7 把高尔顿的全部数据都显示出来，你就会发现，高尔顿的结果其实相当复杂。虽然对应一个给定的 $x$ 值我们在图 32.7 只能看到 7、 8 个 $y$ 值的点，但实际上每个点包含了几个甚至几十个数据值 (它们拥有同样的 $y$ 值，所以重叠在图中)。总的趋势是， $y$ 值越小，子豆的数目越多。每个 $y$ 的最小值含有 20-40 个数据点，而最大值只有 1-2 个数据点。

01952687-d372-7abb-afcb-1fdad5b56c54_339_302_243_612_404_0.jpg

图 32.7 高尔顿甜豆数据的实际分布(蓝色点)。代数平均值(橘红色点) 都处于 $y$ 值分布偏下方的位置，这是因为子豆颗粒小的数据量远大于颗粒大的数据量。

这种复杂性要求研究人员在实际分析中，必须对不同数据点采用加权重的方法来处理。而到目前为止，我们所做的分析都是假定表 32.1 中的每个数据点具有相等的权重。这就是为什么皮尔逊在介绍高尔顿工作的时候，选择只给出平均值 (图 32.1 和表 32.1)。这也是为什么我们利用式 (32.8) 对表 32.1 的数据做等权重回归时得到的结果跟皮尔逊给出的不同。

原始数据 (如图 32.7) 与经过某种 “处理” (英文里，研究人员常用 massage，也就是 “按摩”，来讽刺这种 “处理” 过程) 的数据 (图 32.1) 可以有很大的不同，其结果也就可能有很大的不同。由此我们也看到，对数据进行概率统计的步骤和细节对最终结果会产生十分重要的影响。这一点在实际分析当中，值得格外注意。

高尔顿和皮尔逊都是颇有成就的科学家，但两个人又都是优生学(Eugenics)最早的鼓吹者，优生学这个名字本身就是高尔顿创造的。他在读了表哥的《物种起源》之后，开始考虑改善人种的问题，建议通过非自然的人为手段来改进国民遗传素质，操纵控制特定人口的演化进度和演化方向。 1873 年，高尔顿给英国《泰晤士报》写信，倡议把华人移民到非洲去。理由是，中国虽然在近代几个王朝景况不佳，但文明还是高度发达的，可以用中国人的遗传因子来改变落后的非洲。他的倡议引起很大的争议。优生学后来在纳粹德国被推向极端，用来作为科学论据支持创造所谓 “优等民族”。德国国会很早就通过了法案，可以对各种遗传病患者和严重酗酒者进行外科绝育。 1933 年，纳粹更是开始推行《防止具有遗传性疾病后代法》，把数十万有遗传性疾病的人强制绝育。同年又在另一项法律中强调对 “伤风败俗者” 进行绝育处理。第二次世界大战期间，干脆开始利用优生学学说屠杀德国残疾人口。

皮尔逊是个社会达尔文主义者。他认为，演化论从逻辑上就隐含了对 “下等民族”宣战的意味。他反对犹太人移民英国，说这些人会成为一个 “寄生” 民族。他又是一个无神论的社会主义者，并因为自己的理念拒绝了大英帝国勋章 (OBE) 和骑士的荣誉。

皮尔逊在为高尔顿作传时预言，未来的人们将更会记住高尔顿。他说，比起表哥达尔文来，高尔顿具有更为广博和过人的才能。但他没有想到，优生学是一把双刃剑，尤其在二战前后，这把剑把这师徒俩都伤得不轻。 100 年后，他的预言不但没有实现，高尔顿和皮尔逊的名字反而在最近被系统地从英国各个大学里清除。除了研究概率统计和遗传学历史的人们，高尔顿的名字快被逐渐忘却了。

本章主要参考文献

Pearson， K. On the Criterion that a given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it can be reasonably supposed to have arisen from Random Sampling. Philosophical Magazine. Series 5. 1900， 50: 157-175.

Pearson， K. Notes on the History of Correlation. Biometrika， 1920， 13: 25-45.

Pearson， K. The Life， Letters， And Labours of Francis Galton， Vol. IIIa， Correlation， Personal Identification， and Eugenics. Cambridge at the University Press， 1930: 439.

Stanton， J M. Galton， Pearson， and the Peas: A Brief History of Linear Regression for Statistics Instructors， Journal of Statistics Education， 2001， 9: 1-13.

Wasserstein， R. L.， and Lazar， N. A. The ASA Statement on $p$ -Values: Context， Process， and Purpose. The American Statistician， 2016， 70: 129-133.

Youliang Zhong

Table of Contents

Backlinks

Graph View

第三十二章另一位种豆人和他的学生