第三十四章啤酒厂的假 “学生”

吉尼斯 (Guinness) 好像是世界上排名第十的古老的啤酒厂。它 1759 年建厂，至今已有 260 年了。创建人阿瑟·吉尼斯 (Arthur Guinness， 1725-1803) 出身贫寒，他父亲是爱尔兰一位大主教阿瑟·普莱斯 (Arthur Price， 1679-1752) 家的老佃户。爱尔兰历史上， 90%以上的土地一直被少数富有的家庭把持着，他们把土地租赁给农民。农民必须向土地拥有者缴纳一定的租金，然后再向教会和政府缴纳税收。到了1870 年前后，竟然 97% 的爱尔兰土地都被地主占有。阿瑟出生后，奉普莱斯为教父，阿瑟的名字可能就是来自这位大主教吧。 1752 年普莱斯去世，给吉尼斯父子留下 100 英镑的遗产。几年后， 30岁的阿瑟利用这笔钱开办了一个小啤酒厂。 1759 年，他签下一纸年租金 45 英镑，长达 9000 年的租约，租下位于都柏林的圣詹姆士门酿酒厂 (St. James’s Gate Brewery)。经过 10 年的努力，吉尼斯第一次把 6 桶 (barrel) 烈性啤酒海运到了英格兰。不久，吉尼斯黑啤酒成为爱尔兰最著名的啤酒产品。

啤酒是中世纪欧洲人的主要饮料。制作啤酒的原料是大麦，经过浸泡之后，发芽成为麦芽。发芽后的大麦产生一种酶，把麦粒中的淀粉转换成麦芽糖，再经过发酵把糖转化为酒精。麦芽富有营养，在中国是一味中药。麦芽酿制的、酒精含量很低的淡啤酒则是中世纪欧洲人的主要营养来源。这种早期的爱尔 (Ale) 啤酒也是人们的主要饮水来源。那时没有消毒手段，喝生水很容易患上传染病。啤酒的制造需要高温消毒，酒精也有消毒和防止细菌繁殖的作用，所以中世纪时连孩子们都把淡啤酒当成饮料。有记载说，当时的人们每天要喝上一两个加仑的淡啤酒 (1 加仑等于 3.8 升)。高酒精含量的啤酒是后来发展起来的奢侈品。我们在第十二章里，讲过苏格兰的玛丽在被关押期间，利用啤酒桶的塞子传递信息的故事。玛丽是高级犯人，啤酒是不可少的。

到了 19 世纪下半叶，吉尼斯成为全世界最大的啤酒厂，每年生产 120 万桶黑啤。阿瑟的重孙爱德华(Edward Guinness， 1840-1915)把酒厂扩建成为都柏林的城中之城，甚至拥有自己的铁路和消防队。他继承了父亲本杰明 (Benjamin Guinness， 1798- 1868) 的管理风格，为吉尼斯的雇员和都柏林的劳工阶层提供廉价住房。吉尼斯的工人享受都柏林市里最高的工资和整个爱尔兰最早的退休金及优惠医疗服务。

进入 20 世纪，吉尼斯成为国际品牌。 1901 年，吉尼斯设立实验室，用科学方法研发新工艺，改进啤酒制作。实验室高薪招聘 “最有潜力的” 科学家，并鼓励他们同大学研究机构合作。这在当时是最先进的工业研究室，类似于今天谷歌的实验室。年轻的研究人员住着吉尼斯提供的住房，一起在啤酒厂吃饭，业余时间一起滑雪骑车打高尔夫球，许多人成为亲密的朋友。在这样的背景下，威廉·戈赛特 (William Sealy Gosset， 1876一1937)刚刚从剑桥大学毕业就加入了吉尼斯。

吉尼斯黑啤也是一种爱尔啤酒，不过制作这种啤酒的麦芽，一部分被蒸过以后碾压，另一部分则经过烘烤，这种独特的酿制方法给它带来独特的颜色和口味。吉尼斯黑啤看上去颜色很深，似乎酒劲很大，但实际上对于烈性啤酒来说，它柔和香醇，可以与大多数食物相配，因而受到广泛的欢迎。跟大多数啤酒一样，吉尼斯在酒里加啤酒花。这种蛇麻草开出的花朵在啤酒酿制过程中产生一种精油，不仅能为酒液杀菌消毒，增加保存期，而且产生一种微妙的苦味，使人更能感受啤酒的香味。吉尼斯在 1900 年前后每年需要数百万磅的啤酒花。不过啤酒花的种类很多，对啤酒最终的味道影响也不同。如何选择啤酒花是酿制啤酒过程中一个很重要的问题。当时面对这个问题，唯一的办法是看和闻，也就是在酿制过程中不断地用眼睛观察酒液的颜色，用鼻子闻酒液的味道。在大量生产过程中，这种原始的质量控制方法既费时又不精确，而且一旦失手，大量的啤酒就损失掉了。

戈赛特的上司卡斯 (Thomas B. Case) 认为，确定啤酒花质量的最佳方法是计算从啤酒花里提炼出来的软树脂和硬树脂之间的比例。卡斯决定从英格兰肯特郡选择不同批量的啤酒花，从少量的样品里计算软树脂对硬树脂的百分比。他从一批 8 个样品里得到软树脂的平均比例为 8.1%，另一批 14 个样品里得到软树脂的平均比例为 8.4%。怎样估计这些比例对啤酒的影响呢? 卡斯感到毫无头绪，于是把解决这个问题的任务交给了戈赛特。戈赛特在大学主修的是化学 (这也是他为什么选择了吉尼斯)，但他不怕数学，接到这个活儿之后，他开始琢磨。

如果采样数目非常大，那么从前几章的故事我们知道，可以近似地使用那个似乎无所不在的拉普拉斯-高斯分布，也就是所谓的 “正态分布”，来描述软树脂对硬树脂的变化特征。可是在每一分钱的消耗都要仔细考虑的酿酒厂，怎么可能期待无穷大的采样数目呢? 戈赛特的目标，首先是要搞清楚在采样数量很小的情况下，用一个样品来代表所有可能样品的期望值，误差会有多大。换句话说，靠少数几个采样估计出来的误差分布，比起从成千上万个采样得到的误差的正态分布，到底有多大差别?

戈赛特选择了麦芽精作为突破口。麦芽精是制作啤酒的重要原料之一。多年的经验说明，最好的啤酒需要麦芽精的甜度在 133 度，误差不能超过 0.5%。酒精的含量取决于麦芽中糖的含量。过甜，酒精的含量高，必须多交税 (当时政府按照啤酒里的酒精含量收酒精稅)；糖少了，酒精含量低，顾客不满意。戈赛特想知道究竟需要几个含糖量的观测值能够在这个误差范围内确定麦芽精的甜度。吉尼斯有一批麦芽精，已经从中采取了大量的数据，于是他决定采用模拟的方法研究小样本采样的结果。他先从这批数据中随机提取一批两个观测点的模拟数据。他发现，在这些模拟数据里，大约 80% 的情况下都可以得到与真实甜度的误差不超过 0.5% 的结果。之后，他模拟三个观测点的数据，发现约在 87.5% 的情况下，结果与真实甜度误差在 0.5% 以内。四个观测点呢？他发现百分比增加到 92%。这样一直做下去，等到模拟到每群数据含有 82 个观测点的时候，他发现，得到误差在 0.5% 以内接近真实甜度的结果的似然率可以在实际工作中无限接近真实值。

从这个实验，吉尼斯啤酒厂知道，从每一批的许多桶麦芽精里面，只需要抽选四个测试点，就有九成把握判断这批麦芽精的含糖量。他们不再需要依靠人工从头到尾查看大麦、麦芽来决定麦芽精的质量。吉尼斯的主管们对戈赛特的发现兴奋无比，他们可以在有限的化学采样基础上对酿酒的材料做出有根据的决定了。这一点，当时其他酿酒厂都做不到。

可是戈赛特不满意这个经验关系，他要搞明白小样本推测的数学方法。于是，他对主管们说，想去咨询一些数学专家们。吉尼斯当时非常支持这种活动，把他送到伦敦大学学院皮尔逊的研究室去，给了他一年的“学术休假”，工资照付。

戈赛特性情谦和，稍稍有些疯狂，酷爱赛车和英式橄榄球。他本来是想继承父亲的职业，在军队里面供职，可是由于视力太差，被淘汰了，这才去学化学。尽管皮尔逊是个很难相处的人，但戈赛特跟他关系非常融洽。在伦敦研究的一年对他来说收获极大，把小样本的问题搞清楚了。

首先是小样本的误差分布。假设有 $n$ 个测量值 $x_{1} ， x_{2} ， \dots ， x_{n}$ ，这些测量值在 $n$ 很大的时候遵从拉普拉斯-高斯分布，对应一个 $μ$ 值，也就是平均值。可是在 $n$ 很小的情况下，我们无法估计平均值。不过，我们总可以按照大测量数据的方式来定义 “样本均值”:

\overset{x}{ˉ}_{n} = \frac{x _{1} + x _{2} + \dots + x _{n}}{n} . (34.1)

我们也可以按照类似方差的办法(见第三十二章)来定义 “样本方差”:

S_{n}^{2} = \frac{1}{n - 1} i = 1 \sum n (x_{i} - \overset{x}{ˉ}_{n})^{2} ， (34.2)

唯一的区别是现在 $n$ 很小，它不等于大数据量的、但对我们来说是未知的方差 $σ^{2}$ 。这两个方差的区别，前人似乎从来没有注意到。

根据前面的假定，随机函数 $\frac{x ˉ _{n} - μ}{σ}$ 服从正态分布，而且平均值为 0，方差为 1。但这里有两个未知参数。让我们用 $S_{n}^{2}$ 来近似 $σ^{2}$ ，定义

t = \frac{x ˉ _{n} - μ}{S _{n} / n} . (34.3)

戈赛特证明，函数 $t$ 的概率密度函数是

f (t) = K (ν) (1 + \frac{t ^{2}}{ν})^{- \frac{ν + 1}{2}} ， (34.4)

其中， $v = n - 1$ 是该组数据的自由度， $K (v)$ 是一个跟变量 $t$ 无关的函数: 当 $v$ 是偶数，且 $v > 1$ 时，

K (ν) = \frac{( ν - 1 ) \times ( ν - 3 ) \times \dots \times 5 \times 3}{2 ν ( ν - 2 ) \times ( ν - 4 ) \times \dots \times 4 \times 2} ， (34.5)

当 $v$ 是奇数，且 $v > 1$ 时，

K (ν) = \frac{( ν - 1 ) \times ( ν - 3 ) \times \dots \times 4 \times 2}{π ν ( ν - 2 ) \times ( ν - 4 ) \times \dots \times 5 \times 3} . (34.6)

这样得到的概率密度从形貌上看跟正态分布非常相似，也是左右对称，曲线下的总面积为 1，只是这种所谓 “ $t$ -分布” 的 “尾巴” 比较宽大，也就是说，曲线比较宽松。图 34.1 给出 $v = 1 ， 4 ， 8 ， 12$ 的 $t -$ 分布同正态分布 $N (0 ， 1)$ (也就是 $v = \infty$ ) 的比较。 $N (0 ， 1)$ 这个符号表示，正态分布的中心在变量 $= 0$ 处，方差 $= 1$ 。

这个结果在概率统计学里有很重要的意义。它说明，只要数据服从正态分布，小样本分析仍然可以得到正确的期望值，只是误差分布范围变大，样本量越小，误差范围越大。从图 34.1 我们看到，当 $v = n - 1 = 12$ 的时候， $t -$ 分布的样子同正态分布已经很接近了。在统计学中，一般以 $n = 30$ 作为两种分布的大致分界线，小于 30 用 $t -$ 分布，大于 30 用正态分布。

01952687-d372-7abb-afcb-1fdad5b56c54_357_291_624_582_393_0.jpg

图 $34.1 t$ - 分布同正态分布 $N (0 ， 1)$ 的比较。随着自由度 $v = n - 1$ 的增加， $t -$ 分布逐渐逼近 $N (0 ， 1)$ ，也就是 $v = \infty$ 。

从实用角度来看，让每个使用者去自己计算 “ $t$ -分布” 比较麻烦，因为表达式 (34.4) 的形式取决于自由度是奇数还是偶数。戈赛特把 $t -$ 分布按照自由度列成表格，供使用者查询。附录一给出最简单的 $t -$ 分布数值表。

从 $t -$ 分布出发，利用 $p -$ 值也就是置信度的概念，还可以通过小样本观测对研究分析中的假设做出检验判断。检验的原理同大样本观测利用正态分布的分析是一样的 (见第三十二章)，只不过把正态分布换成 $t -$ 分布而已。

举个例子。 1797 年到 1798 年之间，英国科学家卡文迪许(Henry Cavendish， 1731- 1810) 在伦敦南郊自己的庄园里建造了一座实验室，在那里进行了著名的万有引力实验，首次测得地球的平均密度。卡文迪许的实验在当时的技术条件下极为困难，被认为是实验物理的典范。他一共报告了 29 个数据值，除去 6 个有点问题的测值，我们把剩下的 23 个数据值列在表 34.1 中。这些密度的数值是按照相对于水的密度的倍数报告的。我们知道，在室温条件下水的密度是 1 克/立方厘米，所以这些数据的单位就是克/立方厘米。

表 34.1 卡文迪许的地球平均密度数据及其标准偏差的计算

序号， $i$	密度， ${x}_{i}$	${x}_{i} - {\bar{x}}_{23}$	${\left( {x}_{i} - {\bar{x}}_{23}\right) }^{2}$
1	5.36	-0.12348	0.015 247
2	5.29	$- {0.193}\;{48}$	0.037 434
3	5.58	0.096 522	0.009 316
4	5.65	0.166 522	0.027 730
5	5.57	0.086 522	0.007 486
6	5.53	0.046 522	0.002 164
7	5.62	0.136 522	0.018 638
8	5.29	-0.19348	0.037 434
9	5.44	-0.04348	0.001 890
10	5.34	-0.14348	0.020 586
11	5.79	0.306 522	0.093 956
12	5.10	$- {0.383}\;{48}$	0.147 055
13	5.27	$- {0.213}\;{48}$	0.045 573
14	5.39	$- {0.093}\;{48}$	0.008 738
15	5.42	$- {0.063}\;{48}$	0.004 029
16	5.47	$- {0.013}\;{48}$	0.000 182
17	5.63	0.146 522	0.021 469
18	5.34	$- {0.143}\;{48}$	0.020 586
19	5.46	$- {0.023}\;{48}$	0.000 551
20	5.30	$- {0.183}\;{48}$	0.033 664
21	5.75	0.266 522	0.071 034
22	5.68	0.196 522	0.038 621
23	5.85	0.366 522	0.134 338
	${\bar{x}}_{23} = \frac{1}{23}\mathop{\sum }\limits_{{i = 1}}^{{23}}{x}_{i} = {5.483}$	$\mathop{\sum }\limits_{{i = 1}}^{{23}}\left( {{x}_{i} - {\bar{x}}_{23}}\right) = 0$	${S}_{23}^{2} = \frac{1}{22}\mathop{\sum }\limits_{{i = 1}}^{{23}}{\left( {x}_{i} - {\bar{x}}_{23}\right) }^{2} = {0.0}$

这套数据， $n = 23$ 。根据式 (34.1)，可以得到样本均值为 $\overset{x}{ˉ}_{23} = 5.483$ 。为了计算样本方差，我们先计算每个数据点同平均值的差 (表 34.1 中的第三列)，然后计算这些差的平方 (表 34.1 第四列)。根据式 (34.2)，我们得到样本方差 $S_{23}^{2} = 0.03626$ 。已知通过现代技术测得地球的平均密度是 5.514 克/立方厘米。显然，卡文迪许的平均密度值比现代地球平均密度值要低。但我们想知道在某个给定的概率置信度范围内，卡文迪许的实验结果同现代地球平均密度值是否吻合。这个例子在科学研究中有重要意义。比如，两个实验室对同一个物理现象做了研究，得到两套不同的数据。它们在多大的概率置信度上可以认为是吻合的? 如果在某个给定的概率置信度范围内，二者并不吻合，那就需要两个实验室来考察实验在什么地方出了问题。

考察这样的问题，我们等于面临两个假设。一个是零假设，也就是假设卡文迪许的数据与现代地球平均密度值 $μ = 5.514$ 在统计意义上没有区别。我们把这个假设记作 $H_{0}$ ，它是假定在统计意义上， $\overset{x}{ˉ}_{23} = μ$ 。另一个是替代假设，它假定卡文迪许的数据跟现代地球平均密度值不吻合。根据这个假设 (我们称之为 $H_{a}$ )， $\overset{x}{ˉ}_{23} < μ$ 。我们的目的是利用 $t$ - 分布和概率统计分析来估计这两种不同假设的概率置信度分别是多少。

类似的问题我们在很多情况下都会遇到，比如对工厂生产的产品做抽样检查，考察检查结果是否在一定概率条件下符合事先给定的产品合格率。或者是通过对病人的一些化验指标来估计该病人在某种概率条件下是否罹患某种疾病。

我们现在已经知道下面的事实:

卡文迪许的观测值数目: $n = 23$ ，样本均值: $\overset{x}{ˉ}_{23} = 5.483$ ，真实值: $μ = 5.514$ ，样本标准方差: $S_{23}^{2} = 0.03626$ 。把这些数值代入公式(34.3)，得到

t = \frac{x ˉ _{23} - μ}{S _{23} / n} = - 0.7687 ， (34.7)

结果是负的，当然是因为 $\overset{x}{ˉ}_{23} < μ$ 。这个事实我们已经知道了，不需要这些复杂的计算。我们现在想要知道的是在一个给定置信概率区间的条件下，判断卡文迪许的地球平均密度值是否跟现代的密度值相吻合。

假定我们考虑的置信度是 95%。注意到 $t -$ 分布关于 $t = 0$ 点对称这个事实，我们查询附录一的 $t -$ 分布表，可以找到对应于置信区间为 95% 以上 $t$ 的临界值。这个值通常记作 $t_{α ， ν}$ ，其中 $α$ 值为 $0.05 (= 1 - 0.95) ， ν = n - 1 = 22$ 。查表得到 $t_{0.05 ， 22} = 1.717$ 。

01952687-d372-7abb-afcb-1fdad5b56c54_360_294_239_634_411_0.jpg

图 34.2 自由度为 22 的 $t$ -分布曲线。

这是什么意思呢？为了说明，我们把 $v = 22$ 的 $t -$ 分布曲线画在图 34.2 里。这条曲线是左右对称的，但是我们知道，卡文迪许的平均地球密度小于现代测量值，因此，我们需要考虑的是 $t < 0$ 的情况，也就是 $t_{0.05 ， 22} = - 1.717$ 。图 34.2 中曲线最左侧的棕红色区域的面积是整条曲线下面积的 5%，对应的是概率 $α = 0.05$ ; 棕红色面积之外的曲线全部都属于置信区间以内; 棕红色面积右边开始的地方对应的是 $t_{0.05 ， 22} = - 1.717$ 。只有当 $t \leq - 1.717$ 的时候，考虑的数据才落入棕红色区域，跑到95%置信区间的外面。只有在这种情况下，我们才可以说零假设不成立，而替代假设成立。

根据式 (34.7)，卡文迪许数据的 $t$ 值是 -0.7687，没有达到临界值 -1.717，因此，替代假设可以排除，而零假设成立。所以结论是，卡文迪许的数据同现代测量的结果是吻合的。

顺便说一句，地球表面的岩石密度一般在 3 上下。地球的平均密度等于 5.5 意味着什么呢? 它说明地球深部的密度非常之大，对不对? 这是人们最早意识到地核可能是金属的原因。

需要重申一下，以上的分析和结论基于下面这些假定:

数据 $x_{i}$ 服从正态分布。
样本均值 [式(34.1)]与样本方差 [式(34.2)]相互无关。

在实际数据中，这些条件是很难完全满足的。但是这个分析方法仍然有重要的指导意义。

卡文迪许是个不寻常的人。首先，他害羞到了极致。他只能在面对一个人时才能讲话，而且这个人必须是男人，面对女性，他完全举止失措。所以他尽最大可能避免接触女人，即使是家里的仆人亦是如此。他特意在家里安装了专用楼梯，这样出来进去不需面对任何人。他把整理家务的指示用纸条的方式传达给女佣。从现代医学角度来看，他可能患有严重的自闭症，但他的实验技巧是无与伦比的。为了测量地球的密度，他专门设计了实验房间，使实验设备与外面完全隔绝，不受温度和空气流通的影响。他利用望远镜和镜子观察两个石头球之间的引力作用，猫一般轻盈地走来走去，避免震动对测量的影响。他的实验室成为历史名迹，直到今天，周围的邻居们仍然会骄傲地指给外来人看，说那里是“尊敬的卡文迪许先生给地球称重的地方”。

言归正传。戈赛特得到的 $t$ -分布曲线没有经过严格的数学证明，心里没底。他找到《生物计量学》第一卷里一份报告的数据，想利用这些数据来验证一下自己的结果。这套数据从今天的角度来看相当奇特，它报告了 3000 名罪犯的身高、头的长度和宽度，还有左手中指的长度。它的目的是想从这些数据里找到罪犯生而带来的某些特征，以便在犯罪之前就认定他们。换句话说，研究的前提假定是，有些罪犯天生就与常人不同。我猜这套数据是皮尔逊介绍给戈赛特的，因为皮尔逊是《生物计量学》的创刊人之一。

3000 名罪犯的数据数目很大，报告给出数据的分布基本遵从正态分布。戈赛特想从这些数据里随机抽出一些来，组成小数据组，用自己的方法进行分析。他把 3000 名罪犯的身高和中指长度分别写在 3000 张一模一样的卡片上，将它们混合在一起，使尽各种办法，尽量使它们的分布成为完全随机的，然后把 3000 张卡片分成 750 组，每组 4 张。戈赛特分析了所有 750 组数据的样本均值和样本方差。通过这些数据，他成功地验证了自己的结果。戈赛特这种抽选样本的办法，成为今天最为广泛地使用的统计模拟方法——蒙特卡洛法(Monte Carlo method)的先祖。

在得到 $t$ - 分布和统计分析方法之后，戈赛特想把结果发表在皮尔逊主编的《生物计量学》杂志上，以表示对后者的感谢。吉尼斯的主管们同意了，但要求他必须使用笔名，这很可能是一种知识产权的保护措施。虽然戈赛特在文章里根本没有提到 “啤酒”两个字，但是从他的名字，吉尼斯的竞争对手们有可能猜到文章内容跟他的职业有关。戈赛特同意了，于是幽默地使用了斯图登特 (Student) 这个名字 (图 34.3)。

费舍尔上剑桥大学不久，就看到了斯图登特的《平均值的可能误差》(The Probable Error of a Mean)。他意识到内容的重要性，也发现其中的主要内容缺乏数学证明。 1912 年，也就是在他大三的时候，费舍尔对戈赛特的文章给出了数学证明。他的老师读了以后，把费舍尔介绍给戈赛特。戈赛特读后非常高兴，建议把费舍尔的证明送到《生物计量学》上发表。可是皮尔逊不同意，说他看不懂费舍尔在讲什么，这使得费舍尔的证明在三年以后才得到发表。到了 1925 年，费舍尔进一步改进了证明，并建议使用式 (34.3)，将它称为 “Student’s $t$ ”。在戈赛特 (图 34.4) 1908 年的文章里，他采用的是 $z -$ 分布， $z$ 和 $t$ 之间有着非常简单的关系: $z = \frac{t}{n - 1}$ 。

01952687-d372-7abb-afcb-1fdad5b56c54_362_828_232_477_518_0.jpg

图 34.3 戈赛特 1908 年的文章的标题和署名。

顺便说一句，费舍尔跟吉尼斯啤酒家族也有直接的联系，他的妻子露丝·吉尼斯(Ruth Guinness)是阿瑟·吉尼斯的重孙女。露丝刚满 17 岁就嫁给了费舍尔，一连给他生了 9 个子女，大概是费舍尔要以身作则用自己的高智商来提高英国的人口素质。不过这些儿女都是露丝一人带大的，费舍尔什么也不管。第二次世界大战期间，露丝由于受不了费舍尔的自私和怪癖而离婚。

01952687-d372-7abb-afcb-1fdad5b56c54_362_834_1022_479_610_0.jpg

图 34.4 1908 年前后的 “学生” 戈赛特。

戈赛特在发表 $t$ -分布的前一年还发表过另外一篇文章，是关于如何评估在测量酵母细胞浓度时的误差。酵母在酿酒过程中起着关键的作用。酿制爱尔啤酒的酵母在发酵期间会慢慢上升，浮到啤酒表层，因此又称顶层发酵酵母。属于这一类的啤酒包括爱尔、麦啤、司陶特等。酿制拉格 (Larger) 的酵母属于窖藏酵母，用于底层发酵。这种发酵往往采用低于顶层发酵的发酵温度，发酵时间较长。到发酵末期，酵母菌下沉到酒桶底部，使啤酒的酒色较为透明。 1857年，法国科学家巴斯德 (Louis Pasteur， 1822-1895) 发现，在酿酒过程中，当酵母的细胞量增加时，酒精的生成量减小，这种现象被称为巴斯德效应。

酵母细胞的大小约在头发丝的十分之一以下，要想知道酵母细胞的含量，必须在显微镜下对细胞量进行估计。在当时这项工作是利用血细胞计数板 (hemocytometer) 来进行的。所谓计数板，是一个带有计数室的载玻片 (也就是长方形的玻璃片)。计数室画着精确的格线，每个单元格的大小相等，并且格子的深度也相同 (0.1毫米)。测量人员需要把一滴正在发酵的啤酒液滴在血细胞计数板上，在显微镜下仔细地数一个个格子里 (体积确定的液体中) 的细胞个数。利用这个方法测量细胞数目有两个主要的误差来源，第一个误差是含有酵母细胞的液滴可能不代表啤酒桶里全部液体的酵母细胞浓度; 第二个误差是血细胞计数板上不同格子里的酵母细胞数目可能有很大的差异。第一个误差是大范围的，可以靠多次取样来消除。第二个误差是小范围的，也就是在一滴液体里细胞分布不均匀。这种不均匀性使得测量得到的数据变化范围很大，而且多次测量得到的数据的平均值经常跟正态分布或者泊松分布的理论平均值有很大的差别。

对于符合正态分布的数据来说 (第二十八章)，测量数据相对于分布中心 (也就是理论平均值)的变化范围是用方差 $σ^{2}$ 来描述的 [见式 (28.7)]。 $σ^{2}$ 的值越小，正态分布的峰就越尖锐，换句话说，数据的变化范围就越小。变化范围大的情况，在统计学里称为离散 (dispersion)。我们在第三十章介绍了泊松分布，那是一个对处理离散数据很有用的分布。如果数据变化范围非常大，测量数据的平均值偏离理论平均值很远，这在统计学里叫做 “过度离散” (overdispersion)。戈赛特面对的问题就是如何处理过度离散的数据。测量时，在显微镜下慢慢移动血细胞计数板，寻找酵母细胞。他假定找到每一个酵母细胞的概率是不变的，把它记作 $p$ 。在移动计数板 $n$ 次后，找到 $r$ 个细胞的概率是

P (n) = (r - 1 n - 1) (1 - p)^{n - r} p^{r} ， n = r ， r + 1 ， r + 2 ， \dots (34.8)

式 (34.8) 表达的是离散随机变量在给定的 $n$ 和 $r$ 取值上的概率，称为概率质量函数 (Probability mass function)。在第二十七、二十八章里，我们在谈到拉普拉斯和高斯的概率分布时把它们叫做概率密度函数，可是在这里以及在谈到泊松分布的时候，我们却把它们叫作概率质量函数。这是为什么呢? 原因就是拉普拉斯-高斯分布是连续的函数，在计算概率时需要把它们在某个变量区间内求和 (或积分)。这有点像物理里面讨论的物质的密度，想要知道质量，需要把密度在给定物质的体积里积分。而泊松分布是式 (34.8) 描述的离散概率分布，它们本身就是概率，就像经过对密度积分之后得到的质量，所以称为概率质量函数。

从数学表达形式来看，式 (34.8) 跟式 (30.1) 的求和符号里面的各项很相像，是不是? 这是因为这两种概率分布都是离散的，而且都可以用帕斯卡的二项式来表达。实际上，早在戈赛特之前 200 多年，帕斯卡就已经提到了这样的概率表达式，那是他在计算投掷硬币和骰子的游戏的概率时提出的。后来，另一位法国数学家德蒙莫尔 (故事见第十章) 更加明确地给出了这个表达式。比如，在投掷骰子游戏的概率计算中， $p$ 是得到某一个数 (如 3 ) 的概率 $(p = 1/6)$ ，式 (34.8) 则代表在投掷了 $n$ 次骰子后， $r$ 次得到数字 3 的概率。所以这个分布现在称为帕斯卡分布。

在式 (34.8) 中， $n$ 是所有测量尝试的次数，其中 $r$ 次是成功的 (如找到了酵母细胞，或得到了骰子的数字 3 的那一面)，那么 $n - r = k$ 次就是失败的。因此式 (34.8) 还可以用下面这种方式表达:

P (X = k) = (r - 1 k + r - 1) p^{r} (1 - p)^{k} ， k = 0 ， 1 ， 2 ， \dots (34.9)

其中 $k$ 是失败的次数， $r$ 是成功的次数， $p$ 是事件成功的概率。在这个概率质量函数中，一共有 $k + r$ 次独立同分布的事件，成功 $r$ 次、失败 $k$ 次的事件的概率为 $(1 - p)^{k} p^{r}$ 。它的数学解释很简单: 由于第 $r$ 次成功是最后一次实验，所以应该在 $k + r - 1$ 次实验中选择 $r - 1$ 次成功。而排列组合给出的二项式系数代表获取所有可能的选择数目。

帕斯卡分布又称负二项式分布，这是因为它的二项式系数

(r - 1 k + r - 1) = \frac{( k + r - 1 ) ( k + r - 2 ) \dots ( r )}{k !} = (- 1)^{k} (k - r)

是一个带有负值的二项式。

对于泊松分布，我们知道，平均值等于其方差和期望值。对于帕斯卡分布，这三个参数各不相等，它的方差是 $r \frac{1 - p}{p ^{2}}$ ，而期望值是 $r \frac{1 - p}{p}$ 。这个区别使得帕斯卡分布能够更好地描述所谓 “传染性的” (contagious) 离散事件，比如台风暴发、传染疾病流行等。

戈赛特是历史上第一位把帕斯卡分布带入统计数据分析的人。他一生保持着诙谐幽默、随和谦逊的性格。比如，费舍尔曾经请他为自己学生麦肯齐的硕士论文做评审，戈赛特在回复费舍尔时说:

“我想，让我评审的原因是论文的内容跟大麦有关，于是当然需要酿啤酒的来评审，否则就有点奇怪了。不过我担心，麦肯齐小姐的数学对我来说有点儿太

‘显然’了。 ”

他这是拿费舍尔来调侃。费舍尔文章的晦涩难懂是出了名的，他经常在文章中使用 “明显”、“显然” 这类词。戈赛特不止一次抱怨过，费舍尔的每一个 “显然” 对自己来说，都意味着 “仔细琢磨两小时之后才搞明白是怎么回事”。

相比之下，皮尔逊、费舍尔都未免太把自己当回事了。

本章主要参考文献

Box， F. J. Guinness， Gosset， Fisher， and small samples. Statistical Science， 1987， 2: 45-52.

Lehmann， E. L. “Student” and Small-Sample Theory. Statistical Science， 1999， 14: 418-426.

Student. On the Error of Counting with a Haemacytometer. Biometrika， 1907， 5: 351-360.

Student. The Probable Error of a Mean. Biometrika， 1908， 6: 1-25.

Zabell， S. L. On Student’s 1908 Article “The Probable Error of a Mean”. Journal of the American Statistical Association， 2008， 103: 481 (1-7).

Ziliak， S. T. Guinnessometrics: The Economic Foundation of “Student’s $t$ “. Journal of Economic Perspectives， 2008， 22: 199-216.

Youliang Zhong

Table of Contents

Backlinks

Graph View

第三十四章啤酒厂的假 “学生”