第三十七章 帮助我们窥探未知的稀有事件
1941 年 5 月 27 日, 也就是德国无敌战舰俾斯麦号沉没的那天, 一个瘦弱的年轻人摇摇晃晃走进布莱彻利园, 到图灵手下的八号小屋报到。 每遇见一位新同事, 他就伸出手来:“我很棒。 ” (I’m good.) 这种自我介绍方式最初很让大家疑惑, 后来才意识到, 他是说, “我的名字叫古德。 ”(I’m Good.)
古德(图37.1)的父母是从波兰移民到伦敦的犹太人, 祖姓古达克(Gudak), 古德出生时取名叫伊萨多尔 (Isadore Jacob Gudak)。 他父亲开了一家钟表店, 业余时间用意第绪语写作, 颇有些读者。 伊萨多尔从小就有超常的数学天赋。 他后来回忆说, 4 岁的时候, 他琢磨出 1000 乘以 1000 的结果, 站在小床上大叫: “妈妈!你知道 1000 乘以 1000 是多少吗?”母亲没有受过什么教育, 回答说:“我不知道。 你知道吗, 乖乖?” “一百万!” 伊萨多尔骄傲地回答。 10岁左右的时候, 他患了白喉, 连续好几个星期卧床不起。 为了打发时间, 他开始心算 2 的平方根。 计算方法是不久前从姐姐那里学来的。 计算每前进一步, 他就把结果再平方, 看是否能回到 2, 但总是差一点, 老是 1.9 几。 当他算到小数点后面第 12 位以后, 把结果平方, 得到 。 他意识到, 这个结果可能不能用分数来表达。 他是对的, 因为 2 的平方根是无理数。 他又计算了 3、5 和 7 的平方根, 发现它们也都是无理数。 不但如此, 他还发现, 有不少互相接近的平方根为无理数的整数对 和 , 它们之间还满足一个有趣的规律: 。

图 37.1 少年时代的古德和他的父亲。 这就是数论里面有名的派尔方程 (Pell equation), 这个名字来自 17 世纪英国数学家派尔 (John Pell, 1611-1685)。 10岁的伊萨多尔发现的规律相当于 。
但这个伦敦出生的孩子长大以后, 不愿以犹太人的姓名出现, 自作主张改名换姓, 成了杰克·古德(Irving Jack Good, 1916-2009)。 古德在剑桥大学的耶稣学院就读, 1938 年毕业后, 追从著名数学家哈代 (G.H. Hardy, 1877-1947) 和贝希科维奇 (Abram Besicovitch, 1891-1970) 攻读数学。 刚刚拿到数学博士, 他便来到布莱切利园, 参加破译德国海军密码的工作。
第一次加夜班, 古德在工作时间打瞌睡, 被图灵发现了。 图灵以为他不舒服, 而古德则理直气壮地说, “累了, 需要打个盹儿。 ” 这给图灵留下极坏的印象, 从那以后很多天, 图灵避免和古德见面。 图灵与同事交谈, 只要看到古德进来, 就马上离开。 但这个我行我素的年轻人似乎毫无察觉。
后来又有一次夜班, 在完成了所有工作之后, 古德突然产生一个想法。 德军在使用迷离机的三字母加密密码时, 为了迷惑破译人员, 常在其中临时加上一个没有意义的字母, 也就是虚码。 古德想看看这些虚码的选择是否有规律。 在研究了一系列被破译的加密信息以后, 他发现, 虚码的选择确实并非任意, 有一些字母被选上的概率比其他字母要高很多。 这个发现对加速破译太重要了。 当他把自己的发现告诉图灵时, 图灵一下子对他另眼相待。 图灵自己曾经也做过这方面的研究, 但没有发现任何规律。 这个发现很快成为班布里破译流程里很重要的一部分。
古德的 “累了不干活” 的态度在另一个故事里得到有力支持。 那天, 他花了一整夜的功夫企图破译一条信息, 但毫无进展。 这条信息经过两次加密, 显然非常重要。 通常这样的德军军官之间的加密信息是先经过军官们采用专用迷离机密码加密, 然后再由通讯人员使用一般迷离机密码加密。 古德决定放弃, 回到宿舍倒头便睡。 睡梦中, 他看到加密的方式被人颠倒了。 醒来后, 他采用颠倒的方式进行破译, 竟然成功了。 从此, 古德 “梦中破译” 的故事在八号小屋成为传奇。
图灵拿到英国情报部门得到的德军迷离机密码簿以后, 深感有必要知道德军指挥官在发送加密信息选择密码时, 有没有一定的规律。 如果有, 那么找到这个规律, 就有希望从大量的密码之中尽快地猜出迷离机使用的密码。 破译工作的主要瓶颈就在于猜测迷离机的加密密码。 一旦找到了三字母密码, 破译加密信息就很容易了 (见附录二)。 在古德找到虚码的规律之前, 著名的女破译员琼·克拉克(Joan Clarke, 1917-1996) 已经发现, 德国通讯人员在密码簿里选择密码时, 多数倾向于在密码纸页的上部或底部挑选, 而忽视中间。 怎样才能相对准确地估计密码被发报人员挑选出来的规律呢?
那时最常用的方法是对每一页中的密码逐一进行频率分析, 然后估计每个密码被挑上的概率。 但这个方法给出的结果很粗糙。 古德想出一个神奇的办法来。 这个办法给出一个途径, 可以从有限的观察到的密码, 通过统计分析的方法来估计从数目极大的密码中被人选出来的那些密码的出现频率。
1953年, 古德发表了《种群数量的出现频率以及估算种群数量的参数》(The population frequencies of species and the estimation of population parameters)。 在文章中, 古德开诚布公地宣称, 这个想法最初来自于图灵。 因此这个方法现在叫做古德-图灵频率估计 (Good-Turing frequency estimation)。 由于破译密码的工作仍然属于绝密, 古德在文章中不能涉及任何同密码有关的内容, 所以他选择了动物界的物种问题作为切入点。
设想在某个世界里存在无数头动物, 其中被观察到的动物一共有 头 (这是我们的样本); 它们属于很多不同的物种, 其中第 个物种的种群数量为 , 也就是说该物种里面共有 头动物。 这个 的变化范围不详, 但我们知道, 所有已知的动物都算进来一共是 头, 所以 和 之间有一个确定的关系
古德的目的是要通过全部已知的动物 (所有截获的加密信息) 的数目和物种 (使用相同密码的加密信息)来做出如下估计:
-
每一个物种的种群数目, 也就是同一个密码, 重复出现的频率 。
-
样本中所有物种的总种群频率, 也就是已知密码在所有密码里所占的比例。
-
表达物种 (密码) 多样性的通用参数。 所谓通用参数, 是指不含任何特殊假定而选择的参数。
按照传统的概率定义, 一头属于 物种的动物在我们所考虑的动物世界里出现的概率是 。 但这样的概率对于 非常大的情况基本上是零。 换句话说, 这样的概率给不出关于这头动物出现或存在的任何有用的信息。 我们在第三十章中讨论过类似的出现概率很小的事件, 也就是稀有事件。 古德所感兴趣的稀有事件有个特征: 它们重复出现的机会极小, 但在巨大数量的事件中, 如果把每一类事件按照发生的总数除以平均发生的次数, 你会发现, 这些稀有事件的比例要比常见事件的比例高很多。 这种稀有事件的数量有个貌似前后矛盾的名称, Large number of rare events (稀有事件的巨大数量;简称LNRE)。 这类事件的发生常常是人们最为关心的问题。 比如罕见的自然灾害(地震、洪水、暴风雪等等), 在种种防护措施之下恐怖活动的出现, 罕见的机器故障 (飞机失事、核电站事故等), 公司的破产, 股票交易市场上无法预见的价格震荡等等。 有人认为, 2007-2008 年的金融危机在一定程度上是由于当时使用的交易软件忽略了LNRE的影响。 这些交易软件依赖于风险价值 (Value at Risk, 简称 VaR) 模型。 每天下午关盘以后, 各大交易公司的操盘手在 16:15 纷纷根据自己可以接受的最大风险 (比如损失 1500 万美元) 设立第二天一早股市出现巨大波动情况下是否甩卖的股值。 VaR模型按照大波动出现的概率在 1% 以下来进行风险分析。 99% 以上的成功概率, 应该够高的吧? 但是在房地产泡沫破裂的大环境下, 概率小于 1% 的危机开始出现, 股市交易剧烈震荡。 在这种情况下, VaR 动不动就大肆抛售, 以至于道琼斯指数从 2007 年 10 月 1 日 (13930 点) 到 2009 年 3 月 1 日 (7069 点) 跌跌不休, 直到被腰斩。 总而言之, 研究LNRE的规律具有重大意义。
利用类似于帕斯卡二项分布的多项分布 (因为变量的数目远远大于 2 ), 图灵已经知道, , 其中
但在分析密码出现的频率时, 他发现多项分布估计出来的结果不够精确。 古德建议, 先对观察到的密码的出现频率在数学上进行平滑处理。 他找到了一些合理的平滑函数, 经过处理后的估计精度大大提高。
古德首先想到的平滑函数就是泊松分布, 也就是式 (30.3)。 用 来代替其中的 , 泊松分布的形式如下:
如果 LNRE 服从泊松分布, 那么式 (37.2) 就变成了常数 , 也就是满足泊松分布的事件的总期待值。
从式 (37.2) 我们可以推论, 对于所有含有 头动物的物种来说, 它们在样本中的期待概率的近似值为
进一步, 对于含有 和多于 头动物的所有物种来说, 它们通过样本得到的期待概率的近似值为
再进一步, 样本所代表的所有物种的预期总概率大约等于用式 (37.3) 从 开始算起的总和, 也就是
由此我们发现, 样本所代表的动物数目的比例约为 , 而下一个采样的动物属于一个新物种的概率大约是
通过这个理论, 古德一下子把已知世界到未知世界的距离缩短了一大截。
先看一个貌似无聊的例子: 莎士比亚脑袋里面的英文词汇量有多少?
莎士比亚是全世界最为卓越的文学家之一, 一生创作了 38 部戏剧、154 首十四行诗以及其他诗歌。 他的文字被认为是当时英语的最佳范例。 有人专门数过, 莎翁的全部作品一共使用了 884647 个单词, 其中互不相同的单词有 31534 个。 在这些单词中, 有 14376 个仅仅出现过一次, 4 343 个出现过两次, 2 292 个出现过三次, 等等。 当然还有一些单词 (846 个) 出现了一百次以上。 那些经常出现的词, 例如 a、of、the等等, 不能对我们估计莎翁的词汇量有多少帮助, 反而出现次数越少的单词越能反映出他的词汇能力, 对不对?这正说明了稀有事件的重要性。
图 37.2 给出莎士比亚使用单词的频率。 这张图跟图 30.2 里面 那条曲线是不是有点相似? 唯一的区别是图 37.2 的曲线更为靠近频率 (在图 30.2 中是 ), 这是因为这里的 值远远小于 0.7。 不过后来人们又发现了许多不同的平滑函数, 然后采

图37.2 莎士比亚词汇量统计图。
用跟古德类似的方法, 利用贝叶斯原理对未知进行估计, 得到的结论是: 莎士比亚所知道的单词比使用的要多 10% 左右, 也就是大约 35000 个。
你或许要问, 研究这个问题的实际意义在哪里? 举几个例子吧。 一个非常复杂的软件包含数万行程序指令, 由很多程序员在不同的时间里陆续完成。 要想找出所有的程序错误是很难的。 假如我们已经找出了一些错误, 类似的分析可以帮助我们估计可能还有多少程序错误, 这样我们对这个软件的可靠性就有了一种定量的估计。 下一次地震、飓风、暴风雨等出现的概率也可以用类似的方法来估计。 我们对过去事件知道得越清楚, 对未来未知事件的估计也就越准确。 “温故而知新”, 古人的话在这里有新的含义。
再看一个例子。 据统计, 除去陨星带来的空间物质和类似工业合成物的矿物, 目前国际矿物学会认可的地球矿物共有 4831 种。 有些矿物在很多地点被发现过, 但有很多矿物只在一个地点有报告。 如果我们把各种矿物按照它们被发现的地点的数目来分门别类, 就得到一张类似于莎士比亚词汇量的图 (图 37.3)。 在这张图里, 横轴 (矿物出现地点的数目) 相当于 , 纵轴 (矿物种类的数目) 相当于 。 曲线的趋势也是图 30.2 的样子, 左边非常高, 右边迅速降低, 大致遵从泊松分布。 我们看到仅仅出现在一两个地点的矿物数目最多。 这就提出了一个问题: 有多少矿物的出现是由地球演进过程中的某些偶然因素决定的? 假如我们能把地球的演化过程重复一次, 是不是会有其他不同的矿物出现? 那么, 地球上究竟可能有多少种矿物? 我们通过对所知道的矿物种类的了解 (如图 37.3), 能不能对这个问题有个近似的回答呢?

图37.3 地球上矿物种类与出现地点的分布。
答案是肯定的。
我们的样本是 4831 种地球矿物, 它们分布在许许多多不同的地点。 如果把每一种矿物同它被发现的地点做成一个数据对, 根据国际矿物学会的数据, 目前一共有 652 856 个确定的数据对。 通过选择 LNRE 数据分布的模型 (比如泊松分布), LNRE 的统计分析理论可以得出矿物 - 地点数据对随矿物种类变化的理论曲线, 如图37.4。
从这张图我们看到, 随着矿物 - 地点数据对数目的增加, 矿物的种类也增加。 图 37.4 中的竖直虚线对应着已知的 652856 个矿物 - 地点数据对。 与竖直虚线相交的水平虚线对应的是已知的 4831 种矿物。 曲线超过两条虚线的交点继续增加, 不过增加的幅度越来越小, 最后趋于常数, 这个常数约等于 6400。 也就是说, 大约还有 25% 新矿物等待人们去发现。

图37.4 地球上还有多少种矿物没有被发现? 粗曲线是所有可能矿物数目的预计总数, 图下侧两条细曲线是只在一个地点 和两个地点 出现矿物-地点数据对 的矿物的数目。
但是, 这是根据目前发现的矿物来分析的。 而我们知道, 地球的演化经过了许多不同的时期, 每个时期地球表面的环境都很不同。 早期的地球很可能经过深度的熔融, 后来冷却, 地表温度慢慢降低, 逐渐形成了现在的样子。 在演进的过程中, 会不会有很多矿物像恐龙一样被 “消灭” 了, 或者深深地沉入地球内部了呢? 如果我们能把地球的演化像放电影一样, 从头开始放映出来, 那么, 在整个地球的历史中, 会有多少种矿物呢? 另外, 对于类似于地球但具有不同演进历史的星球来说, 会有多少种可能的矿物呢?
对于这样的问题, 我们上面介绍的方法就不适用了。 不过还是有办法的, 虽然不那么精确。 地壳里面有 72 种形成矿物的化学元素, 但它们的含量变化很大。 最富含的元素为氧、碳、镁、硅、硫和铁。 绝大多数的矿物是由这些元素构成的。 从 4831 种已知矿物的化学分析, 我们得到这样一个大致的估计: 每一个元素跟大约 1000 种矿物有关系, 而所有矿物所包含的元素数目的平均值是 4.7。 从这个简单的估计, 我们发现, 一个类似于地球的星球上所有可能的矿物种类数大约是
72 (元素) (每个元素所能产生的矿物种类) (种).(37.7)换句话说, 地球上所发现的矿物大致相当于地球类行星上所有可能矿物种类的 30%。
式 (37.7) 显然不是精密的科学, 而只是利用某些统计结果来对事物进行粗略的估计, 但它非常有用。 它促使我们考虑那些没有被发现的矿物会是什么样的, 有没有可能在实验室里合成它们。 在考察过程中, 人们对式 (37.7) 做出逐渐深入的评判。 如果发现还有其他因素影响矿物的种类, 那么式 (37.7) 就需要做出相应的改进, 把缺失的因素补充进去。 经过对修正后的式 (37.7) 进一步仔细考察, 如此循环迭代, 我们对矿物种类的知识就越来越精确了。
海洋生物学家声称, 海里有 90% 的生物还没有被发现。 你有没有想过, 既然还没有被发现, 海洋生物学家怎么会知道是 90% 呢? 我们还可以问, 地球的海洋里和大陆上一共有多少种生物? 整个宇宙里可能有多少颗星星? 他们所用的方法跟这个估计方法很类似。
作为最后一个例子, 让我们考虑一个似乎令人无从下手的问题: 在银河系当中, 是否存在具有类似于人类的高等智慧生物的星球? 其中可能跟人类发生接触的星球的数目会是多少呢?

图37.5 德雷克和著名的德雷克公式。
有一个人, 从 8 岁起就开始问自己这样的问题。 这个人就是法兰克·德雷克 (Frank Drake, 1930一)(图37.5)。 他从康奈尔大学毕业后, 转入哈佛大学研究无线电天文学, 后来在 1960 年首次使用无线电技术试图搜寻外星生命, 这就是所谓的奥兹玛计划 (Project Ozma)。 奥兹玛公主是童话小说系列《绿野仙踪》(The Wonderful Wizard of 中的一部《翡翠城》(The Emerald City of ) 里面的主人翁。 作者鲍姆 (L. Frank, Baum, 1856-1919) 在故事里声称, 自己通过无线电与神秘国度奥兹 (Oz) 联系, 从而了解了整个故事发生的经过。 德雷克利用直径为 26 米的无线电波望远镜连续观察两颗距离太阳系不远的行星天苑四 (Epsilon Eridani) 和天仓五 (Tau Ceti), 觉得它们似乎适于生物居住。 经过几年的努力, 没有发现任何从外星生命发来的讯息。 但德雷克仍然认为, 未来与外星生命的接触是不可避免的, 而且最大的可能是通过无线电或光学信号。 他的努力引起很多非专业人士的注意, 促发《星球大战》等关于外星文明的科幻电影和文学作品的发展。
1961 年秋天, 德雷克计划在西维吉尼亚州奥兹玛计划的运行场地召开第一次搜寻外星文明计划的探讨会。 考虑到对这个计划感兴趣的人来自社会的各个不同层面, 与会人士想要讨论的内容很可能涉及天文学、经济学、社会学、伦理学、哲学等各个层面, 他需要一个主题和议程。 经过一番思考, 他决定用一个数学方程来总结搜寻外星文明的重要性:
这里, 是银河系中可能与地球发生通讯联系的星球数目, 它由等式右边的 7 个参数的乘积来决定, 其中
——银河系中恒星生成的平均速率;
——所有上述恒星中含有行星的部分 (0到 1 );
——每颗星中可能演化出生命的行星的平均数目;
——在可能演化出生命的行星中实际上演化出生命的部分 (0到 1 );
——上述行星实际上演化出高智商生命 (文明) 的部分;
——上述行星中文明发展到具有发出通讯信号技术的部分;
——上述高智商文明向空间发出可探测讯号的时间长度。
所有这些参数都是未知的, 只能靠估计, 而估计需要假定。 不同的假定会给出相当不同的参数。 德雷克后来回忆说, 与会者对式 (37.8) 整整讨论了三天, 根据当时的估计, 式 (37.8) 右边的前 6 个参数之积约等于 1。 会议结束时, 主持人举杯祝酒说: “为了 。 希望它是一个非常大的数!” 后来, 不同的研究得出许多不同的 , 从 1 到 1000000 不等。
这个公式从出现到今天已经 60 年了, 天文学家还在不断地对等式右边 7 个参数进行界定, 期望对 做出越来越准确的估计。 最近的一些研究似乎暗示, 很可能是一个很小的数。
LNRE在这个问题上也很有帮助。 地球的年龄到目前为止大约是 45 亿年。 在这么长的时间里, 人类才进化到目前的智力水平。 再过 10 亿年, 太阳辐射的变化很可能使得地球不再适合复杂有机生命体生存。 在其他星球上, 智力演进所需要的时间很可能会超过地球的年龄。 而每个星球本身的生命都是有限的。 利用贝叶斯理论分析生物演进过程中物种突变的概率, 发现从生物演进的角度来看, 有智力的生命在宇宙当中很可能是极为稀有的事件。 绝大多数生命很可能还没有演进到人类智商的水平就已经灭亡了。 所以在银河系里, 恐怕接近于 1, 人类可能是很孤独的。
最后, 让我们以古德的故事来结束本章。
古德在二战后得到曼彻斯特大学的教席, 但因为不喜欢教书, 他转到政府通讯总部 (Government Communications Headquarters) 专职从事研究。 他的工作都属于保密性质, 无法发表研究结果。 古德一直对计算机智能 (也就是我们后面将要讲到的人工智能)深感兴趣。 早在 1965 年, 他就著述讨论机器的超级智能以及人类和机器思维逻辑的问题。 他甚至忧虑, 机器智能说不定会造成人类的毁灭。 后来他得到芝加哥大学教授的聘书, 但最终去了弗吉尼亚理工学院 (Virginia Polytechnic Institute)。 据说那里给了他双倍的工资, 比校长的工资还要高。
古德是个富有幽默感的人。 他的轿车的牌照是007 IJG, 暗喻自己曾经跟詹姆斯·邦德是同行。 他曾经发表过一篇双作者的研究文章, 合作者名叫K. Caj Doog。 这是把他自己的名字 Good Jack 颠倒顺序得到的。 今天, 在科研文章中开这样的玩笑已经不可能了。
这个研究稀有事件概率的人, 当然非常注意稀有事件。 犹太人注重数字 7, 认为它代表上帝和神圣。 古德 (图 37.6) 后来在回忆自己从 1967 年移民到美国的经历时说:

图 37.6 1994 年的古德。
“我抵达黑堡 (Blackburg, 弗吉尼亚理工学院所在地) 是在本世纪第七个十年的第七个年头, 第七个月的第七天的第七个小时。 这一切都是巧合。 ”
但还有另一个稀有事件, 恐怕对古德来说更为重要。
古德终身未婚。 在弗吉尼亚理工学院任教期间, 他以完美主义者闻名于校园, 三年中换了十位女秘书, 她们都受不了古德对文稿和信件的吹毛求疵。 第十一位秘书到位后不久, 古德如逢知己, 很快向她求婚, 但遭到拒绝。 然而, 正是这位小他 40 岁的来自田纳西的女人后来悉心照料了他 30 年。 她陪着古德去度假, 处理他工作和生活中的所有文件和书稿, 帮他管理财务, 直到退休, 后来继续在他健康日益恶化的日子里照顾他。 为此, 这个年轻的金发女郎听到不少流言蜚语, 但她没有反驳。 直到在古德的葬礼上, 向古德致最后的道别词时, 她坦然面向众人, 道出自己的内心。 她跟古德没有任何爱情, 但两个人有深刻的相互理解。 她从来不是古德的情人, 而是一位 30 年始终如一的挚友, 一个保护古德财产和记忆的坚定的监护人。
本章主要参考文献
Bank, D. L. A conversation with I. J. Good. Statistical Science, 1996, 11: 1-19.
Drake, F., D. Sobel. The origin of the Drake equation. Astronomy Beat, 2010, 46: 1-4.
Efron, B., R. Thisted. Estimating the number of unseen species: How many words did Shakespeare know? Biometrika, 1976, 63: 435-447.
Good, I. J. The population frequencies and the estimation of population parameters. Biometrika, 1953, 40: 237-264.
Hazen, R. M., E. S. Grew, R. T. Downs, J. Golden, G. Hystad. Mineral ecology: chance and necessity in the mineral diversity of terrestrial planets. The Canadian Mineralogy, 2015, 53: 295-324.
Snyder-Beattie, A. E., A. Sandberg, K. E. Drexler, M. B. Bonsall. The timing of evolutionary transitions suggests intelligent life is rare. Astrobiology, 2021, 21: 1-14.