正如我们之前讨论的,夏洛克·福尔摩斯的名言——“混淆怪诞与神秘是一个错误。” (It is a mistake to confound strangeness with mystery.)——是他理性探案方法的核心。在他的第一个记录在案的冒险,《血字的研究》(A Study in Scarlet) 中,这一原则得到了淋漓尽致的体现,也为我们理解假设检验提供了生动的案例。

《血字的研究》中的“怪诞”与警方的“神秘化”

故事开始于一桩发生在伦敦空屋内的离奇命案,死者是美国人伊瑙克·锥伯(Enoch Drebber)。

  1. “怪诞”的现场 (Strangeness):

    • “RACHE”血字: 墙上用血写着“RACHE”的字样。这是德语“复仇”的意思,但对于不了解或不细究的苏格兰场警探雷斯垂德(Lestrade)和葛莱森(Gregson)来说,这非常“怪诞”。
    • 无明显伤痕: 锥伯身上没有明显的致命外伤,死因不明。
    • 女人的婚戒: 现场发现了一枚女人的婚戒。
    • 气味与药丸: 房间里有某种特殊气味,后来福尔摩斯发现了小药丸(其中一颗无毒,一颗有毒)。
  2. 警方的“神秘化”倾向 (Confounding Strangeness with Mystery):

    • 雷斯垂德的假设 (): 看到“RACHE”,他首先想到的是一个女人的名字“Rachel”,并试图寻找一个叫雷切尔的女性嫌疑人,认为这可能是一桩情杀案。他把一个“怪诞”的线索简单地导向了一个常见的、但不正确的“神秘”方向(即一个名为雷切尔的女性凶手)。
    • 葛莱森的假设 (): 他逮捕了死者的秘书约瑟夫·斯坦节逊的儿子,认为他有作案嫌疑。这也是基于一些表面“怪诞”行为的常规推断。
    • 对于警方来说,这些“怪诞”的元素组合在一起,构成了一个棘手的“神秘”案件,他们试图用自己经验中的常见作案动机去套,但都未能抓住要害。他们容易将孤立的“怪诞”线索放大,并构建出不成熟的“神秘”理论。

福尔摩斯的“假设检验”:拨开“怪诞”见真相

福尔摩斯则展现了如同严谨的“假设检验”般的思维过程:

  1. 初步观察与广泛收集“怪诞”数据:

    • 福尔摩斯仔细勘察现场,不错过任何“怪诞”的细节:血字的具体写法、戒指的样式、车辙的宽度、雪茄的灰烬、死者的表情、房间的气味。这些都是他的“样本数据”。
  2. 不轻易将“怪诞”上升为“神秘”,而是形成多个工作假设 ():

    • 对于“RACHE”,他没有像雷斯垂德那样直接认定是“Rachel”,而是考虑了其德语含义“复仇”。这就形成了一个关键的备择假设方向:: 凶案的动机是复仇。 这个假设比警方的“情杀”或“普通仇杀”更具体,也更能解释现场的“怪诞”氛围。
    • 戒指、毒药、以及后来对死者过往的调查(来自美国的背景,与摩门教的纠葛),这些“怪诞”的数据点不断被纳入他的分析框架。
  3. “检验”假设,排除不合理的“神秘”解释:

    • 福尔摩斯会评估各种线索(“怪诞”数据)在不同假设下的可能性(类似P值的概念)。
      • 如果“RACHE”仅仅是“Rachel”名字的一部分,那么现场的其他复仇氛围的线索(如死者惊恐的表情)就显得不那么协调。
      • 如果这是一起普通抢劫或情杀,那枚独特的婚戒的出现方式以及精心设计的毒杀方式就显得过于“怪诞”和不必要。
    • 他通过演绎推理,不断排除那些无法合理解释所有“怪诞”数据的假设(即那些P值相对较高的、不足以推翻一个更简单或更常规“原假设”的解释)。
  4. 形成一个能够解释所有“怪诞”的、最可能的备择假设 ():

    • 最终,福尔摩斯构建了一个完整的叙事(杰弗逊·霍普为未婚妻露西·费里厄及其养父复仇的故事)。这个叙事(他的最终备择假设)能够完美地解释所有“怪诞”的线索:
      • “RACHE”是凶手故意写的“复仇”。
      • 婚戒是露西的,被霍普珍藏并刻意留下。
      • 毒药是霍普设计的复仇工具,让锥伯在两颗药丸中选择,带有宿命的审判意味。
      • 第二名死者斯坦节逊(Stangerson)被刺死,也与复仇计划吻合。
    • 在这个最终的解释(备择假设)下,所有最初看起来孤立且“怪诞”的元素都变得合乎逻辑,不再“神秘”,而是指向一个明确的、由深仇大恨驱动的复仇计划。最初的“怪诞”数据,在正确的理论框架下,其发生的概率(P值)就显得不那么小了,因为它们是这个复仇故事的必然组成部分。

与统计假设检验的联系:

  • “怪诞”的观察 (Strange Observations in the case / Small P-value): 如同假设检验中,我们观察到样本数据与原假设 () 的预期有显著差异(P值很小)。《血字的研究》中的“RACHE”血字、婚戒、无外伤死亡等,都是相对于“普通凶杀案”() 而言非常“怪诞”的现象。

  • “神秘”的误区 (Confounding with Mystery / Misinterpreting Significance):

    • 警方(雷斯垂德、葛莱森)就像是错误解读P值的初学者:看到一个“怪诞”的结果(显著的P值),就匆忙下结论,认为这是一个特别的“神秘”事件(例如,直接认定是某个叫Rachel的女人干的,或者陷入一个简单却错误的备择假设)。他们混淆了数据的“怪诞性”与结论的“确定性”或“重要性”。
    • 在统计中,这意味着仅仅因为P值小于0.05,就认为备择假设一定为真,且效应一定很大、很重要,甚至忽视了第一类错误的可能性,或没有考虑更深层、更准确的备择假设。
  • 福尔摩斯式的方法 (Avoiding Confounding / Proper Hypothesis Testing & Interpretation):

    • 不满足于表面的“怪诞”: 福尔摩斯不因线索奇特就停止思考,而是探究其背后的逻辑。对应统计,我们不应仅满足于一个显著的P值。
    • 系统收集证据,形成合理的备择假设: 福尔摩斯寻找更多信息,构建一个能解释所有“怪诞”现象的理论。对应统计,我们需要考虑效应大小、研究设计、潜在的混杂因素,并基于理论背景提出合理的备择假设。
    • 寻求最简约且最能解释所有“怪诞”的理论: 福尔摩斯的复仇理论虽然曲折,但它比其他理论更能简洁、全面地解释所有线索。对应统计,我们追求的备择假设应该是能以最合理方式解释数据的那个。
    • 避免第一类错误: 福尔摩斯不会轻易下结论,他会反复验证。对应统计,我们通过设定来控制第一类错误,并通过重复实验来增加结论的可靠性。

教学启示:

在教授假设检验时,引用《血字的研究》的例子:

  1. 强调情境和背景知识的重要性: 福尔摩斯能解开“RACHE”之谜,部分原因是他知识渊博。同样,统计分析不能脱离学科背景。
  2. 鼓励批判性思维: 不要让学生看到P<0.05就欢呼“发现了一个伟大的神秘规律!”引导他们思考这“怪诞”的统计结果背后,实际意义是什么?效应多大?有没有其他解释?
  3. 区分统计显著性和实际显著性: 现场的“怪诞”可能只是凶手故布疑阵,未必都指向核心动机。统计上的显著差异也可能在现实中微不足道。
  4. 过程重于结论: 福尔摩斯的价值在于其严谨的推理过程,而非仅仅是“猜对”凶手。假设检验的教学也应强调其逻辑框架和正确应用步骤,而非仅仅得出“拒绝”或“不拒绝”的结论。

通过这个例子,学生可以更生动地理解,面对数据中的“怪诞”(统计显著性),要像福尔摩斯那样,避免轻易将其归为无法理解的“神秘”,而是要通过严谨的逻辑和进一步的探索,寻找最合理的解释,这正是假设检验科学精神的体现。