我们比较在构造总体期望 置信区间时,总体方差 已知和未知两种情况的主要区别。 基本假设是总体服从正态分布 ,或者样本量 足够大使中心极限定理适用(对于 t 分布,正态性假设在小样本时更重要)。

特征 / 方面情况 1: 已知情况 2: 未知
核心假设 (或 ) 的值是已知的常数 (或 ) 的值未知
使用的枢轴量
枢轴量的分布标准正态分布 t 分布 (自由度 ),
使用的临界值 (来自 分布) (来自 分布)
置信区间公式
需要的样本信息 (以及已知的 )
区间半宽度 (误差限)
区间总宽度

关键区别分析:

  1. 枢轴量与分布:

    • 已知时,标准误 是一个确定的值(对于给定的 ),使得标准化后的统计量 精确服从 分布。
    • 未知时,我们用样本标准差 替代 ,得到标准误的估计值 。由于 本身是随机变量(会随样本而变),它给统计量 带来了额外的变异性。为了解释这种额外的不确定性, 服从尾部更厚的 t 分布,而不是 Z 分布。
  2. 临界值:

    • 对于任何给定的置信水平 和样本量 (, 故 ),t 分布的临界值总是大于标准正态分布的临界值:
    • 这种差异在样本量 较小时尤其显著。随着 增大 (), 会趋近于
    • t 分布临界值更大,意味着为了达到相同的置信水平 ,我们需要在均值 两侧留出更宽的范围,以弥补因使用 估计 而增加的不确定性。

知道方差 如何对估计产生帮助?

知道真实的总体方差 (或标准差 ) 是一项宝贵的信息,它对期望 的区间估计主要有以下帮助:

  1. 提高估计精度 (得到更窄的置信区间):

    • 对比两个区间的半宽度(误差限 E)或总宽度 W。假设我们有两组数据,样本量 和样本均值 都相同,并且碰巧计算出的样本标准差 等于真实的 (即 )。
    • 在这种理想情况下,由于 ,必然有:
      • 宽度 (未知 ):
      • 宽度 (已知 ):
    • 这意味着,在其他所有条件相同的情况下(相同的样本数据 ,相同的置信度 ,甚至 恰好等于 ),知道 可以让我们使用 Z 分布,得到一个 更窄 的置信区间。
    • 更窄的区间意味着对 的估计更加精确。我们能够以相同的置信度,将 的可能范围锁定在一个更小的区间内。
  2. 减少不确定性来源:

    • 未知时,区间估计的不确定性有两个来源:
      • 一是样本均值 相对于总体均值 的抽样误差;
      • 二是样本标准差 相对于总体标准差 的估计误差。t 分布正是同时考虑了这两种不确定性。
    • 已知时,第二个不确定性来源被消除了。我们不再需要担心 的估计是否准确,只需关注 的抽样误差即可。这使得我们可以使用更“集中”的标准正态分布 Z。

总结:

知道总体方差 相当于掌握了关于总体分布变异程度的精确信息。这消除了估计 所带来的不确定性,允许我们使用临界值更小的 Z 分布来构建置信区间。其最终结果是,对于相同的样本数据和置信水平,可以获得一个更窄、更精确的关于总体期望 的估计范围。因此,在能够合理假设或通过先验知识得知 的情况下,优先使用基于 Z 分布的方法会得到更优(更精确)的估计结果。然而,在实践中, 未知的情况更为普遍,使用 t 分布是更常用且更符合实际的方法。