构造总体方差 的 置信区间,关键在于找到一个合适的、其分布已知的枢轴量。使用的枢轴量以及其自由度取决于总体均值 是否已知。
特征 / 方面 | 情况 1: 期望 已知 | 情况 2: 期望 未知 |
---|---|---|
核心假设 | 总体 , 的值已知 | 总体 , 的值未知 |
用于构造枢轴量的统计量 | ||
枢轴量 (Pivotal Quantity) | ||
枢轴量的分布 | 卡方分布 () | 卡方分布 () |
分布的自由度 (df) | ||
使用的临界值 | 和 | 和 |
置信区间公式 for | ||
需要的样本信息 | (以及已知的 ) | (或 来计算 ) |
关键区别分析:
-
自由度 (Degrees of Freedom):
- 当 已知时,我们直接使用 个离差 来构造平方和 。这 个离差包含了 个独立的信息片段(假设 独立)。因此,得到的卡方统计量 具有 个自由度。
- 当 未知时,我们必须先用样本均值 来估计 ,然后计算离差 。然而,这些离差并非完全独立,它们受到一个约束条件 的限制。这个约束消耗掉了 1 个自由度。因此,基于 (即 )构造的卡方统计量 只有 个自由度。
-
枢轴量中的分子 (Sum of Squares):
- 当 已知时,枢轴量的分子是 ,即样本点围绕真实总体均值的离差平方和。
- 当 未知时,枢轴量的分子是 ,即样本点围绕样本均值的离差平方和。
- 一个重要的数学事实是:对于任何样本, (仅当 时取等号)。样本均值 具有最小化离差平方和的性质。
- 从期望来看,,而 。这也就是为什么 的分母是 以确保其无偏性。
-
临界值和区间计算:
- 由于自由度不同 ( vs ),在查找卡方分布的临界值 和 时会得到不同的数值。
- 区间公式的分子结构也不同(一个是基于已知 的平方和,一个是基于样本方差 )。
知道期望 如何对估计方差 产生帮助?
知道真实的总体期望 对估计总体方差 提供了实质性的帮助:
-
利用了更完整的信息: 当 已知时,我们利用了关于总体中心的精确信息。计算离差 时,我们是围绕着真实的中心来衡量波动的。而当 未知时,我们使用的离差 是围绕样本中心 的, 本身就有抽样波动,这间接引入了由估计 带来的不确定性。
-
更高的自由度: 如上所述,已知 使得相应的卡方统计量拥有 个自由度,而未知 时只有 个自由度。拥有更高的自由度通常意味着统计推断基于更多的独立信息。 分布相比 分布包含的信息更多(因为它基于 个平方项而非 个)。
-
更精确的估计基础: 虽然直接比较两个区间宽度比较复杂(因为卡方分布不对称,且区间是对方差 而非标准差 ),但从点估计的角度看,当 已知时, 的一个(有偏但均方误差通常更小)估计量是 ,其方差为 (假设总体为正态)。而当 未知时,无偏估计量 的方差为 。因为 ,所以 ,这意味着基于已知 的方差估计(即使调整为无偏)通常比基于未知 的方差估计更稳定、波动更小。这种点估计上的精度优势,会体现在区间估计的过程中,尽管表现形式不是简单的区间宽度缩短。
总结:
知道总体期望 相当于给方差估计提供了一个精确的“锚点”(即总体的中心)。这避免了因需要先估计 而引入的不确定性和自由度损失。因此,基于已知 的方差区间估计利用了 个自由度的信息,而基于未知 的估计只利用了 个自由度的信息。这使得在 已知的情况下,我们对方差 的推断是基于更充分的信息进行的。
(当前时间: Tuesday, April 29, 2025 at 6:49:45 AM PDT)