主题: 在已知期望 的条件下,能否使用与均值相关的 Z 统计量 来构造方差 的置信区间?
一、 问题的提出
- 我们知道,当总体 的方差 已知时,可以用枢轴量 来构造均值 的置信区间。
- 现在考虑相反的情况:假设均值 已知,我们想构造方差 的置信区间。
- 一个看似 plausible 的想法是:既然 统计量中含有 ,并且当 已知时 的分布 也是已知的,我们是否可以直接利用 来反推出 的区间呢?
二、 尝试使用 Z 统计量推导 区间
-
枢轴量及其分布 (假设 已知, 未知):
- 假定总体正态或 足够大,则 。
-
标准正态分布的概率陈述:
- 对于置信水平 ,存在临界值 (满足 ) 使得:
-
代入 Z 统计量表达式:
-
尝试从不等式中分离出 :
- 核心不等式为:。
- 考虑其绝对值形式:
- 假设 (若 ,则无法得到关于 的信息)。由于 且 ,整理可得:
三、 分析尝试失败的原因
-
仅得到单侧置信下限:
- 上述推导结果 (或 ) 仅仅给出了 (或 ) 的一个置信水平为 的置信下限。
- 它没有提供置信上限。因此,我们无法形成一个双侧的置信区间。
-
无法约束 的上限:
- Z 统计量 对 的上限不敏感。
- 如果样本均值 碰巧非常接近已知的总体均值 ,则分子 非常小。
- 即使 非常大,导致分母 很大,Z 的绝对值 仍然可能很小,落在区间 内。
- 因此,Z 统计量无法排除 取非常大值的可能性,无法为其设定一个置信上限。
-
枢轴量与目标参数的信息不匹配:
- Z 统计量衡量的是样本均值 相对于总体均值 的标准化偏差。它反映的是均值的抽样误差信息,虽然这个误差的大小与 有关。
- 而估计方差 需要的是关于数据散布程度的信息。这种信息主要包含在样本观测值 相对于中心(这里是已知的 )的离差平方和 中。
- Z 统计量并没有直接利用 这个核心信息。
四、 正确的方法回顾:使用卡方 () 分布
-
正确的枢轴量 (当 已知时):
- 这个统计量直接基于离差平方和,是衡量方差的核心。
-
枢轴量的分布:
- 假设总体为 ,则 (自由度为 的卡方分布)。
-
构造区间:
- 分布是定义在 上的分布。我们可以找到两个临界值 和 使得:
- 从这个包含 的双边不等式中,可以成功解出 的下限和上限:
- 这就给出了 的一个置信水平为 的双侧置信区间。
五、 结论
- 试图使用 Z 统计量 来构造方差 的置信区间(即使在 已知的情况下)是行不通的。
- 主要原因是该方法只能提供 的置信下限,无法提供上限,不能形成区间。
- 根本原因在于 Z 统计量衡量的是均值的抽样误差,而非直接衡量数据的离散程度。
- 正确的方法是使用基于离差平方和的统计量 ,该统计量服从卡方分布 ,其性质允许我们推导出 的双侧置信区间。