一、 引言
- 背景:比较两个独立总体的变异程度(方差)的大小关系。
- 参数:我们关注的是两总体方差之比 σ12/σ22。
- 数据:拥有来自两个正态总体的独立随机样本:
- 样本 1: X1,...,Xn1 来自 N(μ1,σ12)。
- 样本 2: Y1,...,Yn2 来自 N(μ2,σ22)。
- 关键分布:区间估计依赖于 F 分布,它定义为两个独立的卡方随机变量除以各自自由度后的比率。
- 若 V1∼χ2(k1), V2∼χ2(k2) 且 V1,V2 独立,则 F=V2/k2V1/k1∼F(k1,k2)。
- 目标:构造 σ12/σ22 的 1−α 置信区间。方法取决于总体均值 μ1,μ2 是否已知。
二、 情况一:两总体均值 μ1,μ2 均未知 (标准情况)
- 前提假设:
- 两样本独立。
- 两总体均为正态分布 N(μ1,σ12) 和 N(μ2,σ22)。
- 均值 μ1,μ2 未知。
- 基础卡方统计量:
- 需要使用样本方差 S12=n1−11∑(Xi−Xˉ)2 和 S22=n2−11∑(Yj−Yˉ)2。
- 已知:
- V1=σ12(n1−1)S12∼χ2(k1),其中自由度 k1=n1−1。
- V2=σ22(n2−1)S22∼χ2(k2),其中自由度 k2=n2−1。
- V1 和 V2 相互独立。
- F 统计量构造:
F=V2/k2V1/k1=σ22(n2−1)S22/(n2−1)σ12(n1−1)S12/(n1−1)=S22/σ22S12/σ12
F=S22S12⋅σ12σ22
- F 统计量分布:
- F∼F(k1,k2)=F(n1−1,n2−1)。
- 枢轴量:
- F=S22/σ22S12/σ12 是一个合适的枢轴量。
- 置信区间推导:
- 查找 F 分布的临界值 F1−α/2(n1−1,n2−1) 和 Fα/2(n1−1,n2−1)。
- P(F1−α/2(n1−1,n2−1)<F<Fα/2(n1−1,n2−1))=1−α。
- 代入 F 表达式并整理分离出 σ12/σ22。
- 1−α 置信区间公式 (for σ12/σ22):
(S22S12⋅Fα/2(n1−1,n2−1)1,S22S12⋅F1−α/2(n1−1,n2−1)1)
- 利用 F1−β(k1,k2)=1/Fβ(k2,k1) 的性质,区间也可写为:
(S22S12⋅Fα/2(n1−1,n2−1)1,S22S12⋅Fα/2(n2−1,n1−1))
三、 情况二:两总体均值 μ1,μ2 均已知
- 前提假设:
- 两样本独立。
- 两总体均为正态分布 N(μ1,σ12) 和 N(μ2,σ22)。
- 均值 μ1,μ2 是已知的常数。
- 基础卡方统计量:
- 直接使用围绕已知均值的离差平方和。定义 σ^1,μ2=n11∑(Xi−μ1)2 和 σ^2,μ2=n21∑(Yj−μ2)2。
- 已知:
- V1′=σ12∑i=1n1(Xi−μ1)2=σ12n1σ^1,μ2∼χ2(k1′),其中自由度 k1′=n1。
- V2′=σ22∑j=1n2(Yj−μ2)2=σ22n2σ^2,μ2∼χ2(k2′),其中自由度 k2′=n2。
- V1′ 和 V2′ 相互独立。
- F 统计量构造:
F′=V2′/k2′V1′/k1′=σ22n2σ^2,μ2/n2σ12n1σ^1,μ2/n1=σ^2,μ2/σ22σ^1,μ2/σ12
F′=σ^2,μ2σ^1,μ2⋅σ12σ22
- F 统计量分布:
- F′∼F(k1′,k2′)=F(n1,n2)。
- 枢轴量:
- F′=σ^2,μ2/σ22σ^1,μ2/σ12 是一个合适的枢轴量。
- 置信区间推导:
- 查找 F 分布的临界值 F1−α/2(n1,n2) 和 Fα/2(n1,n2)。
- P(F1−α/2(n1,n2)<F′<Fα/2(n1,n2))=1−α。
- 代入 F’ 表达式并整理分离出 σ12/σ22。
- 1−α 置信区间公式 (for σ12/σ22):
(σ^2,μ2σ^1,μ2⋅Fα/2(n1,n2)1,σ^2,μ2σ^1,μ2⋅F1−α/2(n1,n2)1)
- 利用 F 分布性质,区间也可写为:
(σ^2,μ2σ^1,μ2⋅Fα/2(n1,n2)1,σ^2,μ2σ^1,μ2⋅Fα/2(n2,n1))
四、 总结比较
特征 | 情况 1: 均值 μ1,μ2 未知 | 情况 2: 均值 μ1,μ2 已知 |
---|
均值假设 | 未知 | 已知 |
F统计量中比率的分子 | 样本方差 S12 | 基于已知均值的估计 σ^1,μ2 |
F统计量中比率的分母 | 样本方差 S22 | 基于已知均值的估计 σ^2,μ2 |
分子自由度 (k1) | n1−1 | n1 |
分母自由度 (k2) | n2−1 | n2 |
F 分布自由度 | F(n1−1,n2−1) | F(n1,n2) |
区间计算依赖 | S12,S22,n1,n2 | ∑(Xi−μ1)2,∑(Yj−μ2)2,n1,n2 |
五、 知道均值的价值
- 主要区别在于 F 分布使用的自由度。当均值已知时,构造 F 统计量所依赖的两个(独立的)卡方分布的自由度分别为 n1 和 n2;而当均值未知时,需要先估计均值,导致自由度损失,分别为 n1−1 和 n2−1。
- 更高的自由度意味着使用了更多的样本信息。在均值已知的情况下,我们利用了 n1 和 n2 个完全独立的(关于 σ12 和 σ22 的)信息片段(即 (Xi−μ1)2 和 (Yj−μ2)2)。而在均值未知时,由于 ∑(Xi−Xˉ)=0 和 ∑(Yj−Yˉ)=0 的约束,我们实际上只利用了 n1−1 和 n2−1 个自由度的信息。
- 拥有更高的自由度通常使得 F 分布更加“集中”,这可能导致(虽然不保证区间宽度直接比较)基于更充分信息的、更精确的关于方差比 σ12/σ22 的推断。
- 知道均值 μ1,μ2 避免了使用样本均值 Xˉ,Yˉ 带来的估计误差,使得对总体方差的衡量(离差平方和)是围绕真实的中心进行的。
总结:
知道总体均值 μ1,μ2 允许我们在构造方差比 σ12/σ22 的置信区间时,利用具有更高自由度 (n1,n2) 的 F 分布,而不是自由度为 (n1−1,n2−1) 的 F 分布。这代表了对样本信息的更充分利用,可能带来更精确的区间估计。然而,在实际应用中,总体均值通常是未知的,因此基于 S12,S22 和 F(n1−1,n2−1) 的方法是标准和更常用的。
(当前时间: Tuesday, April 29, 2025 at 8:24:05 AM PDT)