引入期望的区间估计 (未知方差)

承接与对比:
- 在前面的讨论中（ $σ^{2}$ 已知），我们使用 $Z = \frac{X ˉ - μ}{σ / n}$ 作为枢轴量，因为它服从已知的标准正态分布 $N (0, 1)$ 。
- 然而，在绝大多数实际应用中，如果总体均值 $μ$ 是未知的，那么总体方差 $σ^{2}$ (或标准差 $σ$ ) 通常也是未知的。假设 $σ$ 已知往往是不现实的。
- 问题：当 $σ$ 未知时，我们应该怎么办？
解决方案：用样本估计总体
- 自然的想法是用样本标准差 $S$ 来估计未知的总体标准差 $σ$ 。
  - 回顾： $S^{2} = \frac{1}{n - 1} \sum_{i = 1}^{n} (X_{i} - \overset{ˉ}{X})^{2}$ 是 $σ^{2}$ 的无偏估计。
- 我们尝试将 $Z$ 统计量中的 $σ$ 替换为它的估计值 $S$ ，得到新的统计量： $T = \frac{X ˉ - μ}{S / n}$
- 关键问题：这个新的统计量 $T$ 还服从标准正态分布 $N (0, 1)$ 吗？
  - 答案：不服从。因为分母上的 $S$ 本身是从样本计算出来的，它是一个随机变量，具有抽样波动性。这种来自估计 $σ$ 的额外不确定性，使得 $T$ 的分布与 $Z$ 不同。
引入 t 分布 (Student’s t-distribution)
- W.S. Gosset (笔名 Student) 在 1908 年研究了当总体服从正态分布 $N (μ, σ^{2})$ 时，统计量 $T = \frac{X ˉ - μ}{S / n}$ 的精确分布。
- 这个分布被称为学生 t 分布 (或简称 t 分布)。
- t 分布的特点：
  - 它由一个参数决定：自由度 (degrees of freedom, df)，对于单样本估计 $μ$ 的问题， $df = n - 1$ 。
  - 图像：关于 0 对称，形状类似标准正态分布，但尾部更“厚” (fatter tails)。这意味着 t 分布认为出现极端值的可能性比正态分布要大，这恰好反映了用 $S$ 替代 $σ$ 所引入的额外不确定性。
  - 随着自由度 $n - 1$ 的增大，t 分布逐渐逼近标准正态分布 $N (0, 1)$ 。当 $n$ 很大时 ( $n \geq 30$ 或更大)， $S$ 对 $σ$ 的估计非常精确，t 分布与 Z 分布几乎没有差别。
利用 t 分布构造置信区间
- 枢轴量：在总体 $N (μ, σ^{2})$ 的假设下， $T = \frac{X ˉ - μ}{S / n}$ 服从自由度为 $n - 1$ 的 t 分布，记作 $t (n - 1)$ 。这是一个理想的枢轴量，因为它包含 $μ$ ，其分布已知且不依赖未知参数 ( $μ, σ^{2}$ )。
- 构建概率不等式：对于给定的置信水平 $1 - α$ ，查找 t 分布的上 $α /2$ 分位数 $t_{α /2} (n - 1)$ ，使得 $P (- t_{α /2} (n - 1) < T < t_{α /2} (n - 1)) = 1 - α$ 。
- 推导置信区间：将 $T$ 的表达式代入并解出 $μ$ ： $P (\overset{ˉ}{X} - t_{α /2} (n - 1) \frac{S}{n} < μ < \overset{ˉ}{X} + t_{α /2} (n - 1) \frac{S}{n}) = 1 - α$
- 置信区间公式 ( $σ$ 未知时): $(\overset{ˉ}{X} - t_{α /2} (n - 1) \frac{S}{n}, \overset{ˉ}{X} + t_{α /2} (n - 1) \frac{S}{n})$ 或者简写为 $\overset{ˉ}{X} \pm t_{α /2} (n - 1) \frac{S}{n}$ 。
例子：
- 这些例子更符合实际，因为我们不再需要假设 $σ$ 已知。
- 例子 1: 新教学方法的效果评估
  - 场景：研究者想估计采用某种全新教学方法后，学生在某项能力测试上的平均得分 $μ$ 。
  - $σ$ 未知原因：因为是新方法，没有历史数据可以提供该方法下学生得分的标准差 $σ$ 。 $μ$ 和 $σ$ 都需要从样本数据中估计。
  - 数据：随机抽取 $n = 20$ 名学生接受新方法教学并参加测试。计算得到样本均值 $\overset{ˉ}{X}$ 和样本标准差 $S$ 。
  - 区间需求：构造 $μ$ 的 95% 置信区间，以评估新方法的平均效果。
  - 解析：使用 t 分布，自由度 $df = n - 1 = 19$ 。查找 $t_{0.025} (19)$ ，计算区间 $\overset{ˉ}{X} \pm t_{0.025} (19) \frac{S}{20}$ 。
- 例子 2: 游客日均消费估计
  - 场景：某城市旅游局想了解游客在该市的日均消费金额 $μ$ 。
  - $σ$ 未知原因：不同游客的消费习惯差异很大，无法预先知道消费金额的标准差 $σ$ 。
  - 数据：随机调查 $n = 50$ 名游客，记录其日均消费。计算样本均值 $\overset{ˉ}{X}$ 和样本标准差 $S$ 。
  - 区间需求：构造 $μ$ 的 90% 置信区间，为旅游经济规划提供参考。
  - 解析：使用 t 分布，自由度 $df = n - 1 = 49$ 。查找 $t_{0.05} (49)$ ，计算区间 $\overset{ˉ}{X} \pm t_{0.05} (49) \frac{S}{50}$ 。
- 例子 3: 新药疗效评估
  - 场景：制药公司研发了一种新降压药，想估计该药能使患者的收缩压平均降低多少 ( $μ$ )。
  - $σ$ 未知原因：新药对不同患者的效果可能不同，其引起的血压降低值的标准差 $σ$ 是未知的。
  - 数据：选取 $n = 25$ 名高血压患者服用该药一段时间，记录每人收缩压的降低值。计算这些降低值的样本均值 $\overset{ˉ}{X}$ 和样本标准差 $S$ 。
  - 区间需求：构造 $μ$ 的 95% 置信区间，判断该药的平均降压效果。
  - 解析：使用 t 分布，自由度 $df = n - 1 = 24$ 。查找 $t_{0.025} (24)$ ，计算区间 $\overset{ˉ}{X} \pm t_{0.025} (24) \frac{S}{25}$ 。
总结与对比:
- 当 $σ$ 未知时，使用样本标准差 $S$ 代替 $σ$ ，并使用 t 分布（自由度 $n - 1$ ）代替 Z 分布来构造均值 $μ$ 的置信区间。
- t 分布的临界值 $t_{α /2} (n - 1)$ 通常大于对应的 $z_{α /2}$ 值（尤其在 $n$ 较小时），这使得未知方差情况下的置信区间通常比已知方差情况下的区间要宽。这反映了因为需要估计 $σ$ 而带来的额外不确定性，使得估计的精度有所下降。
- 计算出的区间 $\overset{ˉ}{X} \pm t_{α /2} (n - 1) \frac{S}{n}$ 提供了对未知总体均值 $μ$ 的一个估计范围，并附加了 $1 - α$ 的置信度。

Youliang Zhong

Backlinks

Graph View

引入期望的区间估计 (未知方差)

Youliang Zhong

Backlinks

Graph View

引入 期望的区间估计 (未知方差)

引入期望的区间估计 (未知方差)