目标: 证明一般地,设 是从具有期望 和有限方差 的分布 中抽取的独立同分布 (i.i.d.) 随机样本。令 为样本均值, 为无偏样本方差( 为样本标准差)。我们需要证明,当样本容量 充分大时,近似地有: 更准确地说,我们要证明 在分布上收敛于标准正态分布 ,即 as 。
所需关键定理:
- 中心极限定理 (Central Limit Theorem, CLT): 对于具有有限均值 和有限方差 的任意分布,其 i.i.d. 样本的均值 经过标准化后,当 时在分布上收敛于标准正态分布。即:
- 大数定律 (Law of Large Numbers, LLN): 样本矩依概率收敛于相应的总体矩。具体地,无偏样本方差 依概率收敛于总体方差 。
- 连续映射定理 (Continuous Mapping Theorem): 若 是连续函数,且 ,则 。若 ,则 。
- 斯卢茨基定理 (Slutsky’s Theorem): 若 且 (其中 是常数),则:
- (若 )
证明步骤:
-
应用中心极限定理:
- 根据题设, 是 i.i.d. 样本,具有有限均值 和有限方差 。
- 由中心极限定理,我们知道:
-
应用大数定律于样本方差:
- 无偏样本方差为 。
- 根据大数定律,样本方差依概率收敛于总体方差:
- 由于函数 在 时是连续的,根据连续映射定理(应用于依概率收敛): (这里我们假设 ,即 )。
-
应用斯卢茨基定理:
- 我们要考察的统计量是 。
- 将 进行改写,使其与 建立联系:
- 我们已经知道:
- (来自步骤 1)。
- (来自步骤 2)。
- 考虑因子 。由于 且 是一个非零常数,根据依概率收敛的性质以及连续映射定理(对于函数 ,在 处连续):
- 现在我们有 ,其中 且 。
- 应用斯卢茨基定理(, ):
- 因为 ,所以我们证明了:
结论:
该证明表明,即使总体方差 未知,只要我们用其一致估计量(样本标准差 )来替换中心极限定理中的 ,得到的统计量 在大样本条件下 () 的极限分布仍然是标准正态分布 。
这就是为什么在样本容量 充分大时,我们可以近似地认为 ,并基于此进行关于总体均值 的假设检验或构造置信区间(此时通常可以直接使用正态分布的临界值,或自由度很大的 t 分布临界值,因为 as )。这个结果不要求总体必须是正态分布,只需要均值和方差有限即可,体现了中心极限定理和相关极限定理的强大威力。