第三章 随机向量及其分布
大量的实际问题中, 随机试验的结果往往不能用一个数量指标来记录, 也就是说一次随机试验的结果可能对应多个数量指标. 比如, 某气象观测站要观测每天 9:00 的天气情况, 可能同时要记录温度、湿度、风向和分力等. 再比如, 要考查一只股票的某天的交易情况, 可能要记录当天的最高价、最低价、收盘价、成交量等. 这种情况下,对一次试验结果 ,它可能对应 等多个数. 换言之,我们需要用 等多个随机变量来记录或刻画随机试验的结果,这 个随机变量一起就构成随机向量. 由于多维随机向量的统计特性的刻画或分析方法, 与二维随机向量的刻画或分析方法类似. 所以, 本章在介绍随机向量的联合分布和边缘分布的一般概念之后, 主要介绍二维随机向量 (离散型和连续型) 的联合分布及边缘分布.
3.1 随机向量的概念及其分布函数
如前所述, 现实中为了刻画一个随机现象, 随机试验的结果往往需要高于 1 维的数组来记录, 这就需要引入随机向量.
3.1.1 随机向量的定义和联合分布
定义 3.1.1 设 为概率空间,如果 为随机变量, , 则称向量 为随机向量.
从定义 3.1.1 可以看出,随机向量 是基本事件空间 到 维实数空间的一个映射:
也可以说, 随机向量是一个取向量值的随机变量, 也称随机向量为多维随机变量.
对于随机向量应如何刻画它的统计特性 (分布规律) 呢? 模仿一维随机变量的情形, 我们定义它的联合分布函数.
定义 3.1.2 设 为概率空间, 为其上的随机向量, 它的联合分布函数定义为
从定义 3.1.2 看出,分布函数在点 处的值是一个事件的概率, 该事件由使得 落入以 为顶点的半无限区域 的 构成. 那么如何用联合分布函数来刻画随机向量的统计特性呢? 下面定理 3.1.1 中 (iv) 的证明给出了答案.
定理 3.1.1 设 为概率空间,随机向量 的联合分布函数为 ,则
(i) .
(ii) 关于每个变元 单增右连续, .
(iii) .
(iv) 对任 和 有
定理 3.1.1 的 (i)-(iii) 直观上容易理解,对于 (iv),我们就 的情况给出证明. 事实上
从以上证明,类似地可以证明 (3.1.2) 左端的 阶差分
我们称定理 3.1.1 中的性质 (i)-(iv) 为随机向量分布函数的特征性质, 也就是说,若有定义于 上的实函数 满足性质 (i)-(iv),则可以构造一个概率空间 和其上的随机向量 ,使
这个事实称为柯尔莫哥洛夫存在性定理.
由柯尔莫哥洛夫存在性定理及 (3.1.3),我们看到随机向量 的统计特性,可用其联合分布函数的差分来表示. 也就是说,随机向量 . 的联合分布函数刻画了随机向量 整体的统计特性, 从而每个分量的统计特性也应当由其联合分布函数完全刻画.
事实上, 由于随机变量都是取有限值的, 所以
这说明由 联合分布确定各分量的边缘分布 . 也可以得到二维边缘分布. 比如,
另外, 由 (3.1.1), 显然有
将以上讨论稍加推广, 容易证明分布函数还具有如下两性质;
(v) 对任 ,设 ,则
(vi) 设 为 的任意置换 (全排列),则
3.1.2 随机变量的独立性
第一章我们曾讨论过事件的独立性和试验的独立性, 这里我们讨论随机变量的独立性, 它是概率论中十分重要的概念.
定义 3.1.3 设 为概率空间, 为其上的随机变量, 如果
则称 相互独立.
实际应用问题中, 随机向量有离散型和连续型两类.
定义 3.1.4 设 为概率空间, 为其上的随机向
量. (1) 若 至多取可数多个不同的值,则称之为离散型随机向
量. (2) 若存在非负函数 使得 的联合分布函数可以表示为
则称 为连续型随机向量,并称 为它的分布密度函数.
关于这两类特殊随机向量的分布和独立性, 可以证明如下的定理 3.1.2.
定理 3.1.2 设 为概率空间, 为其上的随机变量.
(1) 若 都为离散型随机变量,有分布列
则 相互独立的充分必要条件是
其中 取值于 .
对于任何区域 ,有
(2) 若 ,都为连续型随机变量,联合分布密度函数为 , 边缘分布密度函数为 ,则 相互独立的充分必要条件是
对于任何区域 ,有
下面我们分别讨论二维离散型和连续型随机向量的联合分布及边缘分布.
3.2 二维离散型随机向量
3.2.1 二维离散型随机向量联合分布列与边缘分布列
设二维离散型随机向量(X, Y)的取值为 . 分布列为
显然有
(1) .
(2) .
此时,(X, Y)的联合分布函数为
且对任 ,有
这说明(X, Y)的统计特性完全由概率分布 确定. 也可将(X, Y)的联合分布列制成如表 3.1 所示的方便形式.
表 3.1 二维离散型随机向量的分布列
$Y$ $X$ | ${y}_{1}$ | ${y}_{2}$ | ... | ${y}_{j}$ | ... | ${p}_{i \cdot }$ |
${x}_{1}$ | ${p}_{11}$ | ${p}_{12}$ | ... | ${p}_{1j}$ | ... | ${p}_{1} \cdot = \mathop{\sum }\limits_{j}{p}_{1j}$ |
${x}_{2}$ | ${p}_{21}$ | ${p}_{22}$ | ... | ${p}_{2j}$ | ... | ${p}_{2} \cdot = \mathop{\sum }\limits_{j}{p}_{2j}$ |
$\vdots$ ${x}_{i}$ | $\vdots$ ${p}_{i1}$ | $\vdots$ ${p}_{i2}$ | ... | $\vdots$ ${p}_{ij}$ | ... | ${p}_{i \cdot } = \mathop{\sum }\limits_{j}{p}_{ij}$ |
$\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ | ||
${p}_{\cdot j}$ | $\mathop{\sum }\limits_{i}{p}_{i1}$ | $\mathop{\sum }\limits_{i}{p}_{i2}$ | ... | $\mathop{\sum }\limits_{i}{p}_{ij}$ | ... | 1 |
由于
可见 和 分别为 和 的边缘分布列.
例 3.2.1 已知 10 件产品中有 3 件一等品, 5 件二等品, 2 件三等品. 现从中任取 4 件,求其中一等品件数 与二等品件数 的联合分布.
解 由题意, 的可能取值为 0,1,2 和 3; 的可能取值为 0,1,2,3 和 4. 由于是任取 4 件, 所以可按古典概型计算得联合分布
具体计算结果见表 3.2.
表 的联合分布
$Y$ $X$ | 0 | 1 | 2 | 3 | 4 | ${p}_{i \cdot }$ |
0 | 0 | 0 | 10/210 | 20/210 | 5/210 | 35/210 |
1 | 0 | ${15}/{210}$ | 60/210 | 30/210 | 0 | 105/210 |
2 3 | 3/210 | 30/210 | 30/210 | 0 | 0 | 63/210 |
2/210 | 5/210 | 0 | 0 | 0 | 7/210 | |
${p}_{\cdot j}$ | 5/210 | 50/210 | 100/210 | 50/210 | 5/210 | 1 |
例 3.2.2 (三项分布) 设随机试验只有 和 等三个结果. 各结果出现的概率分别为 和 . 现将该随机试验独立地做 次,记 和 分别为 次试验中 和 发生的次数,试求(X, Y)的联合分布和边缘分布.
解 由题意 和 的可能取值为 . 由于试验是独立的. 按独立试验概型来计算得
而边缘分布分别为 和 .
3.2.2 二维离散型随机向量条件分布列
下面我们简单讨论随机向量的条件分布, 它对讨论非独立随机变量的统计规律及数字特征非常重要.
设(X, Y)为二维离散型随机向量,其联合分布列为
已知事件 发生,在此条件下 的分布列称为条件分布列. 用前面的记号, ,则由条件概率的定义有
类似地,在事件 发生的条件下 的条件分布列为
其中 .
例 3.2.3 (例 3.2.1 续) 设(X, Y)的联合分布列如表 3.2 所示.
(1) 试求 条件下 的条件分布列.
(2) 试求 条件下 的条件分布列.
解 (1) 由表 3.2 知, ,所以由 (3.2.3) 得 条件下 的条件分布列为
(2) 同理,由于 ,用 (3.2.4) 得 条件下 的条件分布列为
有兴趣的读者, 还可以算一下例 3.2.2 中的条件分布列.
3.3 二维连续型随机向量
3.3.1 二维连续型随机向量的联合密度函数及边缘分布密度函数
依定义 3.1.4,若二维随机向量(X, Y),为连续型随机向量,则其分布函数
显然,分布密度函数 满足
(1) .
(2)
(3) 对二维平面的任何区域 有
(4) 和 的边缘分布密度函数分别为
例 3.3.1 已知二维随机向量(X, Y)的联合分布密度函数为
(1) 试确定 的值.
(2) 试求(X, Y)落在区域 的概率.
(3) 试求 和 的边缘分布密度函数.
(4) 试问 与 是否相互独立?
解 (1) 由于
由 (3.3.1) 知 .
(2) 由 (3.3.2) 有
(3)
(4) 由 (3) 的结果知, ,所以 与 不相互独立.
例 3.3.2 (二维均匀分布) 设 为二维平面上的一个有界区域,面积为 . 若随机向量(X, Y)的分布密度函数为
则称(X, Y)服从 上的均匀分布.
显然,在几何概型中若记(X, Y)为落点在 内的坐标,则(X, Y)服从 上的均匀分布. 我们来看一个具体例子.
例 3.3.3 在某一分钟内的任何时刻, 信号进入收音机是等可能的. 若收到的两个独立信号的时间间隔小于 0.5 秒, 则信号将相互干扰. 试求一分钟内两信号相互干扰的概率.
解 设两信号进入收音机的时刻分别为 和 ,则由题设有 , ,且 与 独立,从而由 (3.1.9) 知, 和 的联合分布密度为
由题意, 所求概率为
(边长为 60 的正方形的面积
—腰长为 60-0.5 的两个等腰直角三角形的面积)
例 3.3.4 (二维正态分布) 若随机向量(X, Y)的分布密度函数为
则称(X, Y)服从参数为 的正态分布,记为 ,
利用 (3.3.3) 计算可知, 和 边缘分布密度分别为
即 .
另外,利用 (3.1.9) 容易看出, 与 相互独立的充要条件是参数 .
例 3.3.5 ( 维正态分布 (非退化情形)) 设 为 阶正定矩阵,记 若
则称 服从 维正态分布,记作 .
不难看出, 在例 3.3.5 的二维正态分布中,
3.3.2 二维连续型随机向量的条件密度函数
与二维离散型随机向量的条件分布列相对应,当(X, Y)为二维连续型随机同量时,若已知 发生,在此条件下, 的条件分布应该是怎样的?
由于 为连续型随机变量,对任意 有 ,所以条件分布不能如 (3.2.3) 来确定,但可以借助(X, Y)的联合分布密度函数和边缘分布密度函数来定义.
设(X, Y)为二维连续型随机向量,其联合分布密度函数为 ,边缘分布密度分别为 . 若 ,则在 发生的条件下 的条件密度函数
定义为
若 ,在 发生的条件下 的条件密度函数定义为
例 3.3.6 (例 3.3.1 续) 设(X, Y)的联合分布密度函数同例 3.3.1.
(1) 试求 . (2) 试求 .
解 (1) 由于
和
所以由 (3.3.4),对 有
于是
(2) 由于
所以由 (3.3.5),对 有
于是
有兴趣的读者, 还可以验证例 3.3.4 的两个条件分布密度函数分别为
和
亦即,在 发生的条件下 的条件分布为
在 发生的条件下 的条件分布为
3.4 二维随机向量函数的分布
寻求随机向量函数的分布, 是概率论分析和解决问题中十分重要的环节. 一般情况下, 如果涉及的随机向量的分布和函数稍稍复杂一点, 很难求得随机向量函数分布的显式表达式, 我们这里只讨论两个随机变量的和这一最简单的情形.
(1)对于二维离散型随机向量的情形,设(X, Y)的分布列为
则 的分布列为
特别地,若(X, Y)的分布列为
则 的分布列为
若还有 与 独立,则
(2) 对于二维连续型随机向量,设(X, Y)的联合分布密度函数为 ,则 的分布函数为
对 求导,得到 的分布密度函数为
若 与 独立,则
也就是说, 两个独立随机变量和的分布密度函数为它们各自分布密度函数的 “卷积”.
最后,对于 维正态分布,我们不加证明地给出如下两个重要命题.
命题 3.4.1 随机向量 服从 维正态分布的充要条件是对任 服从 (一维) 正态分布.
命题 3.4.2 设随机向量 服从 维正态分布,期望向量为 ,协方差矩阵为 ,则对任意实数矩阵 ,有
第三章小结与注记
(1) 在大量随机现象中, 一次试验的结果用一个量无法完整记录. 从而必须 9 多个量来记,这就必须研究多维随机变量 (统称为随机向量).
在数理统计中,样本就是一个 维随机向量,并且假定分量间相互独立. 所以本章先一般性地介绍了随机向量的联合分布和边缘分布, 以及随机变量的独立性. 由于高维随机向量的刻画或分析方法, 与二维随机向量的刻画或分析方法苗同,因此,我们只详细讨论二维随机向量. 并且实际应用中遇到的随机向量只有离散型和连续型两类, 因此, 我们比较详细地讨论了这两类随机向量.
(2)二维随机变量与一维随机变量在分布特性的刻画方面有本质不同,由二维联合分布可以完全确定各分量的边缘分布, 反之则不然 (除非两个分量相互独立). 正因为如此, 后文数理统计中都假定样本为 “简单随机样本”. 即样本各分重同相互独立.
(3)与一维随机变量分布的刻画类似, 对于二维离散型随机向量只要知道它的联合分布列, 它的统计特性就完全确定了 (参见 (3.2.2)). 对于二维连续型随机同量只要知道它的分布密度函数, 它的统计特性也就完全知晓了 (参见 (3.3.2)) 一维连续型随机向量的一个特殊性质是它取任何单点值 (或取值落入维数低于同量维数的任何区域内) 的概率为 0, 二维离散型随机变量则不然.
(4) 当随机变量 与 相互独立时,(X, Y)的联合分布由 和 的边缘分布完全确定 (参见 (3.1.7) 和 (3.1.9)), 并且由条件分布的定义可知, 此时条件分布与各自的边缘分布相同. 如果随机变量 与 不相互独立,则无法由 和 的边缘分布确定(X, Y)的联合分布,此时条件分布就显得尤为重要. 尽管初等概率论中, 大多都讨论随机变量相互独立的情形, 但我们这里也简单介绍了各件分布的概念.
(5) 正如第二章小结中所述, 寻求随机变量函数的分布是概率论与数理统计中无法避免的、永久性的任务, 对于随机向量更是如此, 这一点读者将在数理统计部分中逐渐体会到. 本章只做了简单讨论.
第三章习题
3.1. 袋中分别装有红、白、黑颜色的球分别为 5 个、 3 个与 2 个, 现从袋中无放回抽取 3 个球,以 分别表示取出的 3 球中红球和白球的个数,求(X, Y)的联合概率分布.
3.2. 设(X, Y)的分布密度函数为
求 (1) 常数 . (2) .
3.3. 设二维随机变量(X, Y)的联合概率分布列为
Y $X$ | 1 | 2 | 3 | |
1 | 0.01 | 0.03 | 0.06 | |
2 | 0.02 | 0.06 | 0.12 | |
3 | 0.07 | 0.21 | 0.42 |
求 之值.
3.4. 已知 同分布,且 的分布列为
又知 ,试求(X, Y)的联合概率分布列.
3.5. 设(X, Y)的分布密度函数为
试求 (1) 常数 . (2)(X, Y)的联合分布函数.
3.6. 设二维随机变量(X, Y)的联合概率分布列为
$Y$ $X$ | -1 | 0 | 2 |
-1 | $\frac{1}{8}$ | $\frac{1}{8}$ | $\frac{1}{8}$ |
0 | $\frac{1}{8}$ | 0 | $\frac{1}{8}$ |
1 | $\frac{1}{8}$ | $\frac{1}{8}$ | $\frac{1}{8}$ |
求关于 和 的边缘分布列.
3.7. 设二维连续型随机变量(X, Y)的分布密度函数为
求关于 和 的边缘密度函数.
3.8. (1) 设随机向量(X, Y)的分布密度函数为
试判断 与 是否相互独立.
(2)设随机向量(X, Y)的分布密度函数为
试问 与 是否相互独立?
3.9. 设随机向量(X, Y)的概率分布列为
$Y$ $X$ | ${y}_{1}$ | ${y}_{2}$ | ${y}_{3}$ |
${x}_{1}$ | $\frac{1}{6}$ | $\frac{1}{9}$ | $\alpha$ |
${x}_{2}$ | $\frac{1}{3}$ | $\beta$ | $\frac{1}{9}$ |
问 取何值才能使 与 相互独立?
3.10. 设二维随机变量(X, Y)的联合概率分布为
$Y$ $X$ | 0 | 1 |
0 | $\frac{8}{25}$ | $\frac{7}{25}$ |
1 | $\frac{6}{25}$ | $\frac{4}{25}$ |
试求
(1) 给定 的条件下, 的条件分布列.
(2) 给定 的条件下, 的条件分布函数.
3.11. 设(X, Y)的分布密度函数为
求给定 的条件下, 的条件密度函数 .
3.12. 设随机变量 在(0, a)上随机地取值,服从均匀分布,当观察到 时, 在区间(x, a)内任一子区间上取值的概率与子区间的长度成正比,求:
(1)(X, Y)的联合密度函数 .
(2) 的分布密度函数 .
3.13. 设二维随机变量(X, Y)的联合密度函数
试求:
(1) 当 时, 的条件密度函数 .
(2) .
3.14. 设随机向量(X, Y)的分布密度函数为
试
(1) 求关于 和 的边缘密度函数 .
(2) 求给定 的条件下, 的条件密度函数 .
(3) 判断 与 是否相互独立.
3.15. 设(X, Y)的概率分布为
$Y$ $X$ | 0 | 1 | 2 |
0 | $1/9$ | $2/9$ | $1/9$ |
1 | $2/9$ | $2/9$ | 0 |
2 | $1/9$ | 0 | 0 |
求 的分布列.
3.16. 设随机变量 与 独立同分布,且 . 又设 . 试写出(X, Y)的联合概率分布.
3.17. 设随机变量 服从 上的均匀分布, 服从参数为 的指数分布,且 与 独立. 求 的分布密度函数.
3.18. 设 为二维正态分布 的密度函数, 为二维正态分布 的密度函数,(1) 证明 为分布密度函数. (2) 求 所对应的两个边缘密度函数.
3.19. 设随机变量 服从 上的均匀分布, 服从参数为 的指数分布,且 与 独立. 求 的分布函数与分布密度函数.
3.20. 设随机变量 独立同分布,且均服从指数分布 ,求随机变量 的分布密度函数.