第二章 一维随机变量及其分布
我们知道,概率测度 是定义在事件域 到实数集 的映射,它不是经典的函数, 为有效地应用分析数学工具来分析和研究随机现象, 人们自然地想到把基本事件 变换成数 (这就是我们要介绍的随机变量),进而把所关心事件的概率用随机变量的分布函数值来表达.
2.1 随机变量的概念及其分布函数
2.1.1 随机变量的概念
大量的随机试验, 其结果就是某一个量的取值或与某一数量相联系. 比如掷一颗骰子,观察出现的点数,在事件 出现的点数为 . 自然地与 “点数” 这个量相联系. 再比如, 观测一批电视机的使用寿命, 其结果就是 “寿命” 这一数量的某个取值. 但试验结束之前, 无法预知该数量取何值, 所以自然地将该数量称为 “随机变量”.
另外, 对于那些试验结果不明显地与数量有联系的随机试验, 可以人为地规定一个结果对应于某一量的取值, 从而将一个事件与该量的某取值相对应, 该事件的概率就是该量取某值的概率. 例如, 检测一批产品中的一件产品是合格品还是不合格品. 此试验的结果有两个,它们是 受检产品为不合格品 和 受检产品为合格品 . 如果我们规定一个量 与试验结果相对应,当 发生时, 取值 发生时, 取值 0,则 . 这里在检测结束之前,也不知道 取何值,所以 也是随机变量.
综上所述, 我们要引进的 “随机变量” 就是随机取值的量, 即随机变量的取值由随机试验的结果 (事件) 来确定. 我们将其概括为如下的定义.
定义 2.1.1 设 为概率空间,称映射 为随机变量 如果对任意 ,有
随机变量的直观意义是在做试验之前无法预知 取何值. 至于定义中要求满足 (2.1.1), 正是后文定义随机变量的分布函数的需要, 进而我们所关心的事件的概率可用分布函数的值来表达.
对于随机事件 ,若定义
则 为随机变量,且 .
例 2.1.1 (例 1.2.5 续) 沿用例 1.2.5 的记号,定义映射 为 . 则 ,从而 不是 上的随机变量.
2.1.2 随机变量的分布函数
引入了随机变量之后, 我们仍然关心的是如何分析计算有关事件的概率, 这个问题可以通过引入随机变量的分布函数来解决.
定义 2.1.2 设 为概率空间, 为随机变量, 的分布函数 定义为
以后将 简写为 .
由此定义, 显然有,
再利用概率测度上下连续性, 容易证明下列事实:
这些事实说明, 引入随机变量的分布函数之后, 我们所关心的有关事件的概率都可以用其分布函数来表达, 也就是通常所说的, 随机变量的所有统计特性都可用其分布函数来刻画.
另外, 利用概率测度上下连续性可以证明分布函数的下述性质.
定理 2.1.1 设 为概率空间, 为随机变量,其分布函数为 , 则
(i) .
(ii) 对任 ,有 ,且 .
(iii) .
我们常称定理 2.1.1 中所述分布函数的这三条性质为随机变量分布函数的特征性质,也就是说,若有定义于 上的实函数 满足性质 (i) - (iii). 则可以构造一个概率空间 和其上的随机变量 ,使 . 这个事实称为柯尔莫哥洛夫存在性定理.
现实生活中见到的随机变量有两类, 一类是随机变量取至多可数多个不同的值, 另一类是它取值于实数的全体或某个区间. 对于这两类随机变量, 其统计特性更容易刻画, 我们在后续两节分别加以介绍.
2.2 一维离散型随机变量
有些随机变量, 它只取有限多个或可列多个不同的值, 我们称这类随机变量为离散型随机变量.
一般地,设离散型随机变量 的取值为 . 且已知
通常记为
并称上式右端为 的分布列,称 为概率分布. 它显然满足以下两个性质:
(1) .
(2) .
此时, 的分布函数为
其图形为一右连续的阶梯函数,在点 处提高 .
另外,对任意 ,有
下面我们介绍几类有重要实际应用背景的离散型分布.
2.2.1 二项分布
如果一个随机变量 取值为 ,且
我们称 服从二项分布. 记为 ( 软件中的分布名为 binom),其中的 和 称为参数. 如果 ,则 只取 0 和 1 两个值,我们称 服从两点分布. 当 时,如果 ,则 ; 如果 ,则 . 这两种情况都退化为单点分布 (即 取某个常数 的概率为 1 ), 取值已没有随机性了.
另外,显然有 ,且由二项式定理有
可见 (2.2.3) 给出的分布确实为概率分布. 正是因为 是 这个二项式展开中 的系数,我们称(2.2.3)给出的分布为二项分布.
现实中有不少随机试验,其观测结果都服从二项分布. 回忆 重伯努利试验, 如果每次试验 “成功” 的概率为 ,令 为 次试验中成功的次数,则由 (1.3.8) 知, ,且 . 另外,由例 1.3.8 知,若一批产品的不合格品率为 ,则从中无放回抽取的 件中不合格品的件数,也服从 .
当 时,对任意 ,有
和
利用 软件提供的内部函数 binom,容易计算相关事件的概率. 对 ,可调用内部函数 来计算 ,用 来计算 . 请读者注意这两个函数中 和 的区别.
例 2.2.1 设 ,试求 .
解 我们借助 软件来计算.
而
例 2.2.2 已知发射一枚地对空导弹可击中来犯敌机的概率为 0.96 问在同样的条件下需发射多少枚导弹才能保证至少有一枚导弹击中来犯敌机的概率人于 0.999?
解 设需发射 枚导弹,由题意各枚导弹是否击中相互独立,所以击中的代数 ,从而
由此得
即至少需发射 3 枚导弹.
定理 2.2.1 设 ,当 为整数 时, 取 和 的概率最大,且 ; 当 不为整数时, 取 的整数部分的概率最大.
这个定理的证明,可经计算比值 随 变化的情况得证,这里略去. 但请读者调用内部函数 ,通过给定参数 和 体验一下该事头.
例 2.2.3 (鱼塘中有多少条鱼?) 为了估计鱼塘中有多少条鱼,鱼塘主先从鱼塘中网起 100 条鱼做上记号后, 放回鱼塘中, 过了一段时间 (使有记号的鱼和无记号的鱼混合均匀) 后, 从鱼塘中网起一网鱼, 共 80 条, 其中有记号的鱼有两余. 试估计鱼塘中有多少条鱼.
解 设鱼塘中有 条鱼,则从中捞起一条鱼,它有记号的概率为 . 由于国塘中鱼的数量较大,可以近似地认为,一网捞出 80 条与有放回地捞取 80 条的试验条件相同. 所以,捞出的 80 条鱼中有记号的个数近似服从 .
按照人们的生活体验,小概率事件在一次试验中几乎不发生 (这是用概率论子科分析研究实际问题的基本思想之一),亦即,若一次试验中事件 发生了. 则 友生的可能性较大,甚至认为 发生的可能性最大. 基于这种理念可以认为 80 条中 2 条有记号的可能性最大. 而由定理 2.2.1 的结论, 发生的
可能性最大. 所以令
得 .
2.2.2 泊松分布
如果一个随机变量 取非负整数值,且
则称 服从泊松 (Poisson) 分布,记为 软件中的分布名为 pois. 它由法国数学家泊松在 1837 年, 作为二项分布的近似分布而引入的 (见定理 2.2.2). 此分布也因他而得名.
由熟知的展开式 知,(2.2.4) 给出的分布确实是概率分布.
一般认为, “稀有事件” (在有限事件内只发生有限多次, 在极短时间内至多发生一次) 发生的次数服从泊松分布. 例如, 在公共服务领域, 一段时间内查号台收到的呼唤次数、公共汽车站来到的乘客数等等, 在自然科学中, 一段时间内放射性物质分裂落到某区域的质点数、一段时间内出现的彗星数等等, 都可认为服从泊松分布. 泊松分布是概率论刻画随机现象的一种十分重要的分布.
泊松注意到在二项分布中,当参数 很大而 很小时,概率 的计算相当麻烦, 于是想用一种容易计算的分布来近似, 这就是下面的泊松定理.
定理 2.2.2 (泊松定理) 设随机变量 与 有关, 且满足 ,则
证明 记 ,则
由于对固定的 ,有
及
因此
例 2.2.4 假如一位孕妇生三胞胎的概率为 ,求在 100000 个孕妇中有 0,1,2 次生三胞胎的概率.
解 按二项分布的 和 ,并用 软件计算有
再按泊松逼近, 和 软件计算有
可见, 这里用泊松分布逼近二项分布的近似程度很令人满意.
例 2.2.5 (合作问题) 设有同类设备 80 台, 各台是否正常工作相互独立. 每口及生故障的概率为 0.01, 并且一台设备出现故障时需安排一人来维修 试求
( 1 )一人负责维修 20 台设备时,设备发生故障无人维修的概率
(2)由二人共同负责维修 80 台设备时,设备发生故障无人维修的概率.
解 (1) 一人负责维修 20 台设备时,设 为同一时刻发生故障的设备数时间必要和 . 由于一人在同一时刻只能维修一台设备,所以发生取得无人维修, 当且仅当同一时刻至少有 2 台设备出现故障. 所以, 所求概率为
(若用泊松分布近似, ,有
(2)由三人共同负责维修 80 台设备时,设 为同一时刻发生故障的设备数, 则由题意知 . 由于一人在同一时刻只能维修一台设备,所以及生故障无人维修, 当且仅当同一时刻至少有 4 台设备出现故障. 所以, 所求概率为
(若用泊松分布近似, ,有
可见, 三个人共同负责维修 80 台设备 (即平均每人负责约 27 台设备), 比一个人单独负责维修 20 台更有保障, 既节约了人力又提高了设备保障率.
2.2.3 几何分布
我们考虑一种随机试验, 它是一次次独立地做伯努利试验, 直到第一次成功为止,设每次试验成功的概率为 ,记首次成功时已做试验的次数为 . 则自伏成功出现在第 次试验,当且仅当前 次失败而第 次成功,所以由试验的
独立性知,
由于几何级数: , 可见(2.2.5) 给出的分布为概率分布, 因此也称(2.2.5) 的分布为几何分布, 记为 软件中的分布名为 geom.
例 2.2.6 设一地下采矿面有 5 个可以升到地面的通道. 由于事故发生,5 个通道中只有一个可以逃生, 且没有照明, 遇险者只能随意地在 5 个通道选一个出走. 若途中发现该通道不通, 则返回出险地点后再随意选一个通道出走. 试求: (1)第三次选择通道才成功出走的概率;
(2)成功出走时已经选择其他通道的次数不大于 6 的概率.
解 由于每次选择都是在 5 个通道中选取, 所以各次是否选对通道相互独立,且每次选对通道的概率为 ,记 为成功出走时已选过的通道数,所以 Geo .
第三次选择通道才成功出走的概率为
(2)成功出走时已经选择其他通道的次数不大于 6 的概率为
几何分布有一个独特的性质是它的 “无记忆性”,即已知第 次还未成功,那么从第 次开始,首次成功出现在哪一次与 无关. 也就是说,若 , 则
事实上,
这说明(2.2.6) 正确.
读者也可以证明
其实还可以证明几何分布是离散型随机变量中唯一的具有无记忆性的概率分布.
常用的离散型分布还有不少, 比如超几何分布、负二项分布 (帕斯卡 (Pascal) 分布) 等等, 这里不一一列举了. 下面我们介绍几类连续型分布.
2.3 一维连续型随机变量
现实生活中经常遇到的另一类随机试验, 它的结果可能取全体实数值或实数轴上的一个区间, 而且其分布函数可以写为另外一个函数的积分, 此时随机变量的分布特性可由一非负可积函数的积分来表示.
定义 2.3.1 设 为概率空间, 为其上的随机变量, 为 的分布函数. 如果存在非负函数 ,使得
则称 为连续型随机变量,称 为 的分布密度函数.
由微积分学知识可知,在 的连续点 上有 .
由分布函数的性质可知,对任意分布密度函数 有
反过来,对于定义在 的函数 ,满足 (2.3.2) 和 (2.3.3). 若令
则 一定是某随机变量的分布函数.
由 (2.1.3) 立刻得到
而对于 ,因为对任 有
所以
即
这表明连续型随机变量取任意单点值的概率为零, 这一点与离散型随机变量截然不同. 也就是说, 对于连续型随机变量, 它的分布特性不可能通过列举它取每个单点值的概率来表示.
另外,由于对
这说明若分布密度函数 在某点 处取值较大,则随机变量 取 附近值的概率也较大. 所以用分布密度函数来描述连续型随机变量的分布特性, 与用分布列描述离散型随机变量是类似的.
例 2.3.1 设随机变量 的分布密度函数为
(1) 试确定 的值.
(2) 试求 的分布函数.
(3) 试求 .
解 (1) 根据 (2.3.2),首先 ,另外
故有 .
(2) 由 (2.3.1) 有
(3) 由于 ,所以
例 2.3.1 中的分布通常称为标准柯西分布. 下面我们介绍几类有重要实际应用背景的连续型分布.
2.3.1 均匀分布
如果连续型随机变量 的分布密度函数为
则称 服从 上的均匀分布,记为 软件中的分布名为 unif. 其分布函数为
由 (2.3.6) 可知, 在 上取常值,所以对任意满足 的
和 有
这就是均匀分布名称的由来. 另外,几何概型中,若投点都落入区间 ,记 为落点坐标,则 .
在计算机数字计算的浮点运算中, 如果要求精度保留在小数点后第五位, 小数点后第六位作四舍五入处理, 在对最后的数值计算结果作精度分析时, 往往假定每步计算时,数值的近似值 与精确值 之间的误差 .
2.3.2 指数分布
若连续型随机变量 的分布密度函数为
则称 服从指数分布,参数为 ,记作 软件中的分布名为 ,其分布函数为
在解决实际问题时, 一般认为 “稀有事件” (在有限事件内只发生有限多次, 在极短时间内至多发生一次) 发生的事件间隔服从指数分布, 另外, 电器元件的寿命也近似地认为服从指数分布.
例 2.3.2 某窗口接待一位顾客的服务时间 服从参数为 的指数分布,
即
假设一次服务时间超过 15 分钟, 顾客即评价为 “不满意”. 试求
(1) 10 位顾客中恰有两位评价为不满意的概率.
(2)10 位顾客中最多有两位评价为不满意的概率.
(3) 10 位顾客中至少有两位评价为不满意的概率.
解 先求出一位顾客评价为 “不满意” 的概率. 我们有
若调用 软件中的内部函数 有
由题设每位顾客的服务时间同服从参数为 的指数分布,且各位顾客的服务时间相互独立,所以 10 位顾客中评价为不满意的顾客数 15)), 从而
(1)
(2) 位顾客中最多有 2 位评价为不满意的概率.)
(3) 位顾客中至少有 2 位评价为不满意的概率.)
指数分布有一个雷同于几何分布的独特的性质, 就是它的无记忆性, 即若 ,则对任 有
事实上, 由条件概率的定义和 (2.3.8) 有
这说明 (2.3.9) 成立. 还可以证明, 指数分布是连续型随机变量中唯一的具有无记忆性的概率分布.
2.3.3 正态分布
正态分布是最常见的、在理论分析和实际应用中都十分重要的分布.
若连续型随机变量 的分布密度函数为
其中 和 为参数,正态分布记为 软件中的分布名为 norm. 特别地,若 ,则称 服从标准正态分布.
正态分布的密度函数如图 2.1 所示,它关于 对称, 越小则曲线越陡峭, 越大则曲线越平缓. 我们将在 4.1.1 节中说明 和 的概率意义.
图 2.1 正态分布密度函数图
对于标准正态分布 ,分布密度函数通常记为 ,即
分布函数通常记为 ,即
由于 (2.3.11) 右端被积函数为偶函数, 所以
大家知道, 的原函数没有显式表达式,(2.3.11) 右端的积分都经数值计算制成表以供查阅,现今如用 软件,用命令 pnorm(x) 即得. 另外,设 ,则 的统计特性,都可用标准正态分布函数来表达,即
事实上,对任意 ,有
我们将这个重要的事实总结为如下命题.
命题 2.3.1 设 ,令 ,则 .
下节末我们还将证明这一事实.
例 2.3.3 设 ,试求
有 解 由题设, ,由 (2.3.12),(2.3.13) 和 软件中的函数 pnorm,
对于 ,由 (2.3.13) 有
调用 软件的 pnorm 函数,我们有
在实际问题中, 有许多随机变量可以认为服从或近似服从正态分布, 例如测量误差, 各种产品的数量指标 (零件的尺寸、材料的强度等), 同一群体的某种特征 (某种动物的身长、体重, 某种植物的株高, 单位面积产量等)等. 从理论上讲, 若 是某随机试验结果的数量指标,如果试验结果受大量的、微不足道的、相互独立的随机因素的共同影响, 并且这些因素的影响效果 “均匀地小”, 则可以证明 近似服从正态分布 (参见 5.2 节,中心极限定理).
例 2.3.4 已知测量误差 . 现独立的重复进行 100 次测量,求误差的绝对值超过 19.6 的次数不少于 3 的概率.
解 先求一次测量误差的绝对值超过 19.6 的概率.
所以 记 为 100 次测量中误差的绝对值超过 19.6 的次数,则 ,
若利用泊松逼近,则 ,得
例 2.3.5 (车门设计) 公共汽车车门的高度是按男子与车门顶碰头的机会在 0.01 以下来设计的. 现设男子身高 服从参数 和 的正态分布,即 . 试确定车门的高度.
解 设车门的高度为 ,由题意应有
亦即
由于 ,所以
利用 软件的 函数 (这里的 是英文 quantile 的第一个字母,代表分位致,即 ),由 qnorm 知, ,
即
当车门的高度设计为 时,可使男子与车门顶碰头的机会在 0.01 以下.
例 2.3.6 (股价变化幅度的估计) 设某只股票的初始价格为 元,预期收益率 为每年 16%,波动率 为每年 20%. 在 Black-Scholes 模型下 (Black 利 Scholes 为 1997 年诺贝尔经济学奖得主),股票在每个时刻 的价格 为随饥受量,且
其中 . 试估计六个月后这只股票的价格范围 (允许出错的概率为 5%)
解 六个月即 年,所以由题设有
亦即 (参见 (2.3.13))
因为当 时, . 若允许出错的概率为 , 即令 ,则有 . 从而用 软件的 得
. 于是
即
亦即
因此,在允许出错的概率为 的前提下,可以预计六个月后该只股票的价格会在 32.51 和 56.60 之间.
2.4 一维随机变量函数的分布
在理论分析和实际应用中,许多情况下随机变量 的分布是已知的,而 是一个实变量的实值函数,需要求 的分布. 直观上可以理解,既然 的取值在试验结束之前无法预知,当然 的取值也无法预知,所以 也是随机变量,但寻求 的分布,一般情况下并非易事,这与 的分布和 的复杂程度有关, 我们这里只介绍一些简单情形, 使读者了解解决这种问题的基本思路.
当 为离散型随机变量时,往往通过列举 的相应取值,再将 取相同取值的概率相加即得 的分布列.
例 2.4.1 设 的分布列为
试求 的分布列.
解 对于 的取值为 4,1 和 0,而
所以
对于 的取值为 和 3,而
所以
对于 的取值为 3,2,和 1,而
所以
当 为连续型随机变量时,往往可先求出 的分布函数. 再经求导得到 的分布密度函数.
例 2.4.2 设 ,试求 的分布密度函数.
解 我们先求 的分布函数 . 显然,对 有 . 对 ,有
从而,对 ,对 关于 求导,得 的分布密度函数为
其中用到 .
总之,
我们将在后文的抽样分布 (6.3 节) 中看到, 服从 分布,其中的参数 ,也称 服从自由度为 1 的 分布.
例 2.4.3 设 的分布密度函数为 ,试求 的分布密度函数, 其中 为常数,且 .
解 记 为 的分布函数, 为 的分布密度函数.
则当 时,有
从而
当 时,有
从而
总之
作为例 2.4.4 的推论,我们看到,若 ,则由 (2.4.1) 知,
即 .
第二章小结与注记
(1) 本章引进随机变量的理由有两个, 一是想借助微积分学等其他数学工具来做概率的分析计算, 二是大量随机试验的结果本身就是在某度量单位下的数值即使事件 实际上不是数,也可以通过定义随机变量 ,使 . 这样一来, 求事件的概率的问题就转化为求随机变量分布的问题. 因此可以说概率论是研究随机变量 (或一般地, 随机向量及随机过程) 分布的科学.
将一个基本事件空间 到实数集的映射 (满足可测性条件 (2.1.1)) 称为随机变量, 一是因为历史的渊源, 二是因为该映射的取值确实是随机变化的. 即随看试验结果的不同而不同, 无法预知.
(2)我们不一般性地研究随机变量的分布,这一方面是因为一般性地研究需要较高深的数学知识 (特别是测度论知识), 另一方面是因为实际应用中遇到的随机变量就只有离散型和连续型两种, 所以我们在研究随机变量的分布 (以及后文介绍数字特征等) 时, 都按离散型和连续型来分别讨论.
对于离散型随机变量只要知道它的分布列, 它的概率分布 (通常称为统计特性) 就完全知道了 (参见 (2.2.2)). 对于连续型随机变量只要知道它的分布密度函数, 它的统计特性也就完全知道了 (参见 (2.3.4)). 连续型随机变量的一个特殊性质是它取任何单点值的概率为 0, 离散型随机变量则不然.
(3)对于离散型和连续型随机变量,我们都给出了几种重要的例子,它们都是实际应用中比较常见的概率模型, 读者应当熟悉它们的特性和应用背景. 比如几何分布和指数分布具有无记忆性, 而正态分布则具有广泛的应用 (它的分布特性将在后文中陆续见到).
(4)应当说,求随机变量函数的分布是概率论与数理统计中无法避免的、永久性的任务, 决不止如本章 2.4 节介绍的这样简单, 这一点读者将在数理统计部分的抽样分布 (6.3 节) 中会有所体会.
(5) 本章例题中我们已引用 软件的一些内部函数,如 pbionm、dbinom 和 qbinom 等,请读者通过自修第九章逐步熟悉和体会 软件的有关内部函数和语句的功能, 以方便计算.
第二章习题
2.1. 某酒吧柜台前有吧凳 7 张, 此时全空着, 若有两个陌生人进来随机入座, 试求这两人就座相隔凳子数 的分布列.
2.2. 某射手有 5 发子弹, 射击一次命中的概率为 0.75, 如果命中了就停止射击, 否则就一直射到子弹用尽. 试求耗用子弹数 的分布列.
2.3. 设某批电子管的合格率为 ,现对该批电子管进行有放回地测试,设第 次为首次测到合格品所抽取的次数,求 的分布列.
2.4. 一个质地均匀的陀螺, 在其圆周的半圈上均匀地标明刻度 1, 另外半圈上均匀地刻上区间 上诸数,在桌面上旋转它,求当它停下来时,圆周与桌面接触处的刻度 的分布函数.
2.5. 设随机变量 的分布函数为
试求 (1) 常数 . (2) 落在(-0.5,1.5)内的概率.
2.6. 设随机变量 的分布函数为
其中 . 试计算 之值.
2.7. 设随机变量 服从泊松分布 ,随机变量 服从泊松分布 ,且 ,试求 之值.
2.8. 设离散型随机变量 的分布列为
试求 的分布函数.
2.9. 设离散型随机变量 的分布函数
试求 的分布列.
2.10. 某种产品每批中合格品率为 0.9, 验收每批时规定: 先从中抽取一件, 若是个故日拒收的概率.
2.11. 自动生产线调整以后出现不合格品的概率为 0.1, 当生产过程中出现不合格品时立即里莉进行调整,求在两次调整之间所生产的合格品数 的分布列.
2.12. 设连续型随机变量 的分布密度函数为
试求 的分布函数.
2.13. 设随机变量 的分布密度函数为 . 试求:
(2) 落在(-5,5)内的概率.
2.14. 设连续型随机变量 的分布函数为
求: (1) 系数 . (2) 的密度函数 . (3) .
2.15. 设随机变量 的密度函数为
现对 进行 4 次独立重复观测,以 表示观测值不大于 0.2 的次数,试求概率 .
2.16. 设随机变量 和 同分布,且 的分布密度函数为
日事件 与事件 独立,求: (1) . (2) .
2.17. 一白糖供应站的月销售量 (百吨) 是随机变量,其分布密度函数为
问每月至少储存多少白糖, 才能以 96% 的概率不脱销?
2.18. 设随机变量 ,利用标准正态分布函数表或 软件计算下面的概率:
(1) . (2) . (3) .
2.19. 设随机变量 的分布列为
试求:
(1) 的分布列.
(2) 的分布列.
2.20. 设随机变量 ,令 ,试求 的分布列.
2.21. 设随机变量 服从 上的均匀分布,求随机变量 的分布函数可为布密度函数.