有关概率和统计的故事永远也讲不完, 因为人们每天都在使用它们, 不断有新的发现、新的惊奇。 可书总是要结尾的。 在结束本书之前, 请读者想一想, 概率统计跟数学的其他科目比起来, 是不是感觉有点不一样? 什么地方不一样呢?
首先, 概率统计是一门极为明确的以实用为目的的学科, 它从诞生的那一刻起就是为了解决实际问题。 不过更重要的是, 概率统计强调, 必须以 “不确定” 的视角来看世界, 并对这种不确定性进行量化。 有了定量的不确定性, 便可以对未来事件进行预测, 并且进一步量化预测的不确定性。
我们的日常生活中充满了不确定性, 这些不确定性使这门学科跟你的生活产生了无法分割的密切关系, 不管你愿意不愿意。
早上起来, 看看天气预报, 你被告知, 今天本地区的降雨概率是 10%。 你出门需要带雨伞吗?
预报还说, 今年第 号台风预计下周登陆, 登陆的地点目前尚不确定, 但估计你所在地区受到影响的概率在 50% 左右。 你需要给家里准备一些水和食品吗?
邮箱里塞了一大堆广告, 大多数跟彩色打印机有关。 你这几天一直在琢磨该再买一台打印机了, 可那些销售公司是怎么知道你想买打印机的呢?
你邻居的信箱里也塞满了广告。 当那个刚搬来的新婚的小伙子来查取信件时, 你注意到, 他手里的广告大多是婴儿用品。 显然, 销售公司也知道他们家里发生的事情: 小伙子快当爸爸了。
你看好了一款打印机, 上网付款, 网站跳出一个信息, 建议你多付 10% 作为打印机的保险费, 这样, 打印机如果出了问题, 公司会无偿解决。 你觉得值得付这笔保险费吗?
你的体检结果出来了, 医生告诉你, 你的大部分指标在正常范围内。 不过他警告你, 血糖指标快要超出正常范围了。 这些所谓的正常范围是怎么定出来的? 医生告诉你, 根据世界卫生组织的数据, 在过去的 40 年里, 全世界 18 岁以上成年人患糖尿病的人数翻了一番。 你想, 是不是该少喝可乐了?医生还建议你增加锻炼。
你是选择爆发性的力量锻炼呢, 还是有氧耐力运动? 在不同的年龄段里, 哪种锻炼更有益于健康? 当你选中一种锻炼方式以后, 怎样锻炼才能避免损伤, 快速提高成绩? 锻炼期间, 怎样决定适当的营养摄入?
你出门打的, 你可能看到过新闻, 使用不同款的手机应用程序打的, 有可能要付不同的价钱。 实际上, 即使是网上购物, 比如你刚买的打印机, 从不同的居住区订货也可能要付不同的价钱。 显然, 一些精明的商家在利用消费统计数据从顾客身上揩油。 有些商家的应用平台甚至 “聪明” 到可以搜索到你手机里是否安装了与其竞争的商家的平台。 对于这样的商家, 如果你安装两个不同的平台, 会不会迫使他在加价时有所收敛呢?
你驾车出游, 虽然打印机的保险可有可无, 但汽车保险却绝对必要。 为什么? 另外, 你和你的邻居拥有同一款汽车, 为什么你们付的保险费不一样呢?
开车出远门, 需要使用导航系统, 这个系统依据什么原理? 它的准确性、实时性和可靠性又是靠什么来决定的呢?
假如你已经有一份稳定的工作, 是该把每月结余下来的钱买一种你最看好的股票呢, 还是放到共同基金里? 或者干脆拿去买彩票, 发一笔大财?
这些只是随手举出的例子, 还有许许多多其他的日常生活的问题, 其答案都来自概率统计。 然而概率统计的原理极为有用, 也很容易被人滥用。 现在有越来越多的好为人师者, 发出各种各样似是而非的信息, 这些网红大咖的信息不一定正确。 有了扎实的概率统计基础知识, 你可以自主判断, 而不是人云亦云。
对于一个社会来说, 概率统计更是不可或缺。
比如公共交通设施, 以航空为例, 起飞降落的飞机数量在不同时间不断地变化, 空中同一航线上的飞机数量也起伏不定, 如何预测涩滞、避免故障、减少延迟? 更重要的是, 如何预测飞机故障发生的可能性, 避免重大事故? 机场如何准备应对突发的气候变化或者紧急状况, 尽量减少航班的延误和旅客的滞留?
再比如金融市场, 所有的金融产品, 如股票、期货、债券, 它们的价格不断地变化, 大多时候是随机的。 投资方案的决定在很大程度上取决于金融随机分析。
企业的经营越来越多地依赖于商业智能 (Business intelligence)。 对生产厂家来说, 保证产品质量, 减少原材料消耗是一个重要问题。 供应链的管理也是一大难题, 既要确保有足够的原材料来制造产品, 又不能把经费过多地花费在原材料上, 影响其他方面的投资。 人员的配置也是如此。
商品的营销也依赖于商业智能。 商品的质量、受欢迎的程度、顾客的消费心理、不同地区的消费特点等各种因素, 都要定量考虑, 靠数据和统计分析来决定经营方向和经营策略。 前边提到台风, 就再举一个有关台风的例子。 沃尔玛公司通过消费者数据的统计分析发现, 每当台风警报来临, 美国佛罗里达州的居民就喜欢囤积一种草莓味的甜饼 (Strawberry pop-tart), 所以沃尔玛也开始注意台风预警。 每次台风到来之前, 沃尔玛必把大量的草莓甜饼运往佛罗里达, 供那里的人们在台风期间消费。 这种平时不大受欢迎的食品几天之内就一卖而空。 而在台风到来之前的那几天里, 最畅销的是啤酒。
所有的科学研究都必须依靠统计分析来对数据进行评估。 不久前, 二百多名来自七个国家的物理学家在伊利诺伊州的费米实验室里, 通过研究一种叫作缪子 (muon; 也称 子、渺子) 的基本粒子在磁场中的行为, 暗示着理论物理界可能有一个重大发现。 缪子在外部磁场的作用下产生量子自旋, 所有自然力的作用对缪子自旋角动量的影响可以用一个常数来表示, 称为 常数。 这个常数非常接近于 2, 所以一般用 (也就是 减 2 ) 来表示常数偏离 2 的大小。 根据粒子物理标准模型计算出的 是 0.00233183620 (86), 括号里面的数值代表 最后两位数值的误差范围。 与之对应的缪子的磁矩异常是这个数值的一半, 也就是 0.00116591810 (43)。 而物理学家们在最近实验中测量到的磁矩异常是 0.001 16592061 (41)。 如果二者之间的差别确实存在, 那么就意味着标准模型可能忽略了自然界的另一种迄今为止人们一无所知的作用力, 即所谓 “第五种力”。 可是, 这个差别太小了, 仅仅相当于 常数的一亿分之一点二。 如此微小的差别, 怎样才能确定它的存在呢? 只能依靠统计分析。 目前实验数据的分析显示, 神秘的第五种力存在的置信度在 4.1 个 (也就是标准偏差) 以内。 还记得 和 值吗 (见第三十二章)? 这相当于结论出错, 也就是零假定成立的可能性大约只是四万分之一。 可以举杯庆祝了吧? 不行。 因为粒子物理学界的要求是, 置信度必须在 5 个标准偏差之内才称得上为成功发现。 5 个标准偏差对应的 -值等于 , 也就是说, 结论出错的可能性必须在三百五十万分之一以下。 所以物理学家们还需要不断地重复测量, 以期尽快达到 5 个 。 你也许会问, 为什么标准模型的 理论值也会有标准偏差呢? 这是因为标准模型有 19 个参数必须靠实验来确定, 实验结果都有某种不确定性, 而模型的复杂性又使得数值计算不可能无限的精确。 随着这些实验参数和计算方法的改进, 的理论数值也可能发生微小但重要的变动。 这种变动也将直接影响到缪子实验标准偏差所对应的 -值。 所以目前还不能确定所谓第五种力的存在, 科学家们需要随时准备着, 一旦新的结果出现, 马上进行更加仔细更加严格的统计分析。
至于统计分析在医学界和医药界的应用, 新冠肺炎疫情期间我们几乎每天都能听到关于疫情发展和治疗手段研发的各种各样的数据。 基本再生数对疫情扩散的影响, 病毒对不同年龄组、不同健康状况者的影响概率, 给病患者可能留下的后遗症, 后遗症持续的时间, 防护用品 (口罩、防护镜) 的保护效果, 消毒液的有效性, 疫苗的可靠性等等, 依靠的都是统计分析。
现在无论走到哪儿, 到处都是二维码。 人类正在把整个世界数字化。 大数据是信息社会发展的趋势。 2020 年, 全球产生的数据量高达 50 个泽字节 (ZettaByte, 简写为 byte)。 比较我们熟悉的数据单位 。 预计到 2025 年, 产生的数据量要翻三倍以上, 达到 175 ZB。 除了在数据收集、储存和提取方面的挑战, 数据分析处理的问题更是严峻。 面对如此海量的数据, 数不清的参数和变量, 如何从中提取最大量的正确信息, 同时避免由于变量和参数过多而可能造成的伪信息呢?
网络空间变得越来越浩瀚, 也越来越繁复杂乱, 于是出现了网络计量学。 它利用信息计量学的统计和数学手段研究网络空间的种种现象, 比如互联网的结构和使用规律, 资源的分类, 信息的可靠性, 各种搜索引擎中信息的提取和分类, 超链接的种类和数目, 等等。
恐怕没有其他任何一种学科可以媲美概率统计的应用范围之广泛。 如果你上网搜索一下 “统计学”, 就会发现, 它几乎无所不在。
统计热力学、统计物理学、工程统计学、化学计量学、生物统计学、统计遗传学、种群生态学、环境统计学、医学统计学……统计在科学、工程技术和医药领域中的应用早已相当成熟, 而且已经从地球进入太空, 比如天文统计学。 另外, 人工智能、机器学习、 深度学习, 也都离不开概率统计。
空间统计学最早是从地图制图学和测量学中发展起来的, 后来主要应用在分析地理数据, 但其方法越来越多地应用到各个领域, 比如遥感、生物学中各地的植物分布、生物地理学、生态学中的物种种群的空间分布、流行病学中通过地理考察分析传染病源, 等等。
科学技术的研发结果对社会会有多大影响呢? 这又可以通过科学计量学来评估。
在更复杂的社会、经济、金融、军事、法律等领域中, 统计学变得越来越不可或缺。 比如, 运筹学通过统计学、数学模型和信息科学等方法去寻求复杂问题中的最佳或近似最佳的解决方案。 社会统计学侧重于研究社会环境中的人类行为, 利用随机抽样的方法取得样本资料来推断主体, 通过统计分析发现规律, 帮助个人、团体、企业和政府来分析现状, 推测未来, 以期做出最佳决策。 经济统计学侧重于对经济数据的采集和分析, 现代各国政府都设有专门的部门从事这类活动, 为经济决策提供理论和数据根据; 统计分析的对象包括微观经济、宏观经济、商业行为、金融、数据质量、政策评估等各个方面。 人口学利用统计学方法研究人类的出生、死亡、迁移, 这些因素造成的人口增长或缩减的现象, 进一步推测人口增减的原因以及对社会结构和经济环境的影响。 计量法学通过法学理论和法学统计资料, 利用统计和数学手段建立数学模型, 来研究具有数量关系的法律现象; 它对研究立法的科学性、评价法律的实施效果以及对社会发展的影响有重要作用。
计量心理学、心理统计学用来分析理解人类的心理活动和心理健康。 卫生统计学或健康统计学从事疾病统计、生长发育统计, 满足卫生服务的需求、卫生资源的优化、医疗保险体制的完善等等。 体育统计学研究体育运动中随机现象的统计规律性, 以概率论为基础, 为定量研究提供实验设计、调查设计, 以及收集、整理和分析体育数据资料。 甚至还有艺术统计学, 它研究艺术品的光线和光泽、空间分布频率、颜色, 以及点、线、面的布局等等, 可以帮助指导艺术家的创作。
读者朋友, 请不要忽视概率统计——这门学科会让你受益终身的!
最后, 让我们用一位统计学家的话来结束本书:
C. R. 劳 (1920-) (印度裔美国数学家和统计学家)
在最终的分析里,所有的知识皆归为历史。
在抽象的意义下,所有的科学均纳入数学。
在理性的思考中,所有的判断都基于统计。
C. R. Rao (1920-) (American mathematician and statistician)
All knowledge is, in final analysis, history.
All sciences are, in the abstract, mathematics.
All judgements are, in their rationale, statistics.