第二十二章 学以致用:统计数字也会撒谎吗?
这一篇里的故事主要讲的是如何通过统计数据利用一些聪明的办法得到有用的推论。 在现实生活中, 统计数据的质量有好有坏。 有些时候, 我们所关心的问题相当复杂, 好的数据需要依靠坚实的统计知识和全面缜密的考虑才能得到。 坏的数据则可能是由于对问题的性质了解不够, 或者是故意选择了数据, 使它们偏向于自己希望的那一侧。
美国著名作家马克·吐温 (Mark Twain, 真名Samuel L. Clemens, 1835-1910) 把一句话变成了名言:“有三种谎言:谎言, 该死的谎言, 统计数字。 ”
统计数字真的会撒谎吗?
先讲一个美国早期大选民意调查的故事。 最早的民调开始于 1824 年。 那一年是美国第十届总统大选, 参加竞选的四个人是约翰·昆西·亚当斯(John Quincy Adams, 1767-1848)、安德鲁·杰克逊 (Andrew Jackson, 1767-1845)、亨利·克莱 (Henry Clay, 1777-1852)、威廉·克劳福(William Harris Crawford, 1772-1834)。 四人都属于民主共和党 (Democratic-Republicans)。 从 1800 年起, 民主共和党在美国一直一党独大。 党内意见纷纭, 议会党团 (Congressional caucus) 对总统和副总统的提名遭到广泛的轻视。 各州各县相继自己组织竞选大会, 提名候选人。 政界人士和各地报社期望找到一种能够准确预测大选结果的方法, 于是有人想到, 或许可以通过民意调查的方式探测选民意向。 这种民调最初被称为Straw poll, straw 的意思是干草, 想知道风向, 往空中撒一把干草, 看它们朝哪个方向飞, 所以, Straw poll可以翻译成 “风向调查”。 这种调查那时仅局限于某个城市或某个地区, 任何一个报社或者组织都可以选择一个自己运作方便的方式开展民调, 然后根据结果对选举进行预测。 比如那年 8 月 5 日, 《卡罗来纳观察者报》(The Carolina Observer) 就报道了 7 月 17 日北卡州伯蒂县 (Bertie County) 一次民间武装集会上得到的民意调查结果: 杰克逊 102 票, 克劳福 30 票, 亚当斯 1 票, 克莱 0 票。 因为参与民调的是民兵, 当然全是白人男性。 两周之后 (8 月 19 日), 同一份报纸又报道了另外一个完全不同的结果: 亚当斯 181 票, 杰克逊 90 票, 克劳福 2 票。 这个结果是从行政和法律工作人员当中得到的。 显然, 在不同的人群中询问同样的问题, 会得到完全不同的答案。 这在统计学中叫做采样偏差 (Sampling bias 或Selection bias)。
1824 年的大选以没有选出总统作为结果, 因为四位候选人没有一个人得到选举人的多数票。 按照第十二条宪法修正案, 经由国会众议院投票, 亚当斯在1825年才正式当选为第六任美国总统。 他是第二任总统约翰·亚当斯(John Adams, 1735-1826) 的长子, 美国历史上第一对父子总统。
快进 112 年。 1936 年, 美国第 38 届总统大选, 选民需要在民主党人富兰克林・罗斯福(Franklin Delano Roosevelt, 1882-1945)和共和党人阿尔弗·兰顿(Alf Landon, 1887-1987) 之间做出选择。 当时有一个有名的期刊叫《文学文摘》(The Literary Digest), 它已经连续数届在大选期间发表过最有权威的民意调查结果。 《文学文摘》 在 1936 年发出 1000 万份问卷, 得到 240 万个回复。 这些回复有的来自大城市像伊利诺伊州的芝加哥, 有的来自小城市如宾夕法尼亚的斯克兰顿 (Scranton) 和艾伦敦 (Allentown)。 依据这套庞大的统计数据, 《文学文摘》充满信心地预测:兰顿将获得 370 张选举人票 (约 69%), 而罗斯福只能得到 161 票 (30%)。
与此同时, 35 岁的乔治·盖洛普 (George Horace Gallup, 1901-1984) 也在进行他的民调。 这位不为人知的文学系博士从事新闻工作, 他在 4 年前第一次做民调, 为的是帮助自己的丈母娘竞选爱荷华州的州务卿, 结果丈母娘大胜, 这使得盖洛普一下子对政治和民调大感兴趣。 1936年大选期间, 盖洛普对 5 万人进行了民意调查, 得到的结果与《文学文摘》恰恰相反, 他预测罗斯福将在大选中获胜。 11月3日那天, 罗斯福赢得了 62% 选民的选票, 更获得了 523 张选举人票, 而选举人的总票数是 538, 罗斯福的票数超过 97%。 相比之下, 兰顿仅仅赢得 8 张选举人票, 不到 1.5%, 差距之悬殊在美国总统竞选历史上是罕见的。 《文学文摘》的名声一落千丈, 两年后不得不终止民调活动, 而 “盖洛普调查” 则一夜之间变得名声显赫。
5 万人的民意调查正确地预测了竞选结果, 而 240 万的民意调查结果却大错特错。 什么地方出了问题?
民调首先需要选择调查对象, 也就是所谓的采样 (sampling)。 当时美国的选民总数大约是 4560 万, 显然不可能一一调查询问, 只能采用随机采样的方法。 《文学文摘》的采样工作依靠的是几个不同的名单, 包括订阅《文学文摘》的读者, 汽车驾照注册名单, 以及各地的电话簿。 驾照和电话簿含有大量人名, 使他们得以发出上千万张印有问卷的明信片。 问题是, 1936 年正是经济大萧条的年代, 许许多多寻常老百姓生活拮据, 不得不削减开支。 如果连吃饭的钱都不够用, 谁还订阅《文学文摘》呢?至于电话和汽车, 在那个年代都属于奢侈品, 一般人是买不起、用不起的。 换句话说, 《文学文摘》期望通过对大量的选民进行民调来对民意进行可靠的评估, 可是它的选择方式实际上把平民百姓和农村人口排除在外。 盖洛普后来批评说, 由于采样偏差, 《文学文摘》的民调得到的主要是富人的意见。
盖洛普的 5 万人调查采用的是面对面采访和邮件调查相结合的方式。 被采访人遍布当时美国所有的州, 而且包括所有不同阶层。 人数虽然少, 可是更具有代表性。
任何类型的统计数字都可能出现采样偏差。 比如, 有的制药公司在发表新药测试结果时, 有意隐瞒不成功的案例, 使数据从表面上看成功的概率很高。 为了避免这种 “不发表偏差”, 现在专业医学刊物要求任何一项测试研究在开始之前必须向刊物登记, 之后才能在将来把测试结果发表。 这可以帮助刊物的编辑判别成功与不成功的真实比例。
再比如, 美国有各种各样的投资公司帮助个人理财。 大多数美国人定期把工资的一部分在税前存入养老金账户, 预备退休后使用。 共同基金 (Mutual Fund) 是一种很受大众欢迎的投资方式。 老百姓不懂理财, 也没有股票投资的分析能力和时间, 支付一些手续费, 把钱交给有公信力的共同基金来管理, 只需要选择投资目标和风险程度。 但是, 人们依靠什么来从成千上万的共同基金里选出最好的基金呢? 它们的公信力在哪里? 很多共同基金按照股市的一些指数作为标准, 比如标准普尔 500 指数 (Standard and Poor 500), 共同基金的管理人都宣称自己经验丰富, 会见风使舵, 基金的增益连年超过标准普尔 500。 实际上这在现实当中是很难做到的。 怎么保证连年超过这个指数呢? 也是采样偏差。 年初时一个投资公司可能有 20 个面目相似的共同基金, 可到了年底也许只剩下 3、4 个, 这 3、4 个是增益超过标准普尔 500 的基金, 其他增益不好的提前关闭。 然后在年度报告里, 只讲这 3、4 个基金的效益, 不提其余, 于是公司的 “业绩” 就大大彰显出来了。 这叫 “幸存者偏差” (那 3、4 个增益好的基金就是幸存者)。
有的时候, 偏差是忽视了其他因素之后造成的。 1993 年, 一项研究声称, 患有乳腺癌的妇女是因为高脂肪饮食。 研究的方法是请两组被调查人群, 患乳腺癌和不患乳腺癌的妇女, 填写多年之前, 也就是发现乳腺癌之前的饮食内容。 调查发现, 患乳腺癌的妇女多年前喜欢吃高脂肪食物。 批评者说, 这实际上是在考察乳腺癌对患者记忆的影响。 每个人对过去的记忆都是不准确的; 患乳腺癌的妇女在确诊之后非常关心有关乳腺癌的知识, 不断地研读高脂肪饮食造成乳腺癌的研究结果和报道。 这些后来的印象很可能对患者产生了暗示作用, 以为那是自己罹患癌症的原因, 这叫 “记忆偏差”。 再如, 按时服用维生素的人更健康。 是维生素让这些人更健康, 还是服用维生素的人比其他人更注意健康, 所以锻炼比较多呢?这叫 “健康使用者偏差”。 在前一章里, 拉普拉斯在分析男婴和女婴出生比例的时候就考虑到一些可能的采样偏差, 如气候、食物、风俗习惯等等。 他是把这些可能的因素都排除之后, 才确认男婴出生百分比大于女婴的。
在绝大多数情况下, 采样偏差是不可避免的。 如何识别偏差的存在, 如何对偏差进行合理的修正, 也是统计学非常重要的课题。
从 1936 年第 38 届美国大选到 2016 年第 58 届美国大选, 民调仍然存在严重的问题。 大选前夕, 根据舆论调查 (opinion polls) 的统计数据, 绝大多数民调结果预测希拉里·克林顿获胜的机会在 85% 到 99% 之间。 普林斯顿大学的华裔神经科学教授萨缪尔·王 (Samuel “Sam” Sheng-Hung Wang, 1967一) 主持一个名叫 “普林斯顿大选联盟” (Princeton Election Consortium, PEC) 的博客, 连续十几年利用业余时间搞大选预测。 2016 年, PEC 推出两个预测。 一个预测希拉里有 93% 的概率获胜, 另一个萨缪尔·王最相信的预测是利用贝叶斯理论得到的, 希拉里获胜概率高达99%。 萨缪尔·王对他的预测结果信心满满, 当众宣布说, 如果特朗普能获得超过 240 张选举人票, 他就吃下一只虫子。 11月8日选举结束, 特朗普当选的结果令全世界不知多少人震惊万分。 甚至有人说, 连特朗普自己都不相信自己赢了。 萨缪尔·王倒是没有食言, 他出现在 CNN 电视屏幕上, 说: “我希望我们可以转回到统计数据上去, 认真思考政策和问题。 ” 然后带着极端痛苦的表情把一只蘸了蜂蜜的蛐蛐吞下肚去。
21 世纪的民调采用了多种多样的方法和各种各样的渠道。 民调的统计理论也比 90年前大大进步了。 除了电话调查, 五花八门的线上概率和非概率采样调查、预测的算法和模型等等, 各种方法显示的误差基本都差不多。 2016 年大选期间民调的大失败是近几年无休无止的话题。 那么多民调机构, 大家一致撒谎的可能性几乎不存在。 那么, 是民调数据的采集方法错了吗?
2017 年春季, 美国公共舆论研究协会 (American Association for Public Opinion Research) 成立了一个委员会专门考察这个问题, 并发表了一份报告, 结论是, 数据采集方法并没有错。 实际上, 从个人投票的统计上看, 希拉里获得的选票比特朗普要多, 这与通过民调统计分析得到的结果基本是符合的。 但美国是选举人制度, 每个州有不同而且固定的选举人票数。 选举人票数估计的错误是若干被忽视的采样偏差造成的。
哪些偏差呢? 一是大量举棋不定的人群在最后一周才决定投哪个竞选人的票 (这两位竞选者都不大招人喜欢), 这些人在民调中没有痕迹。 二是受访人群大多数受过高等教育, 高中以下学历的受访者很少。 很多州一级的民调没有对这种采样偏差做出相应的调整 (这需要利用其他统计数据对不同人群的数据赋予不同的权重)。 选举后, 有关人员根据选后调查得到的不同学历的受调人的反应对选举之前的数据进行矫正, 对采样偏差做出了估计, 预备以后民调使用。 三是不少特朗普支持者在民调中表现 “羞涩”, 不表达自己的倾向。 这个所谓 “羞涩特朗普支持者效应” (Shy Trumper effect) 实际上属于 “不反应偏差” (No response bias)。 最后, 还有些人可能迫于社会压力, 在民调中说谎。 而特朗普上台之后, 这后两种人感到彻底解放了, 其实一点也不羞涩。 美国好像一个沉静多年的老池塘, 表面看上去水面平滑, 池水清澈, 可是被一根棍子狠狠一搅, 马上沉渣四浮。
实际上, 2016 年大选的 “意外” 在历史上不是第一次。 1948 年美国第 41 届大选, 主要候选人共和党人杜威 (Thomas Edmund Dewey, 1902-1971) 挑战当任总统、民主党的杜鲁门 (Harry S. Truman, 1884-1972)。 当时的民调大都显示, 杜威将大胜杜鲁门, 盖洛普的预测也不例外。 有一家面粉公司也参与了民调。 他们向农场主提供免费的鸡食口袋, 条件是农场主必须告诉他们, 倾向于选民主党的杜鲁门还是共和党的杜威。 选杜鲁门的会得到印有驴子图案的口袋, 选杜威的会得到印有大象图案的口袋, 驴子和大象分别是两个党的象征。 当面粉公司发现 54% 的农场主希望得到驴子图案口袋的时候, 他们觉得这个 “民调” 不对劲儿, 还没结束就放弃了。 亲共和党的《纽约邮报》(New York Post)在大选前发表文章, 幸灾乐祸地说:民主党应该立即承认失败, 这样可以节省很多选战活动的资金。 《生活》杂志在杜威的照片下面直接写下 “下一任美国总统杜威”。 《芝加哥每日论坛报》(Chicago Daily Tribune)更是提前准备了报纸的头版新闻标题《杜威击败杜鲁门》。 竞选那天, 共和党在华盛顿特区的罗斯福饭店集会, 准备大大庆祝一番。 杜威本人预测, 在晚饭前杜鲁门就会发电报来对他表示祝贺。 而杜鲁门却跑到老家密苏里州的独立城 (Independence) 附近洗土耳其浴去了。 洗了澡, 发了汗, 可能还有人给按摩之后, 轻轻松松地很早就上床睡觉了。 民主党的工作人员则完全没有信心, 他们为了节省经费应付 1952 年大选, 没有包租任何饭店舞厅作为庆祝场地。 民主党的全国委员会委员们甚至连收音机都没准备, 对选举的实际进展无从了解。 随着各州的选举结果相继出现, 人们赫然发现杜鲁门赢得了 28 个州, 得到 303 张选举人票, 而杜威只得到 189 张选举人票。 杜鲁门的 “神奇” 逆转使民主党实现了 5 次连任, 连续执掌白宫达 20 年。 同时民主党也在国会选举中获胜, 夺回两院的控制权。 杜鲁门的胜利使民主党的优势一直持续到 1968 年, 很多美国社会的福利权益法案都是在那期间通过的。
盖洛普后来分析说, 他的预测之所以 “走火” 是因为大选之前 3 周没有新的统计数据出现。 盖洛普经常利用批评《文学文摘》的采样偏差的机会宣传自己的 “科学方法”。 他的方法确实比《文学文摘》要科学, 但远不是完美无缺。 后来学者们对《文学文摘》民调数据的分析认为, 数据可能还有另一个偏差, 就是 “不反应偏差”。 受访者的回复率只有 24%, 1000 万人里, 有 760 万人把明信片丢进了垃圾箱。 不回复的人们出于某种原因多数倾向于罗斯福, 这种可能性也不能排除。
我们前面提到的民调网站 “538” (www.FiveThirtyEight.com) 在 2016 年美国大选日那天凌晨预测特朗普有29%的概率获胜。 这是所有主要民调机构给予特朗普的最高概率, 但也只是错得少了点而已。 “538” 的负责人西尔弗 (Nate Silver, 1978- ) 事后检讨认为, 采样偏差是 2016 年民调失败的主要因素。
下面让我们来看惊心动魄、精彩纷呈的 2020 年第 59 届美国总统大选。 大选临近时, “538” 把所有信誉比较可靠的民调机构发布的数据都拿来做加权平均, 希望加权平均后的结果可以减少采样偏差。 然后, 他们根据全国和各州的民调结果考虑大选期间可能出现的各种状况, 对选举结果进行模拟。 大选的前一天, “538” 发表预测说, 根据 4 万种不同情况的模拟 (这个模拟的结果见图 22.1), 估计特朗普仍有 10% 获胜的概率。 西尔弗专门发表评论, 告诫读者说, 这个概率就像一个人到洛杉矶去旅游, 洛杉矶在一年里平均只有 36 个下雨天, 你要不要带雨伞呢? 11 月 3 日夜晚, 选情胶着, 结果没有分晓。 5天之后选举结果逐渐趋于明朗, 民主党候选人、前副总统拜登胜出。 5天的焦急等待使不少人寝食不安, 有人开始对 “538” 大加责备:你们说了, 拜登有九成获胜概率, 那他应该大获全胜才对, 选情怎么会如此接近呢? 有人甚至要求西尔弗辞职, 或者建议他改行去算命。 这显然是对概率概念的极大误解。 统计学很像侦探的工作, 数据是证据, 而从统计学得到的推论是概率意义上的, 不是 “确凿无疑” 的。 小概率的事件也有可能发生。 “538” 给出拜登大选获胜的概率是 90%, 这说明他还有 10% 的概率会输掉大选。 假设你打算乘飞机到某个地方度假, 航空公司告诉你, 你乘坐的航班有 10% 的概率会在空中出现故障, 你会因为 90% 的概率不出故障而去乘坐那架飞机吗?

图22.1 2020年美国大选前夕, “538”模拟的 4 万种结果的获胜概率分布。 中间的黑线代表 270 张选举人票, 获胜的最低票数。 红色曲线是特朗普的获胜概率分布, 绝大多数 (约 90%) 都低于 270 票。 蓝色曲线是拜登的获胜概率分布, 绝大多数 (约 90%)都高于 270 票。
“538” 本身不做民意调查, 只是对所有的民意调查进行统计学分析。 它对 2020 年大选做出的预测基本上是成功的。 但从选民最终作出的抉择来看, 民调的结果仍然是不够准确的。 大选前夕, “538” 根据当时所有的全国民调分析, 认为选民中倾向于拜登的要比倾向于特朗普的高8%左右。 民调结果的误差一般在 3%一 4%, 所以, 所以 “538”说, 拜登获得多数选票的概率高于 90%, 在误差范围之外。 大选的结果是, 拜登仅比特朗普多得到约 4% 的选票。 局限于各个州的民调数据的问题更大, 比如佛罗里达州, 预测拜登的支持率比特朗普高2.5%。 但事实是, 特朗普得到了高出拜登 3.3% 的选票, 赢得了佛罗里达州的 29 张选举人票。 对各州众议院议员竞选结果的预测误判的程度就更大了。 这说明, 即使对多个民调结果做了加权平均, 采样偏差仍然存在。 2016 年和 2020 年两次大选的民调显示, 常常是支持特朗普的人数被低估。 是这些人 “羞涩”, 还是他们不屑于回复民调? 或者有些人在投票那一刻改变了主意? 新冠疫情对民调意见的收集有多大影响? 这些因素的影响我们都不得而知。
从上面这些故事我们看到, 采样偏差对统计数据有非常重要的影响。 而作为个人, 在我们考虑问题, 根据自己有限的观察做出决定的时候, 更容易由于采样偏差而做出错误的决定。 哈佛大学校长、著名经济学家萨默斯 (Lawrence Henry Summers, 1954一) 有一次同时拒绝授予两位54岁的学者终身教职 (tenure), 理由是年纪太大, “过气了”, 属于“休眠的火山”, 这个理由显然是来自萨默斯自己有限的“统计数据”。 确实, 很多时候开创性的工作出自年轻人, 比如画家毕加索 (Pablo Picasso, 1881- 1973), 诗人艾略特 (Thomas Stearns Eliot, 1888-1965), 本篇前面提到的作家梅尔维尔, 科学家爱因斯坦等。 可是单靠这些人就做出普遍结论显然是错误的。 我们可以举出许多相反的例子, 比如画家塞尚(Paul Cézanne, 1839-1906)、诗人弗罗斯特(Robert Frost, 1874-1963)、作家伍尔夫 (Adeline Virginia Woolf, 1882-1941)、科学家达尔文 (Charles Robert Darwin, 1809-1882) 等都是大器晚成。 2019 年, 两位统计学家考察了从 1980 年到 1999 年之间 31 位诺贝尔经济学奖获得者和他们做出最主要工作时的年龄, 发现这些与萨默斯属于同一领域的优秀人物主要可以分成两类, 一类年轻有成, 平均年龄在 29 岁就一举成名;另一类大器晚成, 平均在 57 岁才做出里程碑式的贡献。 这两类人工作的性质也有所不同。 年轻有为的主要通过理论思辨做出新创, 而大器晚成者则通过对大量数据的分析来发展新经济学理论。 萨默斯拒绝 50 几岁的经济学家成为终身教授, 显得怀有偏见、目光短浅。
另外, 在分析统计数据的时候, 还有一个不可忽略的要素, 就是如何选用适当的参数来解释这些数据。 解释数据的人有可能根据主观因素采用不同的参数来表达自己的观点。 一个简单的例子是平均值和中位数, 这两个参数都是从一大堆统计数据里算出来的 “中间” 值, 用来代表这堆数据的某种特征。 听上去, 两者应该差不多, 可是在有些情况下, 选择平均值或中位数会造成对统计数据完全不同的解释。 打个比方。 10位农民工坐在马路边吃盒饭午餐, 他们的年收入都是 3 万元, 所以他们的平均年收入以及年收入的中位数都是 3 万元。 这时一辆豪华汽车停了下来, 从里面走出马云。 我们假定马云的年收入是 11 亿元。 刹那之间, 10 位农民工加上马云, 每人的平均年收入就变成了 1 亿元还多一点点 (那可怜的一点点是农民工们的贡献)。 可事实上对这 10位农民工来说, 他们一分钱也没有多挣。 你能说农民工一下子都富裕了吗? 如果我们看中位数, 把 11 个人都考虑进来, 中位数还是每年 3 万元。 显然, 在这种情况下, 中位数能够更准确地表达统计数据的内容。
客观来讲, 没有完美无缺的数据。 当你读到某一个你关心的问题的统计结果 (比如可能治愈母亲疾病的新药, 或是你喜欢的职业的未来走向), 不要只看后面的结论。 重要的是检查数据是如何得到的, 考虑了哪些采样偏差, 对这些偏差又是如何矫正的。 统计学里有一系列的理论来帮助我们分辨可靠的数据和不可靠的数据。 统计学也发展了一系列的理论来帮助我们修正数据里的偏差, 以得到客观而具有指导性的结论。 与这些理论有关的故事是下篇的主要内容。
本章主要参考文献
Berinsky, A. American Public Opinion in the 1930s and 1940s. Public Opinion Quarterly, 2006, 70: 499-529.
FiveThirtyEight.https://projects.fivethirtyeight.com/2020-election-forecast/.
Kennedy, C. Blumenthal, M., Clement, S., etc. An Evaluation of 2016 Election Polls in the U.S. https://www.aapor.org/Education-Resources/Reports/An-Evaluation-of-2016-Election-Polls-in-the-U-S.aspx.
Lushinchi, D. “President” Landon and the 1936 Liberty Digest Poll: Were automobile and telephone owners to blame? Societal Science History, 2012, 36: 23-54.
Weinberg, B.A., Galenson, D. W. Creative careers: the life cycles of Nobel laurates in economics. De Economist, 2019, 167: 221-239.