第十九章 莫里哀的谜团和联邦党人文集

1673 年 2 月 17 日下午, 巴黎的天空一片阴暗。 漫长的冬季已接近尾声, 可是午餐之后没多久, 天仍然就差不多全黑了。 街道很狭窄, 两边是密密麻麻四五层高的小楼。 市民在警察的催促下缩头缩脑地跑出来, 把悬挂在横贯街道的绳子上的油灯降下来点燃, 之后赶紧钻回矮小的门洞。 桔黄色豆粒大小的灯火幽幽照着弯弯曲曲的街道, 白天此起彼伏的小贩叫卖声和牲畜的鸣叫声已经消失了。

几年前, 巴黎刚刚经过一场脱胎换骨的改造, 满街的粪便、兽血和垃圾被清除, 刺鼻的臭气大大降低。 巴黎第一次有了警察总局, 第一任局长德·拉·雷尼(Gabriel Nicolas de La Reynie, 1625-1709) 大刀阔斧地整治这个处处打架斗殴的城市。 主要街道都安装了小油灯, 黑暗中的犯罪活动得到了遏制。

塞纳河北侧, 巴黎人称之为右岸。 紧挨着卢浮宫的北端, 是太阳王路易十四的弟弟奥尔良公爵的府邸 (今天叫做皇家宫殿)。 豪华的宫殿式建筑, 以前是红衣主教黎塞留 (其人见第九章) 的住宅, 这群巨大建筑的西北角灯火显得出奇的明亮, 那是巴黎有名的剧场。 无数豪华的马车聚集在剧场外, 穿金带银的仆人们手提灯笼, 成群地在广场上踱步闲聊, 等候观剧的主人。

金碧辉煌的剧场内温暖如春, 灯火辉煌, 主剧场和两边的包厢爆满。 人们伸长了脖子, 聚精会神地注视着舞台的中心, 那里一个满面愁容的中年贵族正坐在高靠背的沙发椅上大发牢骚, 他的每一句话都引起观众捧腹大笑(图 19.1)。

这出戏剧名叫《无病呻吟》。 它的法语原文是 Malade Imaginaire, 意思是臆想出来的疾病, 讲的是一位疑病症(hypochondria)患者阿尔岗(Argan)先生的趣事。 阿尔岗总是觉得自己已经病入膏肓, 总是想请医生治疗, 吃药住院, 这种心理疾病具有极强的讽刺和荒诞意味, 更令人叫绝的是故事对阿尔岗身边的人物的性格塑造。 医生以治病为由肆无忌惮地榨取钱财, 却无视阿尔岗疾病的症结所在, 而他的妻子想方设法要尽快继承阿尔岗的财产, 并暗中破坏女儿与恋人的纯真感情。 故事最终在女仆揭穿阿尔岗妻子的阴谋那一刻达到高潮, 有情人终成眷属, 而阿尔岗自己则成为了一名医生。

01952687-d372-7abb-afcb-1fdad5b56c54_192_296_247_1009_673_0.jpg

图19.1 1761 年在巴黎皇家大剧院演出喜剧的情景。 从这里我们可以想象莫里哀当时演戏的场面。 作者: 法国画家圣奥班 (Gabriel de Saint-Aubin, 1724-1780)。

这部戏于 1673 年 2 月 10 日首次在巴黎公演, 男主角阿尔岗由作者兼导演莫里哀亲自出演, 三场之后, 风靡巴黎, 以至于满城尽谈阿尔岗。

2 月 17 日是第 4 场演出。 离开场还有很长时间, 可剧场内已经座无虚席, 人们高谈阔论, 兴致勃勃, 笑声不断传到后台。 而在后台, 演员们却一个个面带忧虑。 莫里哀坐在化妆镜前不断地咳嗽, 时而憋得青筋迸露, 满面紫红。 他的妻子阿曼德(Armande) 劝他不要上台了, 可是莫里哀说: “剧团的诸位都需要挣钱来养家糊口, 我也不能把观众扔在一边。 停演会给诸位带来困扰, 那我就该责怪我自己了。 放心吧, 我有足够的力量完成这场演出。 ”

下午 4 点钟, 喜剧正式开幕, 莫里哀坐在舞台正中的带有高高靠背的椅子上, 一个疑虑重重的阿尔岗惟妙惟肖地出现在观众面前。 他一面表演一面忍不住咳嗽, 胸口疼痛难忍, 他不得不皱着眉头。 不明真相的观众觉得他的表演太真实太生动了, 大声叫好。 而躲在舞台侧面密切注视的妻子却忍不住落下泪来。 这是一场多么具有讽刺意味的悲喜剧啊, 身患着绝症的演员利用自己疾病的痛苦, 来扮演一位疑病症患者!

喜剧终于接近尾声, 阿尔岗成为一名医生, 他宣誓要忠于古代名医传下来的治疗手段, 绝不欺骗病人。 当阿尔岗用蹩脚拉丁语说出最后一句台词:“我发誓……” 一阵剧烈的抽搐袭来。 莫里哀努力挣扎, 想发出笑声来掩盖, 但那笑声太干枯、太嘶哑了。 幸好这时舞台上的狂欢场景出现, 转移了观众的视线。 男男女女的芭蕾舞演员涌上舞台, 在欢快的音乐下载歌载舞。 这种芭蕾喜剧也是莫里哀自己发明的, 后来在法国极为流行。 大幕终于落了下来。 在雷鸣般的掌声中, 莫里哀瘫坐在阿尔岗的高背椅中, 已经昏厥过去。 众人把他小心翼翼地抬回家中, 莫里哀醒来之后平静地说:“我的路走完了。 ” 几小时以后, 一代名伶溘然而逝。

莫里哀(图 19.2)本姓波克兰(Jean-Baptiste Poquelin, 1622-1673), 出生于一个富足的小贵族家庭。 他的父亲是路易十四的王室侍从, 负责皇宫内的地毯窗帘家具等陈设。 在他19岁的时候, 他遵从父亲的愿望, 也成为王室侍从。 他本来可以享受一切贵族待遇, 但在 21 岁的时候, 他放弃了这一切, 加入了一个巡回剧团, 到处流浪演出。 跟中国类似, 在 17 世纪的欧洲, 演员也属于下九流之类。 他的抉择给家庭带来巨大耻辱。 不知是自愿还是被迫, 他改姓为莫里哀。 流浪的生活持续了整整 13 年, 其间的痛苦流离难以述说。 由于欠债, 还被关过监狱。 他的肺结核很可能就是在监狱里被传染上的。

01952687-d372-7abb-afcb-1fdad5b56c54_193_297_1080_480_617_0.jpg

图19.2 莫里哀画像。 作者: 法国画家米尼亚 (Nicolas Mignard, 1606-1668)。 米尼亚与莫里哀生活在同一个时代, 这应该是最接近于莫里哀真实相貌的画像。 莫里哀有一个大鼻子, 据说他刚出生时, 使女一见就惊叫道:“鼻子!” 从那时起, “鼻子”就成了他的小名。

后来由于奥尔良公爵的资助, 使他有机会进入卢浮宫在路易十四国王面前导演戏剧。 国王很喜欢他的风格, 允许他使用卢浮宫附近一个名叫 “小波旁” (Petit-Bourbon)的演出大厅 (图 19.3), 后来莫里哀又获准使用巴黎皇家宫殿剧院。 莫里哀本人酷爱悲剧, 可是巴黎人对他在悲剧演完之后即兴进行的插科打诨的喜剧表演更感兴趣, 他只好改在喜剧上下功夫。 他执笔创作和表演的多出喜剧都获得巴黎人的喜爱, 比如《可笑的女才子》、《太太学堂》、《丈夫学堂》等。 他在演艺界的地位飞速提升, 成为当时最为有名的演员。 不过, 他在戏剧中对贵族生活的讽刺和嘲笑也招来许多抗议和批评, 尤其是《伪君子》和《唐·璜》这两出戏, 一再遭到禁演。

多亏路易十四经常站在莫里哀一边。 当时的法国, 任何戏剧在巴黎上演之前必须通过国王的亲自审查, 然后由国王颁布上演令才可以出台。 路易十四跟高等法院的领袖以及巴黎贵族们的关系一直不好。 1648 年, 高等法院反对路易十四和内政大臣大主教马萨林增加苛捐杂税的决策, 争端不断升级, 最后发展成暴乱。 以高等法院为首的贵族和巴黎市民联合起来, 走上街头, 用弹弓击打国王及其支持者的窗户, 史称第一次投石党之乱。 暴动造成数十万人死亡, 国王被迫逃离巴黎。 路易十四本来就不喜欢巴黎, 这么一来, 他坚持住在凡尔赛宫, 除非不得已, 不再进巴黎城。 可以想象, 莫里哀拿贵族们开涮取笑, 路易十四暗地里是很开心的。 另外还有人说, 莫里哀后来又接受了王室侍从的职位, 在演出之余为国王管理窗帘家具和地毯, 甚至可能负责每天国王卧室的安排, 所以深得国王的信任。

01952687-d372-7abb-afcb-1fdad5b56c54_194_289_781_1037_798_0.jpg

图19.3 从塞纳河左岸看 1646 年的卢浮宫 (左面) 和小波旁演出大厅 (右面黑重的部分)。 作者: 德拉·贝拉 (Stefano della Bella)。 这是莫里哀早期在巴黎演戏的地方。 1660 年卢浮宫扩建, 小波旁被拆掉, 现在已经不存在了。

即便跟国王有如此亲密的关系, 莫里哀逝世之后, 遗体仍然不能葬入为贵族准备的公墓, 这是当时法国的法律规定。 一些笃信天主教的人们还认为, 莫里哀去世时没有得到神父给予的最后的安慰, 因此注定要下地狱。 确实, 莫里哀咽气之前, 他的妻子派人去请两位神父来为他祷告, 可是这二位却说, 《伪君子》的作者不配得到他们的祷告和安慰。 心急如焚的阿曼德只好再请第三位, 然而等到神父赶到病榻之前, 莫里哀已经咽气了。

阿曼德只好来到路易十四面前长跪不起, 恳求他看在亡夫生前与国王的融洽关系上, 给死者一席葬身之地。 最终, 国王允许莫里哀的葬礼在夜晚悄悄地举行, 而遗体只能葬在为未经洗礼而夭折的婴儿所准备的地段。 莫里哀在一片不知名的墓地里沉睡了一百多年, 后来才被移送到拉雪兹(Lachaise)公墓(图 19.4), 安葬在与他同期的著名作家拉封丹(Jean de La Fontaine, 1621-1695)墓旁。

一代名伶就这样悲惨地离开了人间。 咽气的时候, 他穿着一袭绿色长袍。 从此, 法国的演艺人士拒绝穿绿色, 觉得绿色对演员来说不吉利。

莫里哀去世了, 但 300 多年来, 他的生命却在他的文字里鲜活地持续着。 《无病呻吟》是莫里哀晚年创作生涯的一个高峰, 他的代表作之一。 这个剧本先后被翻译成几十种语言, 在世界各地的众多国家以各种舞台形式搬上舞台, 常演不衰。 他的其他作品也在巴黎法兰西喜剧院不断地上演。 有人统计过, 从 1680 年到 1978 年, 莫里哀的戏剧在这里上演了将近 3 万场。 如今, 法语被称为是莫里哀的语言。 他的喜剧人物家喻户晓, 法语中的许多成语, 都和莫里哀的喜剧有关。 比如, 法国人把伪善的人称为达尔图费 (Tartuffe), 这是《伪君子》中主人公的名字;把吝啬的人叫做阿尔帕贡(Harpagon), 这是《悭吝人》的主人公;把死板僵硬的领导或长辈称为指挥官雕像 (Statue du Commandeur), 这来自《唐·璜》, 等等。 可以说, 莫里哀之于法兰西, 如同莎士比亚之于大英帝国。

01952687-d372-7abb-afcb-1fdad5b56c54_196_288_240_1032_680_0.jpg

图 19.4 坐落在巴黎郊外拉雪兹公墓里的莫里哀墓。

然而奇怪的是, 写了 30 多部剧作的莫里哀, 在身后却没有留下任何手稿。 目前除了莫里哀在一些公文上的签名以外, 我们看不到他创作剧本的任何手迹。 据说莫里哀去世以后, 他的妻子把装有他的全部手稿的箱子卖掉了。 还有传说, 在波旁王朝复辟期间 (1814-1830), 一个农民模样的人来到法国国家图书馆, 号称手里有一只极有价值的箱子。 那天天色已晚, 门卫拒绝他进入, 因为图书馆人员已经下班了。 农夫转身离开前, 留下一句话:“这个箱子里装满了莫里哀的原始手稿。 我真替你们图书馆惋惜。 ” 从那以后, 再也没有关于这箱子的消息了。

又过了一百多年, 1919 年, 一位法国作家路易斯 (Pierre Louýs, 1870-1925) 突然发文说, 莫里哀的戏剧不是他自己写的, 这在法国引起了轩然大波。 路易斯和他的支持者们提出以下论据:

  1. 莫里哀在世的时候, 没人把他当作作家来提起过。 莫里哀自己也没有说过自已是作家。

  2. 莫里哀回到巴黎, 在路易十四的准许下开始组团演戏时, 已经 30 多岁了。 在此之前, 从未发表过剧作;他回到巴黎就可以一鸣惊人, 这似乎难以做到。

  3. 他的创作效率惊人, 连续发表喜剧杰作, 平均每年两部。 同时, 他必须花大量的时间排戏演戏。 业余时间能有如此丰厚的产出, 似乎也不大可能。

  4. 莫里哀的手稿从来没有被发现过。

据说, 路易斯对莫里哀的指控是受到英国人指控莎士比亚的启发。 1891 年, 一位名叫格林斯特里特 (Greenstreet) 的英国档案管理员首先提出, 莎士比亚的一些剧作可能是第六任德比伯爵(Earl of Derby)斯坦利(William Stanley)作为消遣写着玩的结果。 对于这个假说, 法国人研究得特别上劲儿。 在这个意义上, 也可以说莫里哀之于法兰西, 如同莎士比亚之于大英帝国。

对于这样的问题, 如何才能科学而客观地处理和评估呢? 这就需要对文字进行大量的统计学分析了: 一些特定文字的使用频率, 句法的特色, 段落的结构, 故事的构思特征, 等等。 这种分析方法称为文体量化 (Stylometry)。 这样的分析有很多实际的用处, 比如揭发剽窃行为, 为犯罪行为提供线索等等。 20世纪90年代, 美国出过一个著名的案子。 一个罪犯在 18 年内邮寄了 16 个包裹给美国的大学和航空公司, 造成 3 人死亡, 23 人受伤。 美国联邦调查局连续调查了 18 年, 审查了 200 多个嫌疑人, 调查了两万多个线索, 最后还是罪犯自己露出了尾巴。 他把一篇论文作为挑战世界的宣言, 同时寄给《纽约时报》和《华盛顿邮报》, 并威胁他们, 必须在同一天发表, 不能更动一个字。 这个人就是著名的 “大学航空炸弹客” (Unabomber) 泰德・卡辛斯基 (Theodore Kaczynski, 1942一), 智商高达 167 的前加州伯克利大学数学教授。 警方通过对比卡辛斯基与弟弟的通信和寄到《纽约时报》的恐怖宣言的文体, 确定了罪犯。 联邦调查局后来说, 这是他们历史上耗资最大的案子。

文字的分析还有许多其他用处。 我们在上篇里已经看到, 对于语言的各种分析在 2000 多年前就有人在做了, 后来语言分析的一个重要原因是破译密码。 这需要对一种语言所使用的字母进行大量的分析。 这可能是最早的统计分析。

文体量化的统计工作有许多方法, 这里我们用另一个故事来说明。

1776 年 7 月 2 日, 北美 13 个殖民地的代表通过了著名的《独立宣言》。 7 月 4 日, 《独立宣言》正式公布。 这个宣言包含了基于英国哲学家约翰·洛克 (John Locke, 1632-1704) 宪政思想的三个基本原则:每人都拥有自然权利, 政府的合法性来自被统治者, 被统治者有权改变政府。

1781 年, 英国军队在约克镇战役中投降。 两年后, 英国政府同 13 个殖民地的联军签订了巴黎条约, 美利坚合众国正式独立, 乔治·华盛顿随即解散了军队。 美利坚的各州马上面临如何建立独立的联合国家的挑战。 一些中南部殖民地的殖民者要求建立一个强大的、类似英国的中央政府, 但是自称为共和主义者的新英格兰和弗吉尼亚的反保皇党人反对。 他们反对君主制, 反对行政首脑制, 反对任何限制本地群体的政府, 主张建立联邦制。 1787 年 9 月下旬, 美国的宪法草案被分发到各州进行讨论, 预备进行表决程序。 不久, 一批以 “反联邦主义者” 为笔名的人士纷纷发表文章和公开信对该草案进行批评。

为了应对这些批评的声音, 汉密尔顿 (Alexander Hamilton, 1755-1804) 计划通过撰写一系列联邦党人的文章, 向纽约市民解释宪法草案的宗旨, 说服他们投票支持该宪法草案。 他在联邦党人文集第一篇短文中说:“这一系列的文章将努力对所有可能出现的反对者提供一个为之满意的答复。 ”

为了寻求共同的写作人员, 汉密尔顿找到了约翰·杰伊(John Jay, 1745-1829)。 可是杰伊不久患病, 并没有为这个文集贡献多少文章。 汉密尔顿和杰伊共同邀请纽约市国会议员麦迪逊 (James Madison, 1751-1836) 参加写作计划, 此后麦迪逊成为汉密尔顿的主要合作者。 1787 年 10 月 27 日起, 他们的文章开始在纽约市 3 家报纸上以单人笔名普布利乌斯 (Publius) 发表。 他们的写作速度奇快, 通常在一周之内要发表 3 到 4 篇新评论。 汉密尔顿同时也鼓励纽约地区以外的报纸转载这些文章。 这些文章产生了极大的反响。

1788 年元旦, 纽约市的麦克里恩出版社 (J. & A. McLean) 宣布将已经发表的 36 篇文章作为合集出版。 合集在当年 3 月 2 日出版, 取名为《联邦人集》或《联邦党人集》(The Federalist)。 之后, 新的文章在各家报纸上陆续刊出。 到了 4 月 2 日, 已经发表到第 77 号文章。 5 月 28 日, 第一期合集之后发表的 49 篇文章被收入第二期合集出版发行。 在 77 号文章之后, 又有 8 篇文章陆续被登载在报纸上。 这 85 篇文章对美国宪法和美国政府的运作原理进行了剖析和阐述, 是研究美国宪法最重要的历史文献之一。

由于汉密尔顿坚持文章不署名, 3位作者的具体分工和论文的文责便成了一个谜。 第一次给每篇文章的执笔者署名的文集出版于1810年, 执笔者的名单是汉密尔顿提供的, 而且注明两册文集由汉密尔顿编辑。 1818 年的新版本中则列出了麦迪逊提供的执笔者名单。 这两份执笔者名单里, 12篇文章的作者不明。

在与政敌艾伦·伯尔决斗之前没几天 (决斗的故事见第一章), 汉密尔顿列出了文集的具体执笔者名单。 在这份名单中, 汉密尔顿是其中 63 篇文章的作者 (其中有 3 篇是跟麦迪逊合著的)。 这也是 1810 年出版的文集中具体执笔者名单的依据。 当时麦迪逊并没有提出质疑。 在 1818 年版的作者名单中, 麦迪逊指出自己是 29 篇文章的作者, 而两份名单的差异是汉密尔顿在匆忙中完成备忘录时的错误造成的。

为了弄清 3 位作者的贡献, 后来的学者们对存在争议的 12 篇文章进行了用词频率和写作风格的统计分析。 最早的文体量化理论是一位名叫门登霍尔 (Thomas C. Mendenhall, 1841-1924) 的物理学家在 1887 年提出的。 他认为作家的风格如同热辐射, 不同的温度有不同的频谱。 他的母语是英语, 对他来说, 每个英语作家都有自己的英文 “词汇谱”。 所谓词汇谱, 并不是作家喜欢使用哪些具体的词汇。 英语是一种词汇量极大的语言, 简单地考察每个具体词汇的使用频率是没有什么意义的。 门登霍尔提出考察文章里面出现不同字长的频率, 他把含有相同字母数的词放在一起, 选择字长作为变量。

在 1887 年的文章里, 门登霍尔利用词汇谱分析了几位著名英文作家的风格, 图 19.5 是他给出的两个例子。 他从大作家狄更斯 (Charles John Huffam Dickens, 1812- 1870)的两部作品《雾都孤儿》(Oliver Twist)和《圣诞欢歌》(A Christmas Carol)里各取一个 5000 字的段落, 得到的平均每千字的字长出现频率分布, 发现两者几乎一模一样。 他又从另一位大作家萨克雷(William Makepeace Thackeray, 1811-1863)的《名利场》(Vanity Fair) 里随机取出两个 5000 字的段落, 发现它们的词汇谱也几乎一模一样。 门登霍尔宣称, 分析 10 万个字词汇谱应该能分辨出不同的作者来。 这个分析方法和我们在第十三章里谈到的利用语言分析破译密码的思路很相似。

01952687-d372-7abb-afcb-1fdad5b56c54_199_301_1242_631_458_0.jpg

图19.5 门登霍尔统计得到的狄更斯和萨克雷的“词汇谱”。 狄更斯的两部作品, 《雾都孤儿》和《圣诞欢歌》, 用 10000 个字的连续段落分析显示几乎完全相同的词汇谱。 萨克雷的《名利场》两节各 5000 个字的连续段落给出的词汇谱也几乎完全相同。 而两个作家的词汇谱是不同的。

门登霍尔的这个理论后来被人用来研究莎士比亚剧作的真正执笔人, 但效果不佳。 这是因为词汇谱对词汇的分类有点过于粗糙了。 另外, 文体的不同 (小说、诗歌、 戏剧)对词汇谱的影响很大。

进入 20 世纪, 随着统计学理论和计算机的发展, 出现了许许多多文体量化的分析方法, 其中一个方法是分析功能词 (Function words)。 所谓功能词, 是文章里经常出现的基本词汇, 它们的作用不在于描述行动或感情, 只是句子的 “黏结剂”。 图 19.6 列出英语中最常用的功能词。 这些词有时是可有可无的, 而不同作者使用常见功能词的习惯就构成了作者特有的 “指纹”。 这个思路同门登霍尔的词汇谱恰恰相反, 但是效果更好。

定量分析功能词的使用频率是一项比较复杂的工作, 需要大量的线性代数知识和现代的计算手段。 在分析汉密尔顿和麦迪逊的作者问题时, 需要先分析肯定是两个人分别执笔的文章, 找出这些文章里使用功能词的特征。 在 85 篇联邦党人论文里, 汉密尔顿参加执笔的有 56 篇, 麦迪逊有 50 篇。 二者之和大于 85 是因为其中有一部分论文是二人合写的。 如果把图 19.6 里面的 70 个功能词同时考虑进去, 把每篇论文中的 70 个功能词的使用频率都计算出来, 汉密尔顿使用的功能词频率可以用一个含有 个元素的矩阵来表示, 麦迪逊的则是一个 个元素的矩阵。 如果把这 70 个功能词看成是相互无关的变量, 那么寻找二人 “指纹” 的工作就变成考察在 70 个变量的空间里, 两个人所使用的功能词的频率相互之间的覆盖程度。 由于 70 维度的空间很难想象, 让我们考察 3 个功能词 upon、to 和 would 在这 3 个变量定义的三维空间里的分布 (图 19.7)。 如果汉密尔顿的 56 篇文章里的这 3 个词的分布同麦迪逊的 50 篇文章里的分布重合, 那么就没有办法区别作者了。 如果两个人的这 3 个词的频率分布只有一点点重合, 那么, 重合的部分很可能是两个人合作的论文, 而且可以利用数学方法找到一个曲面, 把这两个人的使用频率最大限度地分开。 曲面的使用有任意性, 如果弯弯曲曲过于复杂, 就不反映实际情况了。 最简单的曲面是平面。 如果两个人的论文的功能词使用频率可以用一个平面分开, 那就另选择 3 个功能词, 再来考察, 直到我们确信, 两个人的风格是可以分开的。 然后, 利用同样的功能词来考察那 12 篇作者不明的论文, 来看这些词的使用频率分布跟哪一位作者最接近。

${1a}$15 do29 is43 or57 this
2 all16 down30 it44 our58 to
3 also17 even31 its45 shall${59}\;{up}$
4 an18 every32 may46 should60 upon
5 and19 for33 more47 so61 was
6 any20 from34 must48 some62 were
7 are21 had35 my49 such63 what
8 as22 has36 no50 than64 when
9 at23 have37 not51 that65 which
${10}\;{be}$24 her38 now52 the66 who
11 been25 his39 of53 their67 will
12 but26 if40 on54 then68 with
13 by27 in41 one55 there69 would
14 can28 into42 only56 things70 your

图 19.6 分析联邦党人文集中作者不明的论文时所考虑的功能词。

图 19.7 给出这样一个分析的结果, 在考虑了大量的功能词的组合以后, 目前的结论是, 麦迪逊是这 12 篇论文的作者。

01952687-d372-7abb-afcb-1fdad5b56c54_201_295_1135_711_570_0.jpg

图19.7 分析过程的一个例子。 蓝色符号代表汉密尔顿在 56 篇论文中使用的三个功能词 (to, upon, would) 的频率分布, 红色符号是麦迪逊在 50 篇论文里使用的频率分布。 两个人的分布可以被一张平面全部分开。 绿色是 12 篇作者不明的论文的频率分布。 所有这 12 篇的频率分布都落在麦迪逊这一边。

那么, 莫里哀呢? 2001年, 有人比较莫里哀和与他同时期的戏剧名家高乃依 (Pierre Corneille, 1606-1684) 的作品, 通过分析词汇和词语的使用频率来分辨作者。 一部长篇大作, 词语 (如长短句子) 可能有几十万甚至上百万个, 而组成这些词语的词汇则要少得多, 也就是几千上万个。 分析二者之间的关系可以找到不同作者的 “指纹”。 这个分析的结果认为, 莫里哀和高乃依的作品基本可以分开, 不过有些莫里哀的作品应该是跟高乃依合作的。 2019 年, 有人利用高速计算机把功能词、词汇-词语、 韵律分析等一系列可能的统计分析方法结合起来分析, 认为莫里哀的作品有其独特的、与同时期其他作家 (包括高乃依) 不同的风格, 应该确定就是他自己所作。

本章主要参考文献

Bosch, R. A. and J. A. Smith. Separatinig hyperplanes and the authorship of the disputed Federalist Papers. The American Mathematical Monthly, 1998, 105: 601-608.

Cafiero, F. and J.-B. Camps. Why Molière most likely did write his plays. Science Advances, 2019, 5: eaax5489 (14).

Fung, G.. The disputed Fedrealist Papers: SVM feature selection via concave minimization. Proceedings of the 2003 Conference on Diversity in Computing (Atlanta, Georgia, USA). Journal of the ACM (Association for Computing Machinery), 2003, 42-46.

Labbe, C. and D. Labbe. Inter-textual distance and authorship attribution Corneille and Moliere. Journal of Quantitative Linguistics, 2001, 8: 213-231.

Mendenhall, T. C. The characteristic curves of composition. Science, 1887, 9: 237-249.