古代文学研究中计量分析的应用与限度
武汉大学王兆鹏教授在出版《唐诗排行榜》之后,又出版了《宋词排行榜》。这两本书的出版,引起了相关领域的专家学者与普通读者的强烈反响。报纸、期刊等平面媒体及文化网站、博客等网络媒体刊载的对《唐诗排行榜》与《宋词排行榜》二书的评论性文章可以分为两类,即学理层面的批评与非学理层面的批评。
非学理层面的批评,往往并没有建立在对批评对象本身及其目的有深入认识的基础之上,因而这类批评并不能把握问题的关键。如周怀宗在《〈唐诗排行榜〉引热议,学术研究还是恶作剧》一文中评道:“用数据来计算文学,这本文由论文联盟http://收集整理也是许多网友批评的根源。当文学变成一堆冰冷的数据,文学还是文学吗?”①张皓亮在《“宋词排行”外行学术还是另辟蹊径?》一文中评道:“文学欣赏中不同的读者对同一个作品的人物都看法迥异,何况博大精深的唐诗宋词。把它们作为类似运动员的成绩来排序,是一种外行学术的做法。”②这类非学理层面的批评,表达的是批评者对“排行榜”的一种反感情绪。除此之外,非学理层面的批评还有一些近乎恶意攻击的言论,其本身亦难免有炒作之嫌,姑置不论。客观地说,即使是非学理层面的批评也是有价值的,这些批评至少能告诉我们公众对“唐诗宋词排行”的某种“歧见”。非学理层面的批评者希望以文学的艺术性作为唐诗宋词排行的标准,这与王兆鹏教授排名时“比较各名篇影响力的大小和知名度的高低”王兆鹏等:《宋词排行榜》,中华书局2012年版,第1页。的标准之间存在差异。对于唐诗宋词排行标准的不同认识,使得两者之间的争论失去了共同的基础。
相对于非学理层面的批评,对于“唐诗宋词排行”学理层面的批评显得更为冷静和深刻,因而对推动相关问题的认识来说具有更大的价值。傅璇琮先生在《唐诗有了排行榜之后……》一文中对《唐诗排行榜》的评价是:“依据数据为基础的研究,其研究结果是否科学可信,在很大程度上取决于数据采样的全面与否和具体分析过程的科学与否,《唐诗排行榜》从‘古代选本’、‘现代选本’、‘历代评点’、‘当代研究’、‘文学史录入’、‘互联网链接’等多个维度来收集和审视数据,同时,又对所收集的各项数据指标进行了标准化处理和加权计算,应该说,其数据覆盖是有效度和信度的,其具体分析和计算的过程是科学合理的,因而,其研究结论是科学可信的。”傅璇琮:《唐诗有了排行榜之后……》,《光明日报》2012年2月5日。陈尚君先生对“唐诗排行”持反对态度,他在《唐诗凭什么排名》一文中说:“唐诗是情感的艺术表达,阅读者有各自的爱好,要找出大家都能接受的名篇排行,本身就是几乎不可能的任务。王兆鹏和他的团队,‘尝试用统计学的方法来衡量测度公众的关注度和名篇指数’,当然是花气力而不易讨好的努力。但其方法,则是西方的、现代的。按照古人的办法,其实找几位名家,喝茶沐浴之余,提出个名单,也可以很权威。”陈尚君:《唐诗凭什么排名》,《东方早报》2012年2月19日。相关领域的专家对于“唐诗排行”截然不同的态度,源自他们对古代文学研究中计量分析的接受与否。由傅璇琮先生与陈尚君先生对《唐诗排行榜》的不同态度,可以引出中国古代文学研究中的一些带有普遍性的问题,即中国古代文学研究中到底有没有必要引进计量分析方法?如果有必要,计量分析方法可以在古代文学研究中的多大范围、多大程度上发挥作用?
一、文学研究中计量分析的必要性
计量分析是与定性分析相对而言的,就是用数学和统计的方法对研究对象进行分析,达到全面、深刻、准确地把握研究对象的本质规律的一种研究方法。计量分析最早应用于自然科学,在取得成功之后,这一方法先后被引进到经济学、管理学、社会学、人类学、政治学、心理学等社会科学以及历史学等人文科学研究领域中来,并有力地推动了相关学科的发展。正是基于这种认识,拉法格在《回忆马克思恩格斯》一书中认为:“一种科学只有在成功地运用数学时,才算达到了完善的地步。”[法]保尔·拉法格等:《回忆马克思恩格斯》,中共中央马克思恩格斯列宁斯大林著作编译局编,人民出版社1973年版,第7页。作为一种偏重于实证主义的研究方法,计量分析在自然科学、社会科学与人文科学中运用的程度和所起的作用是有所区别的。
文学与经济学等社会学科以及历史等人文学科相比,与人的情感、审美等主观化的因素靠得更近,通常难以与数学等自然科学发生直接的联系。因此,计量分析法过去很少介入到文学创作与文学审美欣赏之中。与文学中的一个分支中国古代文学相对的古代文学研究,其任务是总结古代文学活动中各方面的规律,毫无疑问是一门人文科学,因而在运用定性分析法的同时,也应适度地运用计量分析法,以增强文学研究这门科学的科学性。古代文学研究引入计量分析的必要性主要体现在以下几个方面:
(一)计量分析法能够提高古代文学研究分析过程与结论的精确性。在习惯使用定性分析法的古代文学研究中,对文学作品的艺术水平、审美倾向、价值取向等进行分析时,使用定性分析法是不可或缺的。不过,单独使用定性分析法对古代文学进行研究,其局限性也是非常明显的,那就是不同的研究者单独使用定性分析法得出的结论,往往很不一致,而且这些不同的结论往往都有可靠的证据作为支撑,相互之间谁也无法说服对方。例如,宋代词作按照风格可以分为婉约与豪放两派。要判断两派中哪一派对于后代的影响更大,如果单独运用定性分析方法,基本上是不可能确定的。在浩如烟海的古代文献中,可以随便举出千百个具体例证来证明豪放词或者婉约词受到了后代词人的重视。在此情况下运用定性分析法不能得出精确的结论,如果在运用定性分析法的同时引入计量分析法,就可以得出相对精确的结论。王兆鹏教授在对宋代词作按照词选、互联网、评点资料、20世纪研究论文以及历代词人追和之作等五个方面的数据进行综合分析的基础之上,得出了“排行榜上豪放、婉约两派的人气也是旗鼓相当”王兆鹏等:《宋词排行榜》,中华书局2012年版,第14页。的结论。因为有了具体数据的支撑,这个结论不仅比定性分析所得模糊结论更精确,而且具有更高的可信度。
(二)运用计量分析法得出的结论具有稳定性和可验证性的特点。古代文学的研究对象是具有审美特性的文学作品,因而必须运用定性分析法对作品进行解读。不过,由于定性分析法一般具有主观性的特点,故单独运用定性分析法所得出的结论,常常会呈现出不稳定的特征。明代王世贞,早年对汪道昆的文学作品褒扬有加,但晚年却说只是戏语,就是很好的例证。与批评对象处在相同的历史语境中的古人,论述古代文学作品时,早年与晚年的观点尚且变化很大;今天的研究者与研究对象处在不同的语境中,运用定性分析法对古代文学进行研究,得出的结论往往更不稳定。在“只有对人类社会的研究采用了科学的、可靠的、能够重复和检验的方法,那么这种研究所获得的知识也是科学”许晓东:《定量分析方法》,华中科技大学出版社2008年版,第11页。的情况下,古代文学研究只使用定性分析法,显然会降低这门科学的科学性。
运用计量分析法对古代文学作品进行研究,则可以在一定程度上弥补研究结论不稳定的不足。王兆鹏教授的《唐诗排行榜》与《宋词排行榜》是将计量分析法运用于古代文学研究而产生的“副产品”。客观地说,运用计量分析法对唐诗和宋词进行排名,由于数据采集过程中所依据文献资料的广度的不同,排名顺序可能会有变化。诚如陈尚君指出的:“《文学遗产》2008年第二期发表的论文《寻找经典——唐诗百首名篇的定量分析》,当时还只依据前三组数据,没有涉及文学史。现在加上了,但权重则将论文的二十分为两份。此文也附有一份名单,与《排行榜》有很大不同。”陈尚君:《唐诗凭什么排名》,《东方早报》2012年2月19日。但从理论上来讲,只要将数据来源的范围扩充到足够大,比如增加词选的种类,且前后统一口径,那么即使是不同的人运用这种方法进行重新验证,前后当不会有大的出入。运用计量分析法与定性分析法相结合得出的具有稳定性与可验证性的结论,可以使古代文学研究更具现代科学性。
(三)计量分析法能够为古代文学研究提供更加宏观的视野。除了总体式的理论分析,定性分析法一般侧重对具体文学文献进行例证式的考察。这些具体的例证,即使本身就是总括性的描述与评点,但作为独立的文献,通常会影响到研究者对文学现象的宏观把握。一篇优秀的文学作品,可以代表某个时代的艺术水平,但无法展现某个时代文学的整体面貌;一部文学选本,可以流露出选本作者的偏好,却不能完全代表作者所处时代的价值取向;一部优秀的文论著作,可以描述某类或几类文学作品演进的历史与面貌,却不能向读者展现文论作者所处时代的文论本身的状况。导致这些问题产生的原因就是,定性分析法所依据的具体文献例证不能给研究者提供宏观的视野。
解决古代文学研究中这类问题的途径之一,就是在研究过程中尽可能地将所有相关文献都运用到研究分析的过程中去。不过,这种操作方法又会带来新的问题,那就是唐代以降各种文献的数量都变得越来越大,在某篇论文或某部著作中对相关文献都作征引,缺乏可行性。解决办法只能是将这些文献进行抽象,把分散独立的文献变成能够反映古代文学宏观面貌的数据。刘尊明与王兆鹏合著的《唐宋词的定量分析》一书中,大量运用了在这类具体文献的基础之上进行抽象而成的数据,实现了从宏观上对文学现象进行把握的目的。作者在前言中说:“实际上,‘文学数据’具有与‘文学文献’同等重要的意义和价值。正是基于这样的认识,我们对有关唐五代词坛词史的基本数据进行了分类统计。”刘尊明、王兆鹏:《唐宋词的定量分析》,北京大学出版社2012年版,第11页。对古代文学进行宏观的把握,是探索古代文学规律的基础,也是提高古代文学研究科学性的必然要求。通过以上分析我们可以得知,计量分析法比定性分析法更适合从宏观上把握古代文学。
在古代文学研究中引进计量分析法,可以提高结论的精确性、稳定性,并为古代文学研究提供一个更加宏观的视野,以探索古代文学的基本规律。能不能探索到研究对象的基本规律,研究结论是否精确、稳定,都关系到古代文学研究是否能够成为一门现代科学,在这个意义上说,将计量分析法引入到古代文学研究中来,不仅可行,而且必要。笔者早在1984年就发表过《作家作品研究中的数量分析——唐代诗人总数考实》一文张三夕:《作家作品研究中的数量分析——唐代诗人总数考实》,《徐州师范学院学报》1984年第2期。,可见我们对于古代文学研究中运用计量分析方法的重视。
二、文学研究中计量分析法运用的限度
古代文学研究引进计量分析法,对于提高古代文学研究的现代科学性来说,是必要的。但是,我们也必须看到,古代文学研究因为是人文科学中的一门特殊学科,与自然科学、社会科学存在很大的差异。由于研究对象的特殊性,在古代文学研究中引入计量分析法,必须注意把握限度。古代文学研究中需要综合考察社会经济文化背景、作家、作品、文学创作、接受、批评等多方面因素,依统计学的定义,这些因素在具体研究过程中,都可以称之为变量,这些变量按照是否可以确定,可以分为理论上可以确定的变量、基本可以确定的变量与不可确定的变量。
(一)理论上可以确定的变量。在古代文学研究中,理论上可以确定的变量,可以再细分为以下几个方面:1.作者的生卒年、籍贯、科举身份、官职、所属阶层、文集数量与存量、各类作品的数量与存量等。2.作品的体裁、创作年代、作品中字词的出现频率、某一时代作品的数量与存量。3.历代选本的数量、某一选本中各类作品的数量。4.对某一作品历代批评的条数、诗词类作品的次韵追和等。需要指出的是,古代文学研究中的这些变量,只是理论上可以确定的,在实际的操作过程中,由于记录的缺失与文献的散佚,这些变量也有一部分变得不可确定。当然,这类变量的不可确定,是由于事实的湮没而造成的,并不影响它们在理论上是可以确定的。
(二)基本可以确定的变量。在理论上可以确定的变量与不可确定的变量之间,存在一类大致可以确定的变量,我们把它称之为基本可以确定的变量。这类变量包括:1.作品的题材。作品的题材一般来说相互之间存在明显的区别,如边塞诗与田园诗是截然不同的。但作品的题材有时也不能完全确定,山水诗与田园诗虽然是两种不同题材的诗歌,但它们之间或多或少存在着重合之处。2.作品中的意象。作品中的意象类型大多是能够确定的,但隐晦诗、朦胧诗等作品中的意象,也有难以确指的。此外,由于文学作品中有的意象并不是直接描写,所以在用计算机对作品的各类意象进行统计时,会放大意象的不确定性。3.作者所属的流派与名家名作的确定。在古代文学史上,某一作家被同时归入几个流派的现象并不少见,在确定名家名作时,有时也会存在争议,因此这类变量也只能归为基本可以确定的变量。
(三)不可确定的变量。在古代文学研究中,作品产生的文化背景,作者的经历、情感对创作的影响,作品中的思想、情感、审美取向,文学接受过程中作品对读者产生的心理影响等,由于迄今为止还没有产生针对它们的精确的计量单位,因而难以对它们进行精确计量,故可以将它们称之为不可确定的变量。需要指出的是,不可确定是指在现有条件下不可确定,但正如声音的大小因为“分贝”这种计量单位产生之后,变得可以计量一样,古代文学研究中这些不可确定的变量也不排除将来的某一天可以转变成可以确定的变量的可能。
由以上可知,在古代文学研究中引入计量分析法,只能限于理论上可以确定的变量与基本可以确定的变量这两个范围之内。王兆鹏教授所著的《唐诗排行榜》对唐诗进行排名的依据是历代选本入选唐诗的数据、历代评点唐诗的数据、20世纪研究唐诗的论文数据和文学史著作选介唐诗的数据王兆鹏等:《唐诗排行榜》,中华书局2011年版,第6页。;《宋词排行榜》对宋词进行排名的依据则是每首词作在107种词选中入选的次数、谷歌与百度链接的网页数目、历代评点的条数、20世纪相关论文的篇数、历代追和词作的篇数等王兆鹏等:《宋词排行榜》,中华书局2012年版,第4页。。这些数据在理论上都是可以确定的变量,这说明作者在将计量分析法引入到古代文学研究中来时,已经意识到了计量分析在古代文学研究中运用的有限性。事实上,在任何一门科学的研究中,计量分析法与定性分析法都需要并重,不能以任何一方完全取代另一方。即使是在尝试用计量分析的方法进行词学研究的《唐宋词的定量分析》一书中,论述历代次韵李清照词的审美观照时刘尊明、王兆鹏:《唐宋词的定量分析》,北京大学出版社2012年版,第337~350页。,计量分析法也不得不暂时让位于定性分析法。
三、计量分析在古代文学研究中的前景
古代文学研究作为一门人文科学,要求提高结论的精确性、可验证性以及能够宏观地把握研究对象的规律,因而引入计量分析法是必然的选择,即使没有计算机等技术的发展成熟,古代文学研究对于计量分析的内在需求,也足以推动在具体研究实践中引入计量分析法。但另一方面,由于古代文学研究对象的特殊性,计量分析法在古代文学研究中的应用也应该有一个严格的限度,对于那些无法确定的变量,在条件不具备的情况下,可以暂缓尝试运用计量分析法进行分析。笔者认为有必要对计量分析在古代文学研究中的前景做一个合理的展望。
第一,计量分析法将被引进到古代文学的研究中来,并得到较广泛的认可,但它的地位将处在定性分析法之后。其原因有二:其一,定性分析法是古代文学研究中传统的研究方法,而计量分析法被引入到古代文学研究中的时间还不长。其二,古代文学研究中理论上可以确定的变量、基本上可以确定的变量等能够进行计量分析的因素,都必须同时运用定性分析法;而文学作品中的情感、审美倾向等只能运用定性分析法,不适宜运用计量分析法。因此,在可以预见的将来,计量分析法会越来越受到古代文学研究的重视,但定性分析法依然会占据主导地位,计量分析则处于辅助的地位。
第二,计量分析法被引入到古代文学的研究,将推动相关数据库的建立,并对文献计量学更好地服务于古代文学研究提出新的要求。当前,建立服务于古代文史研究的数据库已经受到重视,在国内也出现了一批此类数据库。不过,也必须看到已经建立的数据库远远不能满足对古代文学研究进行计量分析的要求,有些领域甚至对文献还没有进行基本的整理,更别谈数据库的建立。为了服务于古代文学研究中的计量分析,以文学作品、文学作家、文学传播与接受等可以进行计量分析的因素为主要内容的数据库将逐步建立起来。同时,文献计量学可以为在古代文学研究中引入计量分析法提供帮助与指导。相对于古代文学研究中的计量分析法,文献计量学产生的时间早,因此在理论上更加成熟。文献计量学在以统计学的方法对作者分布、词频分布、作者与文献关系的分析中,形成了较为系统的理论,它可以为古代文学研究的计量分析提供借鉴与指导。由于在文学研究中情感、审美等因素不宜做计量分析,因此提出“文学计量学”这一概念,可能会引起一些人的疑虑;如果以“文学文献计量学”这一概念代替“文学计量学”,不仅可以打消疑虑,排除在古代文学研究中引入计量分析时的“误解”,而且可以更加方便地借鉴文献计量学中已经成熟的理论。
最后需要说明的是,笔者对在古代文学研究中引入计量分析法是持完全支持态度的,虽然在细节方面可能会与王兆鹏教授等学者的观点存在某些出入,但只是对计量分析在古代文学研究中应用限度的理解有差异。与全盘否定对古代文学研究进行计量分析不同,我们坚信在古代文学研究中引入计量分析,并合理地应用,对于推动古代文学研究的发展具有建设性。