西夏文文献作为20世纪五大新资料发现之一,是研究西夏历史文化乃至11—13世纪中国西北民族交往交流交融史的重要文献。20世纪90年代以来,《俄藏黑水城文献》《英藏黑水城文献》《中国藏西夏文献》《日本藏西夏文献》等原始资料陆续影印刊布,西夏学研究迎来了高潮,国内外学者从不同角度介入,各擅胜场,精见迭出。然而,西夏文繁复难辨,文献星散,图版不全面等问题,给西夏学研究带来了很大困扰。随着数字技术飞速发展,数字技术在古籍整理领域的应用日益广泛、深入,为西夏文文献整理研究提供了新的理论与方法。深入探讨数字技术在西夏文文献研究中的应用,对发掘文献价值、推动西夏学研究具有重要意义。
加速文献数字化进程
21世纪初,西夏文电脑字符研制成功以后,学界对西夏文文献进行电子化工作主要依靠人工逐字输入,这种方式效率不高。录入一个西夏字,即需要敲打一遍文字的四角号码(对应六位汉语拼音字母),如有重码,还需要在对话条里进行二次选择,非常繁琐。随后,学者在输入软件的基础上开发出词组软件,可以输入常用短语或词组,录入效率有较大提升。近年,深度学习等人工智能技术被引入西夏学领域,专家训练的深度神经网络模型对单个西夏字的识别准确率超过97%。在此基础上,又引入循环神经网络单元,实现了西夏文献的整列识别,将西夏文文献的数字化效率提升到前所未有的高度。那么,以上西夏文献转录系统生成的电子文本是否就是可靠的数字化文本呢?显然并非如此。西夏文文献绝大部分是写本,抄手的书风字迹差异明显,省笔不一致,写就的字形也就大相径庭,深度识别技术难以准确将其鉴别出来。面对这种情况,我们需要将数字技术与传统校勘结合起来。我们应该对软件的功能进行适当调整,支持其标注未识别的西夏文字,包括异体字、讹体字和疑难字等,以待文字学家根据文本内容加以厘定。西夏文草书文献的整理也是如此。我们应该将草书研究成果集中起来,选取隶定争议少的草书文字,制作草书字库,进而设计草书文献转录系统,利用其转写草书文献,未释读的文字再由学者根据语料性质、词语搭配等进行辨证。学者们已经完成数字化的文献,也可以利用转录系统再输出一遍,对两者进行比勘、正误,其效率和准确程度势必胜于单纯的人工校对。
促进文献整合能力提升
数字技术影响西夏文文献研究主要体现在其强大的资料整理能力。数字技术可以按照研究者的指令整理成千上万的文献资料,并且迅速得出可视化的结论。这可以辅助整理纷繁复杂的西夏文大宗文献。例如《天盛律令》是西夏中后期著名的法律文献,《俄藏黑水城文献》公布了800余面,最近又流出高清彩版,数量更多,达到1600余面。从纸张、版式、写刻类型等来看,俄藏《天盛律令》有不同的文本来源,理清其头绪并非易事。我们利用深度学习等智能识别技术,对《天盛律令》图版进行精确的类型学分类,很快就判定其年代顺序。学者们对勘同卷不同编号的《天盛律令》页面,发现其内容存在明显的改易痕迹,已经指出《天盛律令》在颁行过程中有所修订调整。将数字整理与学者研究两方面成果结合起来,我们将对这一问题有更加深入的认识。相较于世俗文献,整理研究浩瀚的佛教文献更需要引入数字技术。以西夏文《大般若经》为例,《俄藏黑水城文献》第15—20册选刊了其中的部分内容,约5400页面,内容十分丰富,是研究西夏译经校经史的重要资料。我们手工录入了《大般若经》全部内容,深知其体量巨大,调用、比较研究颇为不便。为了提高西夏文《大般若经》的利用率,挖掘其资料价值,我们已经将图版进行了拆分和初步归类,进而在人工智能技术的帮助下,对其文本层次进行了初步梳理,相关数据对于补证我们的校勘结论大有裨益。
助推规范数据库建设
西夏学家最期待的数字技术与西夏学结合的成果当属西夏文文献数据库。没有西夏文文献数据库,学者们只能使用类似“摘抄卡片”的原始手段收集西夏文资料,研究受到很大限制。利用数字技术形成的电子文本,是西夏文文献数据库的资料基础,而建设理想的、成熟的数据库,还需要数字技术的不断加持。这体现在以下几个方面:第一,西夏文文献数据库的体例要求高。学者们愈发认识到研究论著中仅置列西夏文和汉译文的局限性,强调“四行对译法”,不仅包括西夏文原文,还有拟音、对译和意译。如此,西夏文数据库亦应契合学界的需求,以“四行对译法”为范式,除了西夏文、拟音等信息,数据库中还可以增加语法注释、学界研究成果等内容,提升数据库的全面性。在数字文本的基础上增加如此丰富的信息,人工操作是无法高效完成的,必然要借助于人工智能。第二,西夏文数据库需要具备延展性。西夏文文献的解读需要较长的过程,将其吸收到数据库中,必然要根据学界研究的进展不断进行调整。同时,国内外还在陆续发现新的西夏文文献,如国外的大英博物馆和国内的亥母洞遗址新发现的文献残片,数据库也需要及时收入。此外,部分西夏文文献的研究还存在争议,如西夏文草书文献,我们认为这些文献的原始图版也应作为一项信息加入数据库,以便学者们引用时覆按原文。第三,西夏文数据库需要规范、科学的文献来源注释。学界征引西夏文文献,标注文献出处时,或列文献的原始页码,或列图版所在页码,不相统一,不便检寻。建设西夏文数据库,必然要统一标准,考虑到精确性。我们认为数据库标注源文献时,应以西夏文原始页码和行列为第一要素,同时可以在旁注中列出图版信息,供学者们校核。
古汉字学家认为,现阶段人工智能尚不足以取代学者的研究。对西夏学而言,亦是如此。由于体量繁巨,我们研究大部头西夏文文献时,往往存在“轻文献,重文本”的倾向,而援用数字技术正好可以帮助我们弥补薄弱环节,推进研究的深度和广度。研究者利用数字技术提供的便利,深化西夏语言文字多方面的研究,才能释读更多的西夏文文献,让“冷门”不冷,“绝学”有继!
(本文系国家社科基金冷门绝学研究专项学术团队项目“《西夏文词典(佛教文献部分)》编纂”(24VJXT004)阶段性成果)
(作者系陕西师范大学历史文化学院博士生)
来源:《中国社会科学报》2025年5月14日第3132期
作者:同敏