作者:三联生活周刊
01-14·阅读时长9分钟

从古至今,如何高效合理地整理与研究浩如烟海的古典文献,一直是令人苦恼的问题。
新时代的整理国故
上个世纪90年代,已故著名哲学家、北京大学哲学系教授汤一介先生,始终对一件事耿耿于怀:
儒释道三家,历代王朝汇编过佛、道两家文献,刊印出版有《佛藏》《道藏》。唯有一直作为中国社会主流思想的儒家,却始终没有集大成的汇编著作,这与儒家在历史上的地位极不相符。
于是,汤先生提出了编纂《儒藏》的设想,希望在现代技术和学术标准之下,系统整理儒家文献,使之成为一个独立的文献体系,在弘扬和发展中国文化的同时,也为当前人类共同面临的自然和社会问题的解决提供可能的贡献。为此,他先后登门拜访季羡林、张岱年、邓广铭、周一良等人,得到了他们充分的肯定;又与北大校方积极沟通,希望将想法尽快落地。
2004年6月,北大《儒藏》编纂与研究中心正式成立,由汤一介先生担任首任主任,《儒藏》工程正式启动。2014年汤先生辞世后,李中华、魏常海两位先生实际承担起执行总编纂的工作,王博教授接替汤先生担任工程首席专家和项目负责人,2019年任主任。
汤一介晚年在工作中
《儒藏》的编纂分为两步,第一步先完成“精华编”,第二步再进行全本编纂。在汤先生的最初计划里,“精华编”预计用五到十年完成编纂。然而,最终的耗时却超乎大多数人的想象。
一群专家学者,为此忙碌了将近二十年。
为什么会如此漫长?原因主要有两个。首先是《儒藏》放弃了影印本,转而采用更加适应现代人阅读习惯、经过校点的排印方式出版,这极大增加了《儒藏》整理的难度。但在汤先生看来,这是必须要做的转变,他曾举过一个例子:虽然中国有不少佛藏,但许多人研究佛学还是习惯看日本出版的《大正藏》,理由很简单,因为它有断句、有校勘记,使用方便。
其次,为了保证出品质量,《儒藏》中心建立了一套严格细致工作流程,审读样稿、初审全稿、通审全稿、出版社三审三校……光是审稿环节就有11个,而且几乎依靠人工完成。就像季羡林先生对《儒藏》的期待,“宁可慢一点,也要保证质量”,有时候仅仅为了核查一个标点,编纂人员就要仔细对比多个版本,花费好几个小时。
2022年,《儒藏》“精华编”主体中国部分510种、282册全部整理出版,总字数近2亿字,一经发布就收获国内外学界的广泛好评。但令人遗憾的是,当时汤一介先生早已因病去世,无缘见证这一时刻。
2023年,当全本《儒藏》的编纂工作启动时,大家都意识到了一个问题:如果按部就班沿用老方法,那无疑是一个时间的无底洞。有没有一种可能,不必再花费好几个二十年,也能编纂出同等高质量的国故?
老传统,必须要有新解法。
国故“新编”
北京大学未名湖北岸,一座古朴典雅的才斋,那里便是《儒藏》编纂与研究中心的办公所在地。
中心副主任、责任编委沙志利的办公室在才斋二楼。不大的办公室里堆满了书籍,自从2005年加入《儒藏》项目,今年是他在这里工作的第二十一年。不过与大家印象里埋头于故纸堆的学者形象不同,现在他每天的整理校勘工作,几乎都是通过电脑、在识典古籍平台线上完成的。
未名湖北岸的北京大学《儒藏》编纂与研究中心
一部10000字的稿子,用识典古籍平台,差不多两天就能完成OCR(光学字符识别)校对和多版本校勘,要是在纸质时代,同等的工作量可能要干10天左右。这个“提效神器”识典古籍,是字节跳动联手北京大学共同打造的古籍数字化平台。早在全本《儒藏》启动之际,现任《儒藏》首席专家王博就表示,“下一步工作将充分利用数字人文的最新成果,推进古籍数字化,工作将大大提速。”
与“精华编”的成书时代相比,如今全本《儒藏》的整理工作,无疑有了更为有利的社会环境和技术支撑。2024年12月,北京字节跳动公益基金会向北京大学教育基金会捐赠人民币2500万元,用于资助全本《儒藏》数字化编纂相关工作,并提供识典古籍智能整理平台的技术,支持北京大学更好地开展全本《儒藏》的编纂与研究工作。
回顾2025年,识典古籍产品经理孟丽媛发现,自己这一年的工作,几乎都围绕着《儒藏》的各种需求展开。比如使用率很高的多版本校勘和异体字归并功能,都是识典古籍团队配合《儒藏》编纂而专门开发的。正是这些古籍领域专业又普遍的反馈,反过来也推动着识典古籍不断完善自身功能,成为专家学者们真正趁手好用的工具。
最初,《儒藏》中心的编委们对于线上整理的态度并非完全统一。“有些老师觉得,对着屏幕工作眼睛受不了;也有老师总来问我,平台上的东西能不能导出打印下来,线下去做批注。”
但孟丽媛表示,老师们很快就接受了线上整理这件事,原因很简单——识典古籍对于工作的提效是十分显著的。目前,整个《儒藏》团队,都已经在全本编纂工作中使用了识典古籍的整理平台。
那么,在人工智能等技术的助力下,一套高质量高效率的古籍编纂流程是怎么跑起来的?沙志利展示了他在识典古籍整理平台上点校一本古籍的具体过程:
第一步,是为古籍建立条目,上传影印版的底本。上传之后,先检查分卷、页码是否准确,是否存在错页漏页的情况。
第二步,是通过OCR文本自动识别,将书稿影像转化为可编辑可检索的电子文本。在这一步,AI会辅助进行OCR文本校对,将文本中存疑的字用不同颜色高亮标出,提醒研究者进行一次人工校对。如果需要修改,直接点击存疑字,平台也会给出修改建议。
第三步,进入文本编辑阶段,AI会进行自动提取标题、自动标点、自动命名实体识别、自动分段等工作。而在每个阶段,如果发现AI做得不够准确,研究者也都能及时介入进行人工修改。
第四步,是多版本校勘环节。一本古籍在流传过程中,往往会留存多个版本。过去线下整理的时代,研究者要找出不同版本之间的细微差异,并据此进行校勘取舍,通常只能一字一句地比对多个不同版本,不仅过程繁琐重复,还要耗费大量人力与时间。如今在AI的辅助下,版本之间的差异可以被瞬间定位,研究者省去了对比不同版本来找出异文的时间,直接进入对异文进行判断、取舍和校正文本、撰写校勘记的环节,大大提升了工作效率。
在沙志利看来,识典古籍带来的最大帮助,就是OCR校对和多版本校勘。“以前古籍要达到出版级别,要一竖排一竖排做折校,每个字都要一一对应。现在识典古籍整理平台能够提供与折校相同的视觉效果,而且可以随意放大,事实上更加方便了,同时还通过标记不同颜色提示出置信率较低的文字,使异文不易被遗漏,这大大减省了折校的工作量,也降低了漏校的比例。”
多版本校勘也是如此。“人都有惰性,都会犯错。如果是一部大稿子,即使是认真负责的校点者,也难免出现脑子宕机或者偶尔‘偷懒’的情况。如果对前期校出的异文有疑问,而再翻阅校本又很麻烦,有人可能就会放过这条信息,或采用前期的错误信息。目前平台上的多版本校勘环节,不仅瞬间提示出各校本的异文,而且可以随时调看校本的图像,大大减省翻检之劳,降低了枯燥工作的体量,让校点者的精力更集中于学术工作,大大提高了校点工作的精准性。”
AI当然不是万能的,但沙志利表示,目前识典古籍提供的技术支持,已经替他们做了许多枯燥重复的工作,并且实实在在提升了校勘质量。此外,《儒藏》团队还特别感谢了北大刘俊文教授总纂的爱如生数据库,以及各大公共图书馆、高校图书馆提供的数据支持,因为在更为前置的一步——如何便捷低成本地获取古籍的底本和校本,各方都为《儒藏》项目贡献了力量。
在AI时代“整理国故”,参与《儒藏》编纂已有二十一年的沙志利,如今有了一种全新的体验:“AI帮你处理了简单机械的重复劳动之后,点书校书是一件非常享受的事。因为你只需要处理一些称得上是学术的问题。”
AI的辅助,让学者得以腾出手来,专注于解决更重要的事。根据《儒藏》团队的预计,按照目前的编纂进度,涵盖三千多种典籍的全本《儒藏》,有望在未来十五到二十年内完成。相比于“精华编”,时间周期已经大大缩短。
古籍整理与保护
从学人时代走向普通人时代
在《儒藏总序》里,汤一介先生谈及这项事业的意义:
“为了传承和更新中华民族的文化传统,把儒家经典及其各个时代的注疏、历代儒家学者的论著和体现儒家思想的各种文献,编纂成一部儒家思想文化的大文库《儒藏》,无疑将使我们可以更系统、更全面地了解中华民族生存和发展的思想文化根基,为中华民族建设和谐社会提供宝贵的思想文化资源。”
在《儒藏》团队看来,2022年《儒藏》“精华编”中国部分正式出版,汤先生期望其承担的历史文化意义,已经取得阶段性成果。接下来,全本《儒藏》全面推进数字化建设,这将是《儒藏》的新使命——让中国传统文化,更准确地在数字化时代里传播。
识典古籍平台上的《儒藏》数据库
“如果让差错率高的古籍文献大量率先占领网络,大众接触到的将是错误、甚至被扭曲的文化信息,之后再想‘拨乱反正’,可能要付出更大的代价和勇气。”《儒藏》中心责任编委、副主任杨韶蓉觉得,在当下人类信息环境全方位从纸质向数智化迁移的浪潮里,《儒藏》更要保持冷静。坚守学术标准,在保证底本原貌的前提下,通过校勘克服历史文本的局限性,最终形成一个质量可靠的新的整理文本,为国家古籍数字化战略的顺利实施储备优质数智资源,这是《儒藏》如今新的历史责任。
2026年1月10日,在全国高等院校古籍整理研究委员会主办,北大中文系古典文献教研室、北大数字人文研究中心与字节跳动公益联合承办的“数智时代古籍数字化前沿论坛暨‘我用AI校古籍’(2025年)总结会”上,全本《儒藏》中的50部典籍正式上线识典古籍平台,这正是《儒藏》在数字化时代回应新使命的一次有益尝试。
北京大学《儒藏》编纂与研究中心副研究员甘祥满在活动现场分享
总结会上,识典古籍宣布,目前每月服务用户超240万人,平台总访问量突破1.47亿。字节跳动公益相关负责人表示,团队将持续提升深度研究与知识挖掘的智能化水平,推动更多古籍实现资源共享,欢迎广大图书馆、文献馆免费接入识典古籍。
在杨韶蓉看来,借助识典古籍这样的网络传播渠道,如果有更多力量加入进来,将准确度更高、整理更为严谨的文献持续推向更广泛的受众,网络上那些质量参差不齐的文本自然会被逐步淘汰。
古籍与大众的关系,早已不再是专家学者单向输出、大众被动等待优质版本出现的模式。随着古籍通过互联网被更多人获取与阅读,古籍的整理与保护,也逐渐从学人时代走向普通人时代。在总结会上,识典古籍同步发布了“我用 AI 校古籍”项目的阶段性成果,正是这种变化的一个缩影。
自2024年项目启动以来,在识典古籍智能整理平台的支持下,该活动吸引了全国1450余所高校的3.7万名大学生及志愿者参与,累计完成约15亿字的粗校,覆盖古籍约2万部。活动降低了古籍整理的专业门槛,也激发了公众对传统文化的兴趣。
点校古籍,这个曾经被视为“坐冷板凳”、门槛极高的工作,如今普通人也能出一份力。不少非科班出身的古籍爱好者,在活动中收获了成就感,找到了志同道合的同伴。
“我用 AI 校古籍”项目活动成果分享
截至目前,识典古籍平台已向全社会免费开放超4.7万部古籍,为4000多个团队提供整理支持,并支撑多所高校开展教学实践、推进科研项目、培育专业人才。
以《儒藏》漫长的编纂历程为例,我们可以看到,古籍整理始终在探索如何将文化更好地传承下去。如今,当学者反复校勘的经典文本,通过数字化走进更多人的视野,文化传承也不再只是少数人的使命,而是大家共同承担的责任。
策划丨三联.CREATIVE
编辑 排版丨孙思
作者丨三北
图片来源丨字节跳动公益 视觉中国

发表文章6114篇 获得0个推荐 粉丝48090人
一本杂志和他倡导的生活
现在下载APP,注册有红包哦!
三联生活周刊官方APP,你想看的都在这里