数智赋能法律史的学科与方法革新
2025-10-17 10:43:51 来源:法治日报·法治周末
古今之间一线牵,在法律历史中寻找规律、理解当下,是法律史研究的核心追求。人工智能技术的赋能恰为这条贯通古今的脉络注入了新的生命力。它不仅能够推动法律史数据库的数智化,高效处理浩繁的法律史料,提高法律史知识的可获得性,更助力法律史研究方法更为多元,拓展“远读”视角,深化我们对传统法律与治理逻辑的理解

□陈新宇 刘颖
人工智能(ai)的应用在社会全领域掀起了变革,并深刻重塑着法学研究与实践的图景。无论是法律实践层赋能司法实务的辅助审判系统、智能法律咨询系统,还是法学研究层对于权利主体、算法歧视、人工智能侵权等一系列新兴法律问题的热烈讨论,抑或是法学教育层新设数字法学二级学科以培养兼具技术素养与法律思维的新型法学人才,法学各领域无不在积极融入人工智能浪潮。然而,在法学与人工智能深度融合的大潮中,作为法学学科之一的法律史却相对沉默。
当然,这并非意味着法律史与人工智能之间存在难以逾越的隔阂,相反,讨论与探索二者的结合尤为重要:其一,从学科特点的角度,法律史多年来一直存在某种“危机论”,对此尽管仁智互见,但顺应时代洪流,与人工智能展开对话并促进研究范式更新,提高对法学知识共同体的贡献,不失为化解危机的一种重要路径。其二,从自主知识体系的角度,人工智能时代法学自主知识的生产要植根于传统法律制度和优秀法律文化,中国法学在人工智能时代的全球话语权,与能否将法律传统数智化地纳入全球数据库与比较法研究框架关系密切。
融贯古今:法律史数据库的数智化建设
作为法学与史学的交叉学科,法学学科的法律史虽以法学视角和方法为主,但无论是其研究的问题意识还是推论过程,都必须建立在扎实的史料之上。由此,阅读、选取相关法律史史料,从内容、逻辑上进行梳理,是法律史研究的基础课题。然而,面对数量庞大的律例、会典以及分散的奏折、判牍等法律史料,搜索和整理工作耗时耗力。虽有如陈寅恪一般学富五车、中西贯通的大家,但如果要促进整个学术研究的普及与深化,有必要将法律史文献化“死”为“活”。
中国古代已有学者尝试对古籍经典作系统的整理以便于世人检索。例如,汪辉祖汇集“二十四史”中记载的人物,按姓氏标记,收录成册,依照韵部分类编排,完成《史姓韵编》一书。虽然这类工具书在古代的出现十分零散,编纂方法也不够科学,但无可否认是以个体之力助力古籍系统整理的有益尝试。
在“整理国故”的号召下,从哥伦比亚大学毕业、在燕京大学执教的洪业提议并促进了哈佛燕京学社引得编纂处的成立。引得,或称索引,源自英文“index”。在《引得说》中,洪业特地提到了《史姓韵编》在“减少学者检书劳苦”方面之作用。科学的引得编纂除了具备定位检索功能以外,还有助于知识的整合与扩展。通过引得,可以整理、比较某个特定关键词或人物在一份文献中的发展态势,并将其与其他文献的相关资料结合,从而实现新的问题意识与思维开拓。
根据学者统计,自1930年成立至1951年,引得编纂处通过西方现代索引技术整理中国典籍,编出引得64种,共81册,内容遍及经史子集,被称为“汉学引得丛刊”。在法律典籍的引得方面,尤其需要指出的是1964年庄为斯的《唐律疏议引得》,作为一本代表性的工具书,其为帮助学者快速检索关键词和定位相关条目,全面揭示唐律的术语含义和逻辑体系提供了极大便利,对唐律的纵深研究有重要价值。
从《史姓韵编》到近代引得,可见不同时代学者在文献化“死”为“活”上所作的努力,但与已完成索引工作的古籍文献相比,未完成的古籍文献占比更大。同时,琐碎的索引工作成本巨大。
更重要的是,纸质索引还存在着更新困难、信息孤立等弊端。随着计算机与互联网的普及,古籍数字化工程逐步推进,保存、检索古籍突破了地域和物理条件的限制。
近年来,随着人工智能技术的发展,古籍整理逐步从“数字化”向“数智化”转型,不再停留在将古籍扫描为影像或转化为可识别文本的层次,而是更进一步,通过技术手段对其中的时间、地点、人物、制度等要素进行科学化标注,建立知识图谱,绘制人物关系网与事件脉络图,实现跨文本、跨语境的自动关联与动态分析。与普通古籍相比,传统法律典籍与各类案牍等法律史史料中包含大量传统法律实体,例如,传统罪名、刑罚、审判程序、审判依据等。因而,法律史数据库的建设需要在通用型古籍数字化工程的基础上针对法律史研究的特点进行领域训练。
从当下的技术条件来看,光学字符识别(ocr)、自然语言处理(nlp)、关系抽取等技术提供了文本提取、实体识别、处理同名异指、异名同指的复杂情况等功能。更甚,深度学习等技术能够完成对古代判词的逻辑、情感的深层识别与分析,帮助揭示传统司法中情理法平衡智慧。
可惜的是,尽管当下已有历代石刻、地方方志等专门数据库,但以大规模、系统化、高标准标注的司法档案、案牍等为核心内容的法律史数据库稀缺,远不能满足研究需求。法律史学科的特殊性决定了标注、分类、编码体系必须纳入法律史专业,以人工智能与法律史的复合视野推动数据库建设。
方法新维:ai量化下的法律史研究转型
在学科层面,人工智能技术支撑下开展的法律史数智数据库夯实了研究基础;在方法论层面,人工智能与量化方法的结合则或可作为法律史研究范式转型的新契机。
马小红等学者指出,在法律史研究中,作为基础的研究方法是考据学和史料学的方法,寻求还原历史事实,搜集、整理史料并鉴别史料的价值与真伪。在中西、多学科交融的背景下,多学科、比较研究的方法也被引入法律史研究中,拓宽了法律史研究的研究路径。我们可以看到,例如,瞿同祖在研究中结合了法律史与社会学研究方法,讨论法律与社会的关系,但社会学研究中经常使用的量化方法在中国法律史学界的运用仍属起步阶段。
传统法律史的研究范围更为关注国家层面,侧重制度史与思想史研究,近二十年来以黄宗智等人为代表的“新法律史”研究虽然转向对地方诉讼档案并进行一定规模使用,关注法律的实际运作形态,但也由于档案存在的地域性局限等原因导致结论上存在很大争议。
而量化方法能够挖掘制度之间的相互关系及运行实态,识别不同制度之间的因果关系,在一定程度上弥合法律史研究整体性与个案性、相关性与因果性之间的张力,推动详细系统阅读文本的“近读”与注重宏观揭示规律和因果关系的“远读”相结合,从而扩展法律史研究的可能性。
法律史学的方法训练仍以传统方法为主,且量化方法存在技术壁垒,因而法律史学界在专业研究中使用量化方法的作品仍属少数。目前,在中国用量化方法研究法律史的大多是经济史出身的学者。由于使用量化方法需要将数据进行结构化处理,在过去的计算机时代仍需要耗费极大的人力物力。如在对比中西方的不同诉讼档案时,可以用定量方法划分制度属性、进行标准化赋值,进行多维比较,提高制度的可比性和说服力。但不同的语言、档案格式、叙事风格等多方面差异,要求研究者需要通过翻译和人工数据标注等工作进行数据处理,投入大量时间。
人工智能的引入在一定程度上破解了上述困境,通过自动翻译和自然语言处理,提升量化效率,研究者能够在发现跨文化材料之间的多重联系。此外,人工智能在量化中的引入还有助于突破主观的局限性,挖掘更多的研究主题。当前有学者基于监督机器学习的自然语言处理方法对《清实录》进行了数据处理,发现在量化处理数据的过程中引入人工智能,不仅大幅提高了量化数据的覆盖范围,而且避免了人工处理的主观性、前见性,以结合预训练和监督学习的方式实现高精度、无偏差的量化。
陈钰琪等学者的研究团队利用transformer嵌入模型在历史文本中进行心理测量,并建构了中国历史心理学语料库,尝试以模型模拟古人作问卷测试,展现心理反应。此类模型未尝不可用于法律史研究中,例如,通过嵌入模型分析《刑题科本》或地方司法档案,提取出法律条文适用与裁判逻辑背后的心理倾向,实现对影响裁判者作出判决的情感因素更为科学的考量。同时,也可将模型运用至古代与当代的诉讼文书对比中,探讨不同历史时期司法工作者的司法情感取向和审判依据的变化趋势。
古今之间一线牵,在法律历史中寻找规律、理解当下,是法律史研究的核心追求。人工智能技术的赋能恰为这条贯通古今的脉络注入了新的生命力。它不仅能够推动法律史数据库的数智化,高效处理浩繁的法律史料,提高法律史知识的可获得性,更助力法律史研究方法更为多元,拓展“远读”视角,深化我们对传统法律与治理逻辑的理解。
需要强调的是,人工智能虽然提供了观察与研究法律史的新视角,但只是作为一种工具助力法律史的研究更为深入与创新,传统法律史研究的文本细读考究、史料互证方法与历史人文关怀仍然具有价值,而学者的人格风骨更不是技术工具可以取代的。展望未来,通过数智化的手段将中华优秀的法律传统纳入全球比较法研究的框架,是新时代法律史学者的历史使命,也是提升文化软实力、实现中华法系复兴的重要选择。
(作者分别为清华大学法学院教授、清华大学法学院硕士生)
责编:尹丽