2023年7月至2024年1月,笔者赴法国艾克斯—马赛大学(Aix-Marseille University)亚洲研究中心(IrAsia),参加由著名上海史研究学者安克强教授(Prof. Christian Henriot)主持的ENP-China研究团队。目前,该团队已在近代中国人物资料数据库建设等方面取得了一些重要进展。兹以七个月的访问经历,介绍ENP-China项目(“近代中国的精英、网络与权力”)的研究旨趣、运用工具、研究成果等,以向国内读者推介海外中国近代史研究的新动向、新方法与新思想。
ENP-China项目全称Elites, Networks and Power in Modern China,意为“近代中国的精英、网络与权力”,受欧洲研究理事会(European Research Council)资助。该项目以1830-1949年在上海、广州、天津等城市活动的中国社会精英为研究对象,旨在挑战过往“以国家为中心、以群体为基础”的文献研究法,将城市精英视为社会活动者,其地位、身份及行动等受一直在变化的权力结构影响,且通过制度与非正式/正式网络的行动重新定义社会与政治的边界。因此,项目着重关注信息、资本与个体流动的网络,研究精英群体跨国化过程。在具体方法上则突破常规史料的限制,将名人录、人名辞典等复杂来源的信息,转化为精细的、可重复利用与可长期存续的数据,供目前与将来研究使用。该项目依赖可继续扩展的各类历史数据资料,以前所未有的规模提供精确的历史信息,重新塑造基于现有来源,如档案、日记等的史学研究,以期在现代中国精英转型研究中创造新维度。
团队负责人安克强以上海城市史研究著称,著有《1927-1937年的上海:市政权、地方性和现代化》(Shanghai,1927-1937:Municipal Power, Locality and Modernization)、《镰刀与城市:以上海为例的死亡社会史研究》(Scythe and the City: A Social History of Death in Shanghai)等。在多年的研究中,他很注重各类数字工具在史学研究中的运用,曾融合地理信息系统(Geographic Information System, GIS)[1]分析近代上海的公墓分布等问题。近年来,安教授以名人录等为基础材料,运用数字工具,力图建构近代中国社会精英的各类网络。因此,在招募小组成员时,除历史学者外,数据科学家与软件工程师也加入其间,共同开展项目研究。以笔者在法期间为例,团队内既有安克强、孟喜等史学工作者,亦有从事数据库建设与维护的工程师Nora Van den Bosch与以AI(Artificial Intelligence,AI)[2]和自然语言处理(Natural Language Processing ,NLP)[3]见长的计算机博士Baptiste Blouin。为鼓励年轻学人运用数字工具辅助学位论文写作,团队亦招募具有中国近代史学科背景,具备一定信息技术素养的高年级博士生,提供六个月或一年的工作合同,开展数字工具使用等培训,并加入研究计划。笔者即在2023年下半年密集接受程序语言等知识的学习,运用数字人文(Digital Humanities)[4]思维创新论文写作思路。由于团队与台湾“中研院”近史所深度合作,因此连玲玲等近史所研究人员亦有协助。此外,团队亦吸纳一些欧盟内其他高校的语言学家、计算机工程师等参与其间,协同开展资料库建设等工作。
ENP-China的关注群体为近代中国的各类社会精英,包括但不限于归国留学生、商人、绅衿等,其信息源自为Who’s who in China等名人辞典,因此如何有效率地提取大量个人隐私信息,如其性别、籍贯、学经历等,并在此基础上建立可相互关联、不断延伸的信息网络,成为关键的先导工作。为此,团队将R Studio作为中心工具:其为程序语言R的操作平台,由法国数字人文开放平台Huma-Num托管,用于统计计算与图形呈现。由于其免费属性及社区成员不断为该语言开发各类功能包,因而备受研究者青睐。目前,通过R Studio中的各类功能包,如tidyverse等,可实现文字段落的自动分词、数据导出、可视化、数据建模等多种功能。具体而言,人名录及其他语料库(corpus,指具有一定格式的大量文本)中的各类命名实体,如姓名、年龄、字号、出生地名等,可运用特定功能包(如分词包),将其从文本中分离并分类建表,最终依此建立基于某一参数的网络,如同乡网络等。
基于R Studio平台,团队目前开发出两大可视化运用平台:HistText与MCBD。
HistText最早为Jeremy Auguste博士等开发的R Studio功能包,后经Baptiste Blouin博士的完善,成为易于操作的可视化平台,可实现在特定语料库(如《申报》、《东方杂志》等)中搜索关键字,随之生成新的语料库后,对此进行自然语言处理,实现如关键词云形成、人名、地名、机构名等命名实体(Named Entities)的识别与提取、搜索关键词年度分布表的建立等功能,为之后开展主题建模等工作提供基础资料。
MCBD全称Modern China Biographical Database,即近代中国人物传记数据库。该库与“中研院”近史所合作开发,旨在通过系统化的数据挖掘,收集在中国活跃的任何个人,包括中国人及在华外国人的传记数据。这一些数据可以来自各种来源,如目录、传记词典、名人录等,报纸和期刊,以及学术文献。使用该库检索相关个人隐私信息时,可随之查阅与其生平经历相关的其他个人,如同乡、同学等,从而为历史人物的研究探索出一条新路。
目前,ENP-China团队的研究成果集中收录于2022年经Brill出版社出版,由安克强、孟喜与孙慧编的Knowledge, Power, and Networks. Elites in Transition in Modern China:一书。该书收录了9篇基于自然语言处理等数字技术,分析特定历史问题,如上海扶轮社、在沪英国妇女协会等社团成员组成与活动情况的专题论文。上述论文的作者在将大量人物信息运用R Studio等工具进行筛选、清洗、整理后,主要运用主题建模(Topic Modeling)、[5]社交网络分析(Social Network Analysis, SNA)[6]等分析模型,建构近代中国精英之中形成的各类网络,以探索精英社团的形成、发展与活动等问题。
必须指出的是,运用自然语言处理对文本进行信息提取等工作,仍有不尽如人意之处。由于经过光学字符识别(Optical Character Recognition, OCR)[7]形成的语料库,其往往存在大量错误,加之程序语言只能对特定文本格式中的信息提取精度较高,常无法覆盖格式之外的有效信息,因而经提取后的有关数据,如姓名、生卒年等,一定要进行数据清洗(Data Cleaning)。[8]该过程通常较为耗时,且需充分掌握相关史实后方能加以甄别,因而需要一定人工力量介入。并且,若语料库的规模过小,也往往造成经软件分析得出的结果,与经常规阅读而得出的结论相差无几的现象。因而在真实的操作的过程中,运用自然语言处理技术对文本信息加以提取、筛选等工作,仍有一些掣肘。
尽管如此,由于软件处理较之人工阅读,提取成规模史料(如1872-1949年《申报》的全部内容)中的相关信息,仍在工作效率等方面存在极为明显的优势,因而在中国近代史研究中有广阔的应用前景。特别是针对晚清民国精英人物的研究方面,由于其人数多、信息庞杂、各类正式或非正式网络多样,既有研究常建立在以中心人物为圆心的小规模社会网络之基础上,可能有“管中窥豹”之虞。不过,若使用自然语言处理技术,从海量数据中提取精英人物的基础信息并筛选、建模,较之传统的人工提取、校对、建表,有极为明显的效率优势。数据量的极大的提升,也为特定研究领域(如民国知识人交流网络)中建立以籍贯、学经历、仕途等关系串联的大规模社交网络创造可能,从而依此产生一些颠覆式的研究成果。我们始终相信,伴随着语料库数量与质量的逐步的提升,加上数字工具的不断迭代演进,以网络分析为立足点的近代中国人物研究将方兴未艾,成为史学研究的一条颇值得尝试的新途。
[1] 地理信息系统指在计算机、软件系统支持下,对特定空间中有关地理分布数据(如经纬度等),进行采集、储存、管理、运算、分析、显示与描述的技术系统。
[2] 人工智能主要指的是针对使用计算机对人的某些思维过程和智能行为(如学习、推理、思考、规划等)进行模拟的学科,最重要的包含计算机实现智能的原理、制造类似于人脑智能的计算机,使计算机能实现更高层次的应用。
[3] 自然语言处理指用人类交流所使用的自然语言与机器进行交互通讯的技术,通过人为的对自然语言的处理,使得计算机对其能够可读并理解。
[4] 数字人文主要指针对计算与人文学科之间的交叉领域,进行学习、研究、发明以及创新的一门学科。
[5] 主题模型指的是,在机器学习和自然语言处理等领域中,用来在语料库中发现抽象主题的一种统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。例如,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。
[6] 社会网络指的是许多节点以及节点间关系构成的一个网络结构。节点通常是指个人或组织(又称社团)。社会网络代表各种社会关系,经由这些社会关系,把从偶然相识的泛泛之交到紧密结合的家人关系的各种人们或组织串连起来。社交网络分析是用来查看节点、链接之间的社会关系的分析方式:节点是网络中的个人参与者,链接则是参与者之间的关系。节点之间可以有很多种链接。
[7] 光学字符识别指对包含文本内容的图像或视频做处理和识别,并提取其中所包含的文字及排版信息的过程。
[8] 数据清洗指从语料库、表格或数据库中检测和纠正(或删除)损坏或不准确的记录的过程,是指识别数据的不完整、不正确、不准确或不相关部分,然后替换、修改、或删除未经处理的原始数据。