用數字技術探秘中華文化的寶藏
日期:2022-06-24 來源:中國社會科學網-中國社會科學報
文以載道,用文字傳承文明,是中國文化的一大特點。卷帙浩繁的古籍是典冊的海洋,也是承載著中華民族生生不息文化基因的寶庫。從典籍中汲取營養,應對現實挑戰,更是中華民族自強不息、歷久彌堅的不竭動力。黨的十八大以來,我國高度重視古籍工作,將“加強文物古籍保護利用”寫入政府工作報告,出臺《關于推進新時代古籍工作的意見》。近日,習近平總書記專門強調,“要運用現代科技手段加強古籍典藏的保護修復和綜合利用,深入挖掘古籍蘊含的哲學思想、人文精神、價值理念、道德規范,推動中華優秀傳統文化創造性轉化、創新性發展”,為我們用數字技術傳承光大古籍文明指明了方向。
突破古籍文字識別難題
數字人文是將計算機科學技術應用于人文領域的一種新研究范式。所謂數字化,實際上有兩個步驟。首先是產生數據,將人文學科中復雜多樣的“材料”,經過計算機的標準化處理和模型篩選,生成機器可以識別的“數據”。其次是對生成的海量數據進行計算機建模、歸類、聚集、運算,揭示其中的規律。其中以第一步為基礎,是開展大數據研究的前提,第二步是實質,通過長時段、大范圍海量數據的文本挖掘、分析統計、機器人工智能、可視化等技術,使碎片化的知識系統化,隱性化的知識顯性化,產生出以往“小數據”研究難以察覺的知識和聯系。
從“小數據”到“大數據”,“數據”生成是前提,也是長期困擾中國古籍數字化進程的難題。中國古籍數字化始于20世紀80年代,近二十年發展加速,如今已成績斐然,但問題也日益明顯。已掃描的古籍是傳世古籍的一小部分,文本化的古籍又是更小的一部分。這一小部分文本化古籍基本由人工“對錄”產生,高度依賴大量的人工標注,這種基于監督學習的方法,費時費力,遠遠達不到大規模應用的效果,需要新的算法加以改進。
古籍OCR(光學字符識別)的困境,與數字人文的發展史相關,它是全球信息科技“拼音文字霸權”的一部分。數字人文基于第二次工業革命以來信息技術的發展,興起于20世紀四五十年代,這一數字知識生成過程從一開始就基于拼音文字,由西方的近代認知論、方法論、技術語言和社會文化所主導,與中國的文字、價值觀格格不入。一種長期流行的看法認為,形聲字不可能實現現代信息革命。在“五四”反傳統的思潮中,漢字就被認為是文化落后的表現,而欲廢止,代之以“文字的拼音化”,這一爭論直到1976年才告止息。
中文特別是古漢語的數字化代表著一種文本數字化、組織化和意義挖掘的獨特技術路線。中文完全沒有字母,如何把中國字分解成字符,曾讓國人大傷腦筋。為打開中國通向現代信息王國的大門,中國知識分子付出了百年努力。現代漢語的問題基本得到解決,但古籍方面的問題仍繼續存在。在書體上,有隸、篆、行、草、楷之變化,也有手書、印刷之區分;在排版上,右起豎排,字間無距,頁內分版;在刊刻、印刷、保存環節,又有雕版、活字之區別,雕版材質之別、新舊之別,氣候干濕之別,紙張油墨品質高下,刻工技法熟練生疏,保存條件之優劣,以及為尊者諱、避文字獄等文化因素,都會影響到文字的形態和計算機識別,讓TEI編碼倡議事實上很難展開。
“讀書必先識字”,構建中文古籍OCR標準,是解決古籍數字化數據源問題的治本之法。受古籍種種復雜多變的因素制約,目前針對比較簡單、規范、整齊的古籍,四川大學聯合阿里巴巴達摩院共同研發的“漢典重光”OCR平臺,用人工智能方法識別準確率已達97.5%,盡管已經達到業內較高水平,但與國家出版文字差錯率萬分之二的標準還相距甚遠。考慮到古籍的復雜性,要進一步提高古籍OCR準確率,還需要進行相關異形字、異體字字典及人名、地名、書名、職官、名物等基本語料庫建設,將古籍漢字的多樣性和異質性納入標準體系。
從人物與時空之維編織古代意義之網
歷史是人在時空中的活動,人是懸掛在自己編織的意義之網上的動物,將時間、空間和人物這些人類歷史演進的基本維度編織在一起,大致可以構建古代意義世界的基本框架。問題是,古籍文獻中的時間、空間、人物信息十分分散,維度復雜,并不會自然而然地顯現出來,很多時候還互不同步、相互矛盾。隨著各種古籍全文檢索庫、專題數據庫的建成,獲取分散于古籍中的時間、空間、人物信息的技術日漸成熟,鏈接各個不同資源,構建“網絡基礎設施”已成為推進古籍數字化的共識。
時間之維,是傳統史學研究的根本,在數字人文研究中尚未成為研究重點。從技術的邏輯看,統一到現代標準時間的年月日單元,就能輕松地解決這個問題。其實這具有很大的欺騙性,線性的、進步的時間是現代性的產物,歷史中時間往往是相對的,主要表現在幾個方面。第一,與近代線性的時間性不同,古代的時間往往具有循環的、不連續性的特點。第二,時間的文化建構不容忽視。中國歷史上有關正統論、歷史分期的爭論比比皆是。第三,歷史文獻中還充斥著很多不確定的時間,比如家譜中常見的祖先傳說。第四,時間的框架是多層次的,年鑒學派將之分為長時段、中時段、短時段,分別對應著地理的時間、社會的時間和事件的時間。各層次之間的關系錯綜復雜,并不像“俄羅斯套娃”一樣環環相扣,讓人一望便知。如何選擇適當的時間維度,承載時空中的歷史經驗,架構古代的意義世界,是一個有待深入研究的問題。
空間之維,由于歷史地理信息技術(HGIS)的引入取得很大進步,初步提供了可以整合其他維度的多層次框架。以譚其驤先生的《中國歷史地圖集》為基礎,先后衍生出臺灣“中研院”的“中華文明時空基礎架構平臺”(CCTS),和復旦大學與哈佛大學共同開發的中國歷史地理信息系統(CHGIS)。后者已經發布到第6版,提供從秦始皇到辛亥革命的行政區劃數據,為歷史空間提供了一個基本參照。經過十余年的發展,GIS輔助的歷史地理研究,已經從靜態、平面、塔式的歷史地理信息化定量分析,發展到從多源數據資料中提取數據、為這些提取出來的信息建檔、與他人共享,并作特定歷史時空中的定性分析。
地方也是一個空間維度,天然地融合了此空間范疇內的歷史信息。地方志是古籍的一大門類,目前已知的存世方志多達萬種。這些地方志自12世紀以來不斷更新,覆蓋內陸,也涵蓋邊疆,信息量巨大,結構大同小異,是數字人文的最佳材料。愛如生、雕龍、EASTView等數據平臺目前收錄方志約7000種,但基本都沒有嵌入文本分析工具,很難加以高效利用。2014年德國的薛鳳(Dagmar Schfer)教授開始開發地方志研究工具LoGarRT,主要用于災害史研究,發現很多有價值的新問題。
以人為中心,是中國紀傳體史學的傳統。一直以來,人類試圖從各個角度了解自己的過去,而中國很早就選擇了以人為中心。在正史、方志、家譜等中國古代文獻中,保存著大量的歷史信息,為從人的角度整合其他歷史維度提供了方便。2005年由哈佛大學、臺灣“中研院”、北京大學聯合發起的中國歷代人物傳記項目(CBDB),截至2020年,已涵蓋從6世紀到20世紀早期的47萬人的個人數據。該數據庫基于人物關系建立,以單一人物的生平記錄為核心,并通過字號、親屬關系、生卒年份等項目,展開個人與其他人物的關系網絡,形成所謂的“關系型”資料庫,呈現出群體之中的個體、群體網絡的形態與節點,為學者進行統計分析、群體傳記學分析、社會網絡分析和空間分析提供了基礎。目前, CBDB和GIS等平臺實現了數據對接,對于CBDB得出的數據,可以借助地理信息系統實現古籍數據的可視化,配合碼庫思(MARKUS,古籍半自動標記平臺)工具,有助于在線閱讀和文本分析。
盡管目前綜合時間、空間和人物的數據平臺尚未出現,但在已有的時間、空間、人物數據平臺嵌入文本挖掘、機器學習的分析工具和可視化工具,已取得初步成績,并成為將來發展的重要方向。目前,這種有限整合帶來的沖擊,無論是視覺還是范式上都相當可觀,已為中古學術轉型、城市化、人口史、災害史等重要問題帶來了新的認識。
聚焦新的研究問題
陳寅恪先生說:“一時代之學術,必有其新材料與新問題。取用此材料,以研求問題,則為此時代學術之新潮流。”數字人文興起的當代,是人類文明面臨巨大挑戰的時代,很多體系正在面臨深刻危機,比如,環境、經濟、健康、教育、科學、信息、政治,等等。這些危機出現的原因,追根溯源多少都與源自西方的現代性危機相關。借助現代技術,從古籍中汲取歷史的智慧和經驗,有助于我們跳出當前的困境,從更長程的時段、更廣闊的空間、更多樣的群體角度,思考應對當前的問題。
大數據之所以大,不是因為其數據量之多,沒有問題意識的過載數據,只會“五色令人目盲”,讓人迷失方向。大數據的真正意義,在于拓展了人文研究的規模和范圍,為思考覆蓋時間更長、空間更廣、人群更多樣的大問題提供了新的研究方法。可以討論的問題很多,茲不一一,但有兩個需要一提。一是文化自信的樹立。“觀乎人文,以化成天下”,在“化成中國”的歷史進程中,中華民族締造了人類文明史上的很多奇跡。中華先民順應自然、改造自然,在世界最高之山和最大之洋之間的東亞大陸上,將多樣地貌、多樣民族、多樣文化一并納入統一多民族國家之中,令國家長治久安,人民安居樂業,文化歷久彌新,締造了光輝燦爛、彪炳史冊的古代文明。這些豐富的歷史經驗和智慧,經歷代之編撰整理,集大成于傳統典籍體系之中,等待結合現代技術加以揭示。
二是應對人類命運共同體的共同危機。過去幾十年,全球歷史學研究年代越做越短、題目越做越小。可是,工業革命以來,人類紀帶來全球加速,一時間人口劇增、能源危機、氣候變化、物種滅絕等種種問題紛至沓來,讓習慣于用現代性思維思考有限時空中具體問題的人文研究者手足無措。用數字人文的研究方法,借鑒中華典籍中的智慧,進行大跨度的跨學科研究,可以為解決這些問題提供新的思路。
這并不是說要用數字人文取代傳統的治學方式。數字人文的最大意義,在于豐富了人文學科的研究方法,開辟了古籍研究的新領域。每種研究方式都有自己的優勢和限制,大數據也不例外。數字之長在博,人文之長在約,方以智,圓而神,只有將數字與人文有機結合,才能有主導性的問題,才能有大規模的材料,真正讓古籍寶藏里的智慧古為今用,發揚光大。
(作者單位:四川大學歷史文化學院)