當古籍修復遇上人工智能
北京大學數字人文研究中心、北京大學-字節(jié)跳動數字人文開放實驗室、北京大學人工智能研究院聯合主辦的“古籍智能信息處理”系列研討會日前在線上舉辦。
在研討會上,北京大學數字人文研究中心主任王軍算了一筆賬:我國現存古籍約有20萬種,從1949年到2019年,共修復整理出版了近38000種,照此速度,要將現存古籍全部修復整理出來,可能需要三百年的時間。不過,若利用人工智能技術輔助修復整理,大概二三十年就能完成。
王軍所說的“利用人工智能技術修復古籍”,并非遙遠的科學設想,它正在成為現實中的生動實踐?!肮偶悄苄畔⑻幚怼毕盗醒杏憰谝恢v開講后不久,字節(jié)跳動宣布向北大教育基金會提供捐贈,支持北京大學—字節(jié)跳動數字人文開放實驗室研發(fā)“古籍數字化平臺”,利用智能技術加速中華古籍資源的數字化建設,預計三年內完成10000種精選古籍的智能化修復整理。
古籍文本轉化正在智能化
很長一段時間里,古籍保護主要采用原生性保護方式,即把古籍當作“文物”保護起來。后來出現再生性保護方式,對古籍進行影印再造和影像保存,讓古籍得以以紙本或縮微膠片的形式存在?,F有的數字化古籍很多是由縮微膠片轉換而成,分辨率較低且影像多為黑白色。
即便將所有古籍用數字化手段影印出版,古籍也是“死”的,人們無法方便地使用。北京大學中文系教授楊海崢舉了個簡單的例子——影印的古籍沒有標點符號,非常不便于閱讀。另外,這也不利于對古籍內容進行檢索,想查閱某個內容,得逐篇逐頁閱讀原文,很難快速找到想要的知識。因此,要提升傳統古籍的利用率,必須將古籍內容轉化為數字文本。過去,這種轉化主要依靠專家人工錄入,時間成本極高。
“信息技術的發(fā)展,尤其是人工智能和大數據技術的出現,為古籍的修復整理帶來了革命性變化。”王軍說,近年來,包括北京大學在內的不少高校、科研機構在古籍數字化上開展了不少開拓性的工作,在OCR(光學字符識別)、AI句讀、實體識別等方面積累了比較成熟的技術和經驗。以OCR應用為例,用電子設備對紙本古籍一掃,古籍上的內容就會轉錄到計算機中,并生成相應的數字文檔,效率比人工錄入提升了不止千萬倍。
據了解,利用人工智能和大數據技術,北京大學數字人文中心在從先秦到明清跨時代的大規(guī)模古籍文本語料整理上,已實現對古文本的自動句讀,平均準確率達到94%,同時還實現了對人名、地名、時代名、職官名、書名的自動識別,在中古史料上的準確率接近98%。
在這些方面,字節(jié)跳動等互聯網公司也有很多經驗和技術積累。例如,OCR技術在今日頭條、抖音等平臺的圖片文字識別、字幕翻譯,以及商業(yè)化業(yè)務中的各類卡證票據及行業(yè)文檔識別等領域均有廣泛應用。“這些技術可以逐漸向古籍智能數字化的方向上遷移。我們在古籍數字化平臺開發(fā)中,與北大在技術上能優(yōu)勢互補,進行有效的打通與融合?!弊止?jié)跳動人工智能實驗室總監(jiān)李航表示。
王軍介紹,“古籍數字化平臺”將會進一步提升古籍整理的準確率、智能化水平和開放度。一方面,可以對重點文本進行精校,滿足專家學者對資料準確度的要求;另一方面,利用智能平臺上的文字識別、校對工具,學者和古籍愛好者可以在線上一站式完成古籍整理工作,而不用像以前那樣先在word文檔中進行整理編輯,再傳遞相關的文檔,在提高效率的同時,也方便公眾參與。
古籍利用有望智慧化
四川大學中國文化全球傳播大數據中心教授王兆鵬認為,技術的進步為古籍修復整理智能化帶來兩個面向:一是古籍文本轉化智能化,二是古籍利用智慧化。
把紙質古籍上的內容轉化成數字文本,只是古籍修復整理的第一步。在此基礎上,要解決的另一個問題是,如何將海量晦澀難懂的古籍內容進行整理歸類,形成可交互、可觸摸、可視化的數字人文作品,以方便人們查閱使用。否則,錄入計算機的古籍依然會繼續(xù)“沉睡”。
基于人工智能技術,目前我國已建立多個古籍整理自動化和可視化平臺。比如,王軍主持設計和研發(fā)的“《宋元學案》知識圖譜可視化系統”,對240萬字的《宋元學案》進行了文本處理和分析,將2000多位宋元理學學者、近100個學術流派所涉及的人物、時間、地點、著作等提取出來構造成知識圖譜。然而,不少平臺的智能化水平仍然較低,比如輸入關鍵詞,搜索出的內容各自孤立、凌亂無序。王兆鵬認為,更智慧的古籍整理利用平臺,應該從1.0版向2.0版演進,比如內容檢索應“以類相從”,檢索出的內容應彼此關聯,且由人工智能進行有機分類。
北京大學與字節(jié)跳動合作研發(fā)“古籍數字化平臺”是提升古籍整理和利用智慧化水平的一次嘗試?!拔覀兒献鞯募夹g核心是將人工智能和大數據應用在海量的古籍文獻上,實現古文本知識圖譜的自動生成和對古籍內容的智能化整理,讓古籍能夠以文本的形態(tài)加以檢索、關聯閱讀和深度挖掘利用?!崩詈秸f,未來,“古籍數字化平臺”不僅是一個古籍智能整理平臺,還將是一個面向讀者的數字化閱讀工具,將提供免費開放的訪問服務。
王軍預計,隨著人工智能技術的運用,古籍文獻中所蘊藏的古代歷史文化知識將不斷被抽取出來,構造成各種各樣的知識庫,并將會以知識圖譜的形式支持互聯網前端應用。
由于在互聯網產品研發(fā)、設計方面存在優(yōu)勢,互聯網公司等社會力量的加入會進一步保障古籍數字化平臺的服務質量?!拔覀冇袃?yōu)秀的產品經理、設計師、軟件工程師,能夠不斷優(yōu)化、創(chuàng)新古籍數字化平臺的產品功能,提供更好的用戶體驗?!北本┳止?jié)跳動企業(yè)社會責任部產品總經理唐塏鑫表示,目前今日頭條的設計團隊和抖音的開發(fā)、測試團隊已經加入“古籍數字化平臺”的開發(fā)工作。
需要跨學科通力合作
隨著人工智能技術在古籍修復整理領域的廣泛應用,作為古典文獻專業(yè)的老師,楊海崢經常被學生們問到一個問題:“學古典文獻的同時,還要學人工智能嗎?”雖然楊海崢不能確定,但一個事實是,人工智能技術與古籍修復整理的結合,將開辟出全新的交叉學科領域,利用人工智能技術修復整理古籍肯定需要更多復合型人才。
王軍認為,在這種情況下,高校古典文獻學等相關專業(yè)如何培養(yǎng)兼具技術與學術能力的古典文獻學人才,如何形成多學科交叉的課程體系等,都是亟待解決的問題。
此外,人工智能并非“絕頂聰明”。在華南理工大學電子與信息學院教授金連文看來,古籍圖像增強、修復,復雜版式古籍文檔圖像版面分析等問題都有待解決。而在對古籍內容的分析整理中,目前最大的技術難點是人工智能對古籍中人名、地名等專有名詞識別后,如何進一步實現關系提取,從而為古代歷史文化知識圖譜的自動生成準備技術條件。
因此,楊海崢認為,在古籍整理中,人文社科學者還是要積極介入,并加強與技術人員的合作,那樣才能更好地利用機器而不是被機器牽著鼻子走,從而保證結果的準確性。
人工智能技術的發(fā)展帶來了古籍整理研究方法、思路的根本改變。業(yè)內的一個共識是,利用人工智能推進古籍修復整理需要進行跨學科、跨環(huán)境、跨文化、跨地區(qū)合作。正如王軍所言,“古籍保護需要社會各界的共同努力,應歡迎更多古籍收藏機構、研究機構和熱心古籍事業(yè)的個人加入,這樣才能打造出一個開放的‘古籍數字化平臺’”。(記者 韓業(yè)庭)
責編:劉偉
來源:光明日報