中國的漢文字非常了不起,中華民族的形成和發展離不開漢文字的維係。
——習近平

河南日報客戶端記者 謝建曉 楊之甜
“一片甲骨驚天下”,代代學人焚膏繼晷。1899年,沉睡地下3000多年的甲骨被發現,隱藏的中華智慧和文明密碼被一一破譯。
12月26日,記者來到安陽師範學院甲骨文信息處理教育部重點實驗室。工作人員登錄“殷契文淵”網站,在字形庫中選擇甲骨字“人”字形,所有包含該字形的402個甲骨片信息就全部顯示出來。
安陽師範學院計算機與信息工程學院院長、甲骨文信息處理教育部重點實驗室主任劉永革介紹,“殷契文淵”是目前最大的甲骨文數據庫,從開放的第一天起,平台就為全世界用戶提供免費服務。它不僅服務全球的甲骨文、考古、曆史、文字方麵的研究專家,還吸引了古文字愛好者、中小學語文教師、書法愛好者等使用。
為什麼要專門建立甲骨文數據庫?甲骨文“撞上”現代科技,又會發生什麼?

劉永革(右)和研究員在甲骨文信息處理教育部重點實驗室工作。河南日報客戶端記者 楊之甜 攝
2000年,計算機軟件碩士劉永革到安陽師範學院任教,兩位研究甲骨文的老師建議他開展甲骨文信息化研究。“一頭是中國古老文明中的甲骨文,另一頭是先進的計算機技術、人工智能。”劉永革坦言,當時覺得這個課題簡直是兩個極端。
“釋讀甲骨文本就是世界難題,此外,還有一個難題擺在麵前——甲骨文沒法輸入到電腦裏。”劉永革說,這是他最初想要解決的問題。
“甲(jia)骨(gu)文(wen)和(he)漢(han)字(zi)不(bu)一(yi)樣(yang),好(hao)多(duo)字(zi)我(wo)們(men)不(bu)認(ren)識(shi),使(shi)用(yong)拚(pin)音(yin)輸(shu)入(ru)法(fa)不(bu)行(xing),而(er)且(qie)還(hai)有(you)一(yi)些(xie)字(zi)像(xiang)畫(hua)一(yi)樣(yang),不(bu)能(neng)用(yong)部(bu)首(shou)輸(shu)入(ru),也(ye)不(bu)能(neng)拆(chai)分(fen)。此(ci)前(qian)甲(jia)骨(gu)文(wen)輸(shu)入(ru)法(fa)采(cai)用(yong)編(bian)碼(ma)輸(shu)入(ru)方(fang)式(shi),記(ji)憶(yi)負(fu)擔(dan)較(jiao)重(zhong),學(xue)習(xi)成(cheng)本(ben)較(jiao)高(gao)。”劉永革說。
因此,研發甲骨文輸入法,建立一個基本字庫,讓任何人都可以輕鬆輸入,至關重要。
“用計算機技術研究甲骨文的編碼、字庫、輸入法、數據庫建設,為專家提供一些工具,輔助甲骨文研究,這是我們建立甲骨文數據庫的初衷。”劉永革說。
可(ke)隻(zhi)有(you)技(ji)術(shu)優(you)勢(shi)顯(xian)然(ran)不(bu)夠(gou)。為(wei)了(le)學(xue)習(xi)最(zui)新(xin)的(de)甲(jia)骨(gu)文(wen)研(yan)究(jiu)成(cheng)果(guo),每(mei)當(dang)有(you)甲(jia)骨(gu)文(wen)或(huo)古(gu)文(wen)字(zi)研(yan)究(jiu)專(zhuan)家(jia)到(dao)安(an)陽(yang),劉(liu)永(yong)革(ge)和(he)團(tuan)隊(dui)成(cheng)員(yuan)一(yi)定(ding)想(xiang)方(fang)設(she)法(fa)當(dang)麵(mian)請(qing)教(jiao);當地、外地召開的甲骨文學術研究會議,時間再緊他們也要參加……隨(sui)著(zhe)了(le)解(jie)越(yue)來(lai)越(yue)深(shen)入(ru),劉(liu)永(yong)革(ge)發(fa)現(xian),甲(jia)骨(gu)文(wen)作(zuo)為(wei)中(zhong)華(hua)民(min)族(zu)最(zui)古(gu)老(lao)的(de)文(wen)字(zi),因(yin)晦(hui)澀(se)難(nan)懂(dong)和(he)研(yan)究(jiu)資(zi)料(liao)較(jiao)少(shao),與(yu)現(xian)代(dai)技(ji)術(shu)不(bu)兼(jian)容(rong),研(yan)究(jiu)效(xiao)率(lv)低(di)下(xia)。
如何共享甲骨文的研究信息,讓全人類資源互通、群力群策一起研究呢?劉永革他們決定利用自己的專業,讓甲骨文這一“冷門”絕學“熱”起來。
於是,一個彙集甲骨文信息的“殷契文淵”項目悄然啟動。劉永革帶領團隊30多名老師和50多名學生,對甲骨研究的權威資料逐條、逐頁進行掃描、裁切、編號,尋找釋文。
2019年,團隊用8年時間精心打造的全球首個免費甲骨文數據庫“殷契文淵”驚豔亮相。該平台建設的甲骨文字庫包含單字5086個、字形6234個,甲骨文研究文獻3萬多篇,支持多種甲骨文輸入檢索方式。
“此前甲骨文資料很難查到,即使甲骨文專家也不可能擁有全部資料,‘殷契文淵’項目建成後解決了這個問題。”甲骨文信息處理教育部重點實驗室副主任高峰說。

甲骨文“人”字。
據介紹,平台接下來將繼續補充基礎數據,同時采用人工智能技術進行數據分析,包括甲骨文識別與字形分析、甲骨文語言計算、甲骨文知識圖譜、計算機自動綴合甲骨文係統等,有可能成為海內外最詳贍、最完備的甲骨文大數據平台。
與此同時,安陽師範學院還積極整合校內資源,集合文學、曆史、計算機、體育等專業優勢,形成了一支跨專業、多學科聯合攻關的學術團隊——甲骨文信息化處理團隊。憑借已經建成的甲骨文數據庫優勢,該團隊開始嚐試利用語言學、數學、計算機科學、信息技術對甲骨文進行語義、語法處理和知識挖掘。
“利用人工智能技術破譯甲骨文,讓科技賦能甲骨文研究,揭開一片片甲骨背後的文明密碼,講好甲骨文的故事。”劉永革說,他們要將甲骨文研究帶入新的智能化時代。

編輯:張龍(大)
上一篇: 鄉村行·看振興 再向三山行·太行山采風④ | 新“石頭記”
下一篇: 王凱主持召開省政府常務會議