過(guò)去,專家在古文獻(xiàn)研究中遇到生僻字,可能花費(fèi)數(shù)小時(shí)甚至數(shù)天查閱大量工具書才能弄清這個(gè)字的含義。但在今天,這個(gè)過(guò)程可能僅僅只需要幾秒。據(jù)悉,“識(shí)典古籍”平臺(tái)最新上線的編輯器搜字、造字、復(fù)制字圖功能,通過(guò)將生僻字進(jìn)行拆解拼接,系統(tǒng)可從20余萬(wàn)個(gè)字形中精準(zhǔn)匹配出結(jié)果——整個(gè)過(guò)程不到10秒,從而解決了困擾古文獻(xiàn)研究領(lǐng)域多年的生僻字整理難題。
在以往的古籍?dāng)?shù)字化過(guò)程中,遇到字庫(kù)中沒(méi)有的生僻字或異體字時(shí),研究人員的通常做法是截取該字在古籍掃描圖中的局部區(qū)域的圖片作為替代,稱之為“字圖”。然而這樣處理存在明顯缺陷,字圖有當(dāng)時(shí)古籍本身的印刷書寫風(fēng)格和背景,不宜閱讀;同時(shí),不同字圖可能實(shí)為同一字,卻因無(wú)法識(shí)別而被重復(fù)截取,造成整理混亂。
識(shí)典古籍給出的解決方案是自研了一套拼字輸入法(拼出字圖)、造標(biāo)準(zhǔn)宋體字(造出字圖)等算法,以幫助研究人員在整理古籍時(shí)能夠快速的輸入生僻字甚至“造”出字體。
拼字輸?法的技術(shù)原理并不復(fù)雜,就是讓用戶在自己認(rèn)識(shí)的簡(jiǎn)單字和簡(jiǎn)單筆畫的基礎(chǔ)上,去搜索更加復(fù)雜的漢字,即便不清楚這個(gè)漢字的字音、字義,也能憑借字形快速匹配。
例如,“矦”字可由“?”“廠”“矢”組成,輸入這些部件即可召回該字。對(duì)于普通人來(lái)說(shuō),雖然這個(gè)字我不認(rèn)識(shí),但總有它的部分我認(rèn)識(shí),認(rèn)識(shí)什么輸入什么,就可以把這個(gè)字拼出來(lái)。這種方式比五筆輸入法更直觀,無(wú)需記憶詞根,也支持生僻字檢索。

在編輯器中拼字輸入
在研發(fā)過(guò)程中,團(tuán)隊(duì)面臨的核心挑戰(zhàn)是漢字組合的極端復(fù)雜性。例如一個(gè)“椪”字,就有“木並”、“木?業(yè)”、“木丷亞”、“木八亞”等多種拆分方式,組合數(shù)量呈階乘級(jí)增長(zhǎng),傳統(tǒng)窮舉方法根本行不通。
團(tuán)隊(duì)曾嘗試用有向無(wú)環(huán)圖來(lái)建模漢字部件關(guān)系,想象一堆有箭頭連接的積木,箭頭只指向后方,且絕對(duì)不允許形成一個(gè)閉合的圓圈,這樣我們就可以從起點(diǎn)一路暢通無(wú)阻地走到終點(diǎn),但十萬(wàn)漢字構(gòu)建的圖譜對(duì)性能挑戰(zhàn)巨大,也難以量化匹配效果。
那段時(shí)間,組內(nèi)成員兵分幾路,有人繼續(xù)嘗試圖結(jié)構(gòu)優(yōu)化,有人從組合數(shù)學(xué)角度尋找新思路。大家頻繁交流、互相“挑戰(zhàn)”,常常列舉出各種bad case推翻對(duì)方方案,卻又在碰撞中萌生新的靈感。
最終,識(shí)典古籍研發(fā)團(tuán)隊(duì)設(shè)計(jì)出了一套高性能、通過(guò)計(jì)算漢字細(xì)節(jié)特征進(jìn)行匹配的解決方案,可支持在20余萬(wàn)個(gè)漢字中實(shí)時(shí)搜索。
該方案在初始加載階段,不僅會(huì)整體收集每個(gè)漢字的組成部分作為其特征,還會(huì)構(gòu)建一套簡(jiǎn)繁字、偏旁部首的等價(jià)映射表,如“馬”可代“馬”、“水”可代“氵”。
在搜索階段,算法會(huì)先對(duì)用戶輸入進(jìn)行前置處理以提升容錯(cuò)能力,比如相似的“??”和“乚”都會(huì)被處理成“乚”,然后比對(duì)用戶輸入與所有漢字特征之間的差異,按匹配程度排序返回最佳結(jié)果,若匹配失敗,算法還會(huì)自動(dòng)使用等價(jià)映射表重新檢索,如輸入“水”、“木”可查找出“沐”,顯著降低輸入門檻,更貼合用戶的用字習(xí)慣。
拼字輸入法主要輔助研究人員找到當(dāng)今已經(jīng)被編碼的漢字,對(duì)于古籍中存在的?些沒(méi)有被計(jì)算機(jī)編碼的漢字,識(shí)典古籍團(tuán)隊(duì)又開發(fā)了基于IDS造出標(biāo)準(zhǔn)宋體字的算法,通過(guò)結(jié)構(gòu)化的描述方式去表達(dá)任意?個(gè)漢字,進(jìn)而為這個(gè)生僻字量?設(shè)計(jì)字體。
根據(jù)識(shí)典古籍團(tuán)隊(duì)介紹,IDS是Unicode標(biāo)準(zhǔn)定義的漢字結(jié)構(gòu)描述語(yǔ)法,通過(guò)IDC符號(hào)(用于描述漢字結(jié)構(gòu),如?、?、?、?、?等)和漢字部件組合而成。例如,“古”字是上下結(jié)構(gòu),其IDS就是 “?十口”。

通過(guò)分析漢字的空間結(jié)構(gòu)輸入相應(yīng)的IDS表達(dá)式生成字體字形,以上是不同空間結(jié)構(gòu)的示例
造字的核心是解析用戶輸入的IDS表達(dá)式,為每個(gè)部件選擇合適的變形和空間布局,組合成新字。例如,在處理左右結(jié)構(gòu)時(shí),需控制部件寬度比例和間距;在處理包圍結(jié)構(gòu)時(shí),需確定缺口位置并在缺口處合理放置被包圍的部件。

團(tuán)隊(duì)在開發(fā)過(guò)程中摒棄了“大而全”的幻想,比如像‘廴’只需主要考慮‘?’布局,無(wú)需過(guò)多考慮?、?、?、?等其他情況,轉(zhuǎn)而遵循實(shí)際漢字布局規(guī)則,逐步實(shí)現(xiàn)了覆蓋常見結(jié)構(gòu)的造字引擎。

在編輯器中造字
由于造字是基于IDS的,所以它天然就具有漢字的組成信息,因此用戶“造”出來(lái)的字經(jīng)平臺(tái)審核通過(guò)后也可以使用上述的拼字輸入法搜索出來(lái),實(shí)現(xiàn)相互聯(lián)動(dòng)。

在編輯器中拼字搜索之前造過(guò)的字
就像識(shí)典古籍研發(fā)團(tuán)隊(duì)說(shuō)的那樣,編輯器搜字、造字、復(fù)制字圖功能就像一個(gè)“萬(wàn)能積木”,讓古籍整理這項(xiàng)傳承文明的事業(yè)不會(huì)因?yàn)椤白帧倍蛔璧K,而讓團(tuán)隊(duì)自豪的是,當(dāng)看到自己設(shè)計(jì)的造字工具能生成古籍中千變?nèi)f化的字形,甚至一些早已遺失在歷史中的字體重現(xiàn)屏幕時(shí),“一種跨越時(shí)空的技術(shù)成就感油然而生”。
古籍整理是中國(guó)古典學(xué)不可或缺的研究基礎(chǔ),也是社會(huì)大眾繼承和發(fā)揚(yáng)傳統(tǒng)文化的寶貴資源,同時(shí)還是世界理解中華文明的重要途徑。根據(jù)國(guó)家古籍保護(hù)中心調(diào)查結(jié)果顯示,我國(guó)現(xiàn)存20多萬(wàn)種古籍,存世50萬(wàn)個(gè)版本,古籍?dāng)?shù)量達(dá)3200多萬(wàn)冊(cè),然而當(dāng)前古籍整理工作的現(xiàn)狀卻是數(shù)字化程度極低,許多書只是完成了初步的影像掃描,真正實(shí)現(xiàn)文本數(shù)字化的不到四萬(wàn)種。
之所以會(huì)存在這樣的困境,專業(yè)人才匱乏是首要障礙,目前全國(guó)范圍內(nèi)專業(yè)從事古籍整理的人員僅有一萬(wàn)人左右。其次是生僻字處理存在技術(shù)瓶頸,由于古籍中存在大量異體字、俗體字和避諱字,使得文字識(shí)別準(zhǔn)確率難以提高。傳統(tǒng)OCR技術(shù)是為打印材料設(shè)計(jì)的,面對(duì)古書中的不同字體風(fēng)格、非漢字筆畫符號(hào)、折痕和破損缺字,識(shí)別效果大打折扣。最后是資金與版權(quán)的桎梏。
正是在這樣的背景之下,字節(jié)跳動(dòng)在2022年10月,與北京大學(xué)合作推出了完全公益的古籍智能閱讀和整理平臺(tái)——“識(shí)典古籍”,旨在通過(guò)技術(shù)力量改變傳統(tǒng)古籍整理模式。識(shí)典古籍初期就整合了三大核心技術(shù)——文字識(shí)別(OCR),自動(dòng)標(biāo)點(diǎn)和實(shí)體識(shí)別,這意味著機(jī)器已經(jīng)能夠初步“讀懂”古文。
根據(jù)官方公布的數(shù)據(jù),識(shí)典古籍平臺(tái)在數(shù)萬(wàn)名來(lái)自高校、社會(huì)及字節(jié)跳動(dòng)員工的古籍整理志愿者共同努力下,現(xiàn)已經(jīng)免費(fèi)公開3萬(wàn)余部古籍,每月有超240萬(wàn)用戶訪問(wèn)量。在2025年底,將發(fā)布4萬(wàn)部古籍面向公眾開放。
識(shí)典古籍的價(jià)值不僅僅提高了古籍專業(yè)研究人員的工作效率,更是通過(guò)技術(shù)手段降低了古籍整理的門檻,使公眾參與成為可能。同時(shí),古籍?dāng)?shù)字化的價(jià)值遠(yuǎn)遠(yuǎn)超出了保護(hù)本身,它讓古籍內(nèi)容變得更加可用、易懂,為文化傳承和創(chuàng)新提供了基礎(chǔ)。全國(guó)高等院校古籍整理研究工作委員會(huì)副秘書長(zhǎng)吳國(guó)武教授在接受媒體采訪時(shí)曾表示,“古籍相當(dāng)于先人的知識(shí)體系,將經(jīng)典智慧為現(xiàn)代人所用,是非常重要的任務(wù)”,數(shù)字化后的古籍可以被更容易地檢索、分析和利用,為學(xué)術(shù)研究提供支持。