記香港中大“甲骨文電子資料庫”①的創建與智能

2020-12-02 19:38沈建華
甲骨文与殷商史 2020年0期
关键词:資料電子部首

沈建華

(清華大學出土文獻研究與保護中心)

自1899年河南安陽小屯甲骨文發現,至今已經有120年,這是中國近代學術史上的重要事件。從甲骨文被認定爲商代王室遺物的那時起,它便成爲專門的研究物件,真正進入了上古史的學科。經過幾代人的努力,甲骨學如今在文字學、歷史學、考古學及古代科技史等領域成爲一門顯學,尤其補充了上古史的文獻不足,對恢復殷代歷史面貌意義重大,在中華文明史上有着不可估量的重要價值,可以説是祖先留給我們20世紀一份最豐厚的珍貴遺産。

如果説半個世紀以前,先輩們的研究與開拓,奠定了甲骨學的理論基礎;那麽1980年代以來,陸續發表的海内外七種著録書,可以説代表了甲骨學進入資料刊布的新階段。由胡厚宣先生主持編輯的《甲骨文合集》(以下省稱《合集》)相繼出版,這部巨書,將分散於國内外185種書刊、著録和尚未發表的公私收藏甲骨,經過精心挑選彙編成13册,總計收録甲骨41 956片,對學術界的影響和貢獻不可估量。隨着河南安陽新甲骨的發現,1980年由社科院考古所編著的《小屯南地甲骨》上下編五册先後出版,總計著録甲骨4 589片,可以説是建國以來數量最多的一次發現,也是最重要的甲骨新資料。以上兩種材料,我們全部收録到了“甲骨文電子資料庫”。這一時期出版的海外甲骨著録書,一種是李學勤、齊文心、艾蘭編著的《英國所藏甲骨集》(以下省稱《英藏》,圖録與釋文共四册),1985年在國内出版,總計著録甲骨2674片,這是當年我們見到海外著録甲骨最多的一部大型甲骨書籍,我們也全部收録到了“甲骨文電子資料庫”。另外四種海外甲骨著録書,我們只收録了其中部分甲骨,分别是《懷特等氏收藏甲骨文集》(1)許進雄: 《懷特氏等收藏甲骨文集》一册(1 915片),加拿大皇家安大列博物館1979年版。1 044片,《東京大學東洋文化研究所藏甲骨文字》(2)天理大學天理教道友社: 《天理大學附屬天理參考館甲骨文字》一册(692片),天理大學天理教道友社1987年版。784片,《天理大學附屬參考館甲骨文字》(3)松丸道雄: 《東京大學東洋文化研究所藏甲骨文字》一册(1 313片),東京大學東洋文化研究所1983年版。470片,《蘇德美日所見甲骨集》(4)胡厚宣: 《蘇德美日所見甲骨集》一册(576片,附録6片),成都: 四川辭書出版社1988年版。135片。總計,“甲骨文電子資料庫”收録海外甲骨5 107片。

1980年代,隨着甲骨新資料的不斷公布添加,甲骨研究進入一個黄金時代。未來的甲骨學發展要想深入研究,勢必要與科技結合,面對當時海内外出版著録的96 545片浩瀚甲骨資料,學者們如何在已有甲骨著録中快速準確地檢索到所需的甲骨文字或異體字,並及時掌握每片甲骨上的刻辭資料,已經成爲一個難題。能否有一種功能猶如“百度”這樣的工具,檢索起來既簡便又快捷,能够使甲骨資料被更多不同領域的專業學者和學生所利用呢?這是當時亟待解決的一個難題。

1990年代初,科技雖然經歷着日新月異的進步,但是甲骨文字與電腦印刷體漢字仍然有着很大距離。衆所周知,甲骨文字有其複雜性與不確定性,加上卜辭各時代同字異體,給電腦檢索輸入帶來極大的困難。面對近十萬片的甲骨刻辭如何入手整理?如何尋找一個檢索便利的途徑?如何利用科技電腦手段建立一個智能電子甲骨資料庫?這對智能電腦設計程序來説,當時是一個技術上的巨大挑戰,也是一個亟待研究的課題。

前輩學者一直在努力创建甲骨文字和甲骨刻辭的檢索系統,這是我們創建“甲骨文電子資料庫”的重要基礎。1931年唐蘭將甲骨文字分成21大類,以字形爲綱進行區分歸類整理,開啟了甲骨文自然分類法,他是第一個吃螃蟹的人。由於受當時同仁的影響,唐蘭整理的結果,性質雖説是文字編,但與現在的文字編和類纂的編輯理念不同。不過,唐先生必定没有想到他這個創舉竟然嘉惠幾代學者,得到海内外學者的認可和歡迎。

1970年代日人島邦男先生受唐蘭的影響,立足用自然分類法的部首,將所有卜辭形體與内容緊密結合起來,編纂了一部《殷墟卜辭綜類》(以下簡稱《綜類》)甲骨文工具書,以類相從,獨創了165部首系統。任何一個甲骨文字都可按這165個部首進行檢索,打破了傳統以《説文解字》部首檢索的局限性,把不可辨識的字形都按自然分類法部首歸類檢索,大大提高了檢索效率,使非專業學者可以利用。它的價值是對於甲骨卜辭歸類達到了比較與綜合研究之目的,在甲骨工具書史上島邦男此書無疑是一個創舉。在那個資料書籍分散極缺的1970年代,《綜類》的問世,成爲海内外甲骨學者不可替代的重要工具書,使用之便捷,資料之集中,至今讓學界受益無窮。

1980年代中期,吉林大學姚孝遂等人編纂了《殷墟甲骨刻辭類纂》(以下簡稱《類纂》),這是繼島邦男《綜類》之後,所收甲骨著録資料最爲完備的著作,其所收甲骨數量遠遠超過《綜類》。(5)《綜類》引用材料從1930年至1967年著録達65種;《類纂》引用7種海内外著録匯編至1980年共計53 000餘片(含專著80餘種,論文50餘種)。特别是原形字臨摹精義入神而且與釋文並列,受到學界歡迎。《類纂》由於歷史條件及種種限制,經多人手工編纂,難以避免在内容上造成不少前後不統一、遺漏和錯誤的地方。如何利用科技手段將甲骨文字輸入電腦,基本上達到資料類聚完整和統一,是甲骨學者最爲企盼的效果。

1988年由中國文化研究所所長陳方正和劉殿爵教授率先策劃了先秦兩漢至南北朝傳世文獻電子資料庫。1991年10月我離開東京,來到香港中文大學繼續完成與饒宗頤先生合作《甲骨文通檢》五册分類索引。1996年我們在獲得出土簡帛電子資料庫經驗的基礎上,由饒宗頤教授領銜,所長陳方正教授策劃在香港建立“甲骨文電子資料庫”。在他的積極統籌推動下,我們得到了香港政府RGC資助,在長達七年時間裏建立了“甲骨文電子全文資料庫”。

建立“甲骨文電子資料庫”,關鍵是必須要有一個合理的甲骨文字檢索系統。在檢索方法上我們參照了《類纂》的體例,最初建立了152部首,基本可以把所有的甲骨文字形歸納入部。我們收録了七部大型甲骨文書籍,設立了字形總表。這個總表相當於一把打開甲骨資料庫門的鑰匙,可以顯示甲骨原形和隸定釋文,通過字形表部首下的字,可以點擊到當時所輸入的七部海内外甲骨著録的全部釋文内容,包括著録序號、正、反、臼辭、重文片號、綴合編號,同時也可以選擇檢索到該甲骨文字或字詞,在七部書内總計出現有多少片、多少次數。這個電子智能檢索效果可以毫無遺漏地顯示給讀者,替代《綜類》和《類纂》手工編輯的缺漏與不足。

與《綜類》和《類纂》不同的是,我們的甲骨資料庫可以檢索到有關該字語境中的每一片甲骨正反臼所記録的完整内容,而不是像《綜類》、《類纂》那樣切割後的辭條。其優越之處是便於專業學者進行更深入的研究,掌握更多的完整信息。要知道編纂這類大型甲骨工具書,其工作繁冗瑣碎之程度難以想象,可惜《綜類》和《類纂》的作者没有趕上那個科技電子時代,對於刻辭中出現的大量習語詞匯,最後不得不選擇放棄部分甲骨卜辭,而這個問題今天智能電腦完全可以解決。

初始工作,我們意識到首先必須對《類纂》每個部首和部首下的每一個甲骨字進行重新核對、調整、分類、編號、增補、歸併、取消,從而爲紛亂複雜的甲骨文字建立一套標準化、系統化、相對定型的排列體系。這样我们分列出了6 000個甲骨字,其中對同字異體用A、B、C等來区分,這样基本上涵蓋了所有刻辭使用的文字。與此同時,我們爲每一個甲骨字都設了一個對應的電子内碼,爲的是在輸入甲骨釋文遇上造字和原形字時,輸入内碼即可顯示其隸釋或原形字形。在設計總表上,盡可能有不同功能之檢索,以適應不同層次的讀者。

因此可以説字表的正確與否,取決於我們對96 545片甲骨、140萬字釋文的一次次覆核校對整理。從最初的校稿,到一次又一次的修改,其中的甘苦,非當事人無法體會。對《類纂》部首表下3 763字,我和曹錦炎每一個字頭都没有放過,從最基本的工作做起,不厭其煩地將已經著録發表的全部拓本(或照片)逐版逐條認真核校一遍,做出新的釋文。曹錦炎先生曾經是《類纂》的編者之一,對於甲骨學沈潜已久,有着豐富的經驗和學養,是我們邀請的最佳合作者。我們對《類纂》字表部首下每個字形必須詳熟闇記,如果不具備這一基礎,資料庫就不可能增補800個包括異體在内的新字頭。字表中每增補一個字,都像在大海中尋針,工作量之浩繁,難以想象。進行原拓片的核對,由於不斷取放沉重的《甲骨文合集》我把手都累腫了,連吃飯我都舉不起筷子。

除了校勘甲骨釋文之外,爲了盡可能保證資料的完整性,提供更多的信息,我們又補充了甲骨綴合與重片的整理結果。我們利用1999年出版的《甲骨文合集補編》(簡稱《補編》)、《合集來源表》和蔡哲茂先生的《甲骨綴合集》、《甲骨綴合續集》所提供的綴合資料,對於資料庫所輸入的七本甲骨著録,凡重片或綴合的甲骨片,逐一進行校核整理,並在該片號後附上互見重片和綴合號碼,方便讀者使用和更好地掌握資料。

從《補編》、《合集來源表》我們統計出《合集》綴合和遥綴大約640組,這個數字比蔡哲茂統計《合集》綴合有544組稍增加一些;重片就有601組。(6)蔡哲茂: 《甲骨綴合續集》,臺北: 文津出版社2004年版,頁5、83。通過對重片和綴合的整理和校核,對比現已公布的《合集》數字,可知實際甲骨應該少於41 956這個總數字,《合集》真正數字加上重片大概不到41 000片。

對於《合集》第13册摹本中重見《英藏》甲骨拓本,二個釋文號我們同樣也采取了互見的辦法,供讀者參考。凡《補編》(釋文)第五、六册原稿,甲骨綴合號誤寫的,就直接修訂,不再逐一注釋。

2000年初,我和曹錦炎合編的《新編甲骨文字形總表》(7)沈建華、曹錦炎: 《新編甲骨文字形總表》,香港: 香港中文大學出版社2000年版。由香港中文大學出版,總計收入甲骨文字4 071個,包括異體總計有6 000餘字。内記有《殷墟甲骨刻辭類纂字形總表校記》和《殷墟甲骨刻辭類纂字形總表之校訂與整理》,可以説凝聚了我倆多年的心血,記録了我們整理的過程。焚膏補拙,必有收穫。没想到,此書出版不久就受到學界的歡迎和關注,有學者相繼撰寫了書評。(8)陳煒湛: 《關於殷墟甲骨文的兩個基本數字》,《中國文物報》2003年1月3日第7版(學術研究欄);孫亞冰: 《〈新編甲骨文字形總表〉簡評》,《中國史研究動態》2003年第5期。

這部《新編甲骨文字形總表》,實際上只是甲骨文電子資料庫的一個副産品而已,同時也是甲骨文字資料入庫檢索的一把開門鑰匙。《新編甲骨文字形總表》每個部首下的甲骨文字,每個字形除了附本字表序碼之外,下面還附有《類纂》字形表的序號碼。我們都知道《類纂》上中下三册和《甲骨文字詁林》四册的字頭是同一序號,這樣我們不僅可以檢索甲骨文電子資料庫,而且同時可以檢索《類纂》和《詁林》文字内容,多两個檢索途徑,方便讀者更深入了解每一個甲骨文字各家考釋的歷史,作爲輔助資料信息。

2004年我收到美國哈佛大學一位研究商代宗教的四川籍年輕女博士的來信,感謝香港中大所建立的甲骨文電子資料庫,信中説做夢也没有想到非專業的她,竟然如此快完成了商代祭祀研究博士論文,她的論文資料主要依赖香港中文大學甲骨資料庫進行便捷檢索。我問她如何找到卜辭的祭名?她説先是通過陳夢家的《殷虚卜辭綜述》中的祭名指引,然後在甲骨資料庫中檢索祭名字詞,這样便能如願找到所需資料。這封普通的來信,却有着並不普通的信息,説明七年來我們建立的甲骨資料庫獲得了成功,已經受到海外學界關注,不僅嘉惠專業學者,對不同專業也開始施惠。

23年過去了,回想我們1990年代初建立甲骨文資料庫,披荆斬棘一路走來,幾經波折,遇到許多電腦技術上的障礙,困难超出我們的想象。21世紀電子科技有了翻天覆地的進步,如今海内外不少院校都在建立甲骨文字電子資料庫,我相信比起23年前香港中大甲骨文資料庫在技術上會更成熟;隨着社科院、故宫等甲骨資料的不断整理刊布,甲骨文資料庫的增補也會越來越完備。現在,香港中大甲骨電子資料庫已增加至9部大型甲骨書籍,輸入甲骨總計67 683片。但是,建立智能甲骨文資料檢索,仍還有許多方面的功能有待開發,需要我們做好坐冷板凳的決心。

當下各院校紛紛建立電子甲骨資料庫,如上海華東師範大學、河南大學等,臺灣、香港中大等地。我們不禁緬懷78年前唐蘭先生創立的“甲骨自然分類法”的理論,他所産生的後續影響與重要價值,對於古文字學的推廣與普及都貢獻巨大。這种檢索甲骨文字的便捷方法,受到初入門的海内外甲骨學者,尤其是書法爱好者的極大欢迎,如今已經越來越得到學界認可和應用。隨着科技發展進步,我們相信電子甲骨文資料檢索功能會越來越完善進步。

附記: 本文曾於2019年10月18—19日在河南安陽舉辦的“紀念甲骨文發現120周年國際學術研討會”上宣讀。

猜你喜欢
資料電子部首
IQ Test
弄清偏旁与部首
The Apple of Their Eye
Big Jim
电竞种植记
统计资料
系在绳上的“冬”
电子F1
同部首的字