古籍文本 [古籍文本抽詞研究]

發(fā)布時間:2020-03-07 來源: 日記大全 點擊:

  [摘要]古籍文本檢索目前大多局限于篇、章及目錄,即使是全文檢索一般也是基于單漢字的檢索,由于沒有現(xiàn)成的古籍詞表可用,古籍文本的標(biāo)引和檢索效率都受到了影響,F(xiàn)將常用于處理現(xiàn)代文本的N元紐法移植到古籍文本中進(jìn)行實義詞提取,試驗步驟包括:自動分詞并統(tǒng)計詞頻;利用抽詞詞典和停用詞詞典得到候選詞匯;通過簡單計算對n元組進(jìn)行剔除過濾;人工判別提取實詞。試驗從古籍文本《齊民要術(shù)》中提取普通語詞和專有名詞(包括書名、地名、人名官職名)3000多個,表明此試驗方案基本可行。
  [關(guān)鍵詞]古籍?dāng)?shù)字化 N-gram 自動分詞 實義詞
  [分類號]G252.7
  
  1 引 言
  
  “古籍”是“古書”的雅稱,國家標(biāo)準(zhǔn)的《古籍著錄規(guī)則》給的定義主要是指1912年以前在中國書寫或印刷的、具有中國古典裝訂形式的書籍,往往具有重要的史料價值和文化價值。由于古籍文獻(xiàn)跨國界、跨地區(qū)收藏,所藏種類、數(shù)量,版本、特色各有不同,各館藏又有“重藏輕用”偏向,嚴(yán)重地影響了古籍文獻(xiàn)的利用與開發(fā)。
  為方便查找和利用古籍文獻(xiàn),在20世紀(jì)80年代初臺灣“中央”圖書館率先開始了將館藏善本制成機(jī)讀目錄的工作。如今古籍?dāng)?shù)字化工作已取得一定的成果,如《史記》全文檢索系統(tǒng)、《紅樓夢》全文數(shù)據(jù)庫索引、《論語》逐字索引等等。目前這些古籍文獻(xiàn)的標(biāo)引和檢索只限于篇、章、目錄和單漢字層次,本文嘗試從古籍文本的表征及內(nèi)容特征出發(fā),抽取實義詞(包打普通語調(diào)和書名人名等專有名詞),為實現(xiàn)古籍文本標(biāo)引和檢索從單漢字層次向詞、概念層次的過渡作前期準(zhǔn)備。
  
  
  2 從古籍文本中抽詞的意義
  
  本試驗抽取的實義詞可用于以下兒個方面:
  用來編制或完善各種詞表。如完善各種書名目錄、地名表、人名表、官職名表、作物名表等,對語詞規(guī)范化可用來編制古籍?dāng)⒃~表(敘詞表是將相近或相似意義的詞排在一起成簇的名冊),從而用于標(biāo)引古籍文獻(xiàn)。因此本試驗對于構(gòu)建和完善古籍詞典、敘詞表,標(biāo)引古籍文獻(xiàn)都有著重要的意義。
  用來編制索引。索引的功能首先是揭示文獻(xiàn)內(nèi)容和標(biāo)引文獻(xiàn)地址,進(jìn)而獲取所需文獻(xiàn);功能之二是獲取利用知識所體現(xiàn)出的選題導(dǎo)向功能。通過索引還可以了解到某些章節(jié)的重要程度。
  應(yīng)用于古籍全文檢索系統(tǒng)、圖像檢索系統(tǒng),將現(xiàn)有古籍檢索系統(tǒng)逐字匹配的模式改進(jìn)全基于詞的層而,從而提高檢索的查全查準(zhǔn)率。
  
  用來編纂整理古籍文獻(xiàn),如資料匯編類,可以將關(guān)于某一方面的文獻(xiàn)集中在一起,便于查閱專題文獻(xiàn)。
  
  3 古籍文本自動抽詞處理步驟
  
  本文選擇《齊民要術(shù)》一書作為試驗文本,采取計算機(jī)輔助切詞,詞頻統(tǒng)計,并結(jié)合停用詞詞典和抽詞詞典提取出候選詞匯,然后進(jìn)一步采用機(jī)器剔除過濾操作,最后進(jìn)行人工判別處理,從而得出一批實義詞和專有名詞,具體流程見圖1。研究重點在于試驗現(xiàn)代文本中常用的分詞方法、詞頻統(tǒng)計方法和詞條過濾模式轉(zhuǎn)嫁至古籍文本的方案的可行性。
  
  3.1 對文檔進(jìn)行預(yù)處理
  將《齊民要術(shù)》一書從中國古籍基本數(shù)據(jù)庫上下載并全部轉(zhuǎn)換成文本形式,進(jìn)行繁簡轉(zhuǎn)換,統(tǒng)一全半角,提高切詞的速度和準(zhǔn)確度。
  
  3.2 自動切詞,詞頻統(tǒng)計
  《齊民要術(shù)》一書共有10萬多字,本試驗將其分成多個文本文件,以便提高分詞速度。接著用N-gram算法對文本文件進(jìn)行切分并統(tǒng)計詞頻(根據(jù)漢語成詞的規(guī)律,古籍中普通語詞詞長一般在1-3字左右,書名等專有名詞為3-6字,故本試驗系統(tǒng)中N取值為6),結(jié)果保存在“切分詞表”中。例如:“衛(wèi)詩曰山有蓁”(此字串串長為6,則最大為6字字串),切分后得到的字符串稱之n(n=1。2…6)元組:
  1元組:衛(wèi)(6)/詩(62),曰(1173)/山(130)/有(658)/蓁(2)
  2元組:衛(wèi)詩(5),詩曰(24)/曰山(4),山有(16)/有蓁(1)
  6元組:衛(wèi)詩曰山有蓁(1)
  其中,括號內(nèi)的數(shù)字為該字符串在文本中出現(xiàn)的頻次。
  文檔經(jīng)過預(yù)處理以后,《齊民要術(shù)》一書共切分出428 731個詞條。
  
  3.3 利用詞典過濾篩選
  對文本N元切分后,利用二分查找算法將“切分詞表”中的字符串分別與抽詞詞典(包括書名詞典、地名詞典、人名官職名詞典)和排除詞詞典(虛詞、數(shù)詞、量詞、限定詞組成的停用詞典)進(jìn)行匹配,將“切分詞表”中的書名、人名和官職名、地名及對應(yīng)的詞頻分別讀入“書名表”、“人名官職名表”、“地名表”中,將含停用詞典中字或詞的記錄讀人“停用詞表”中,其余記錄則讀入“備選詞串表”中。
  
  3.3.1 單獨抽出書名、人名、官職名、地名假定有現(xiàn)成的書名詞典、地名詞典、人名官職名詞典作為抽詞詞典,將“切分詞表”中的專有名詞提取出來并讀人對應(yīng)的“書名表”、“人名官職名表”、“地名表”中,不再參與以下詞條過濾的操作,從而減少數(shù)據(jù)比較的次數(shù)。如上例2元組中的“衛(wèi)詩”,作為書名直接被讀入“書名表”。利用抽詞詞典從“切分詞表”中提取書名199個,人名和官職名86個,地名110個,共計395個。
  3.3.2 過濾含功能詞的詞條功能詞即構(gòu)詞能力低,在文本中成詞可能性小,而出現(xiàn)頻率較高的詞,一般為以下幾種詞型:介詞(于、乎、將)、代詞(爾、彼)、疑問詞(誰、孰)、副詞(甚、少)、連詞(而、雖)、語氣詞(哉、矣)、限定詞(這、某)、數(shù)詞(一、十)、標(biāo)點及不可識別的詞。用這些功能字構(gòu)建停用詞典,將“切分詞表”中所含有這些功能字的n元組全部過濾掉,共過濾掉此類詞匯324 000條,占n元組的75.6%,也即是將詞條過濾掉3/4,大大減少了后面手工判別的工作量。
  將地名、人名官職名、書名分別列成表,可編制成專有名詞索引;含停用詞典中字詞的字符串基本都沒實義,所以它所在的記錄被讀入“停用詞表”中并直接被過濾掉,其余記錄記入“備選詞串表”作為候選詞。
  上例1-6元組經(jīng)上述兩步處理后,1元組中的“詩(62)”和2元組中的“衛(wèi)詩(5)”因是抽詞詞典中的書名被讀入“書名表”1元組中的“衛(wèi)(6)”“山(130)”“蓁(2)”是實詞,記錄在“備選詞串表”中;其余n元組的字串因含停用詞詞典中的詞而被詼入“停用詞表”,直接被過濾掉。
  
  3.4 去除4、5、6元組
  經(jīng)過切詞、詞典過濾后,《齊民要術(shù)》一書得到的n元組情況統(tǒng)計,如表1所示,
  
  采用無詞典分詞法,得到的非真實詞條是非常多的(約占92.29%),是真實詞條的12倍左右。筆者將切分出的n元組(n=1,2……6)進(jìn)行比較分析后發(fā)現(xiàn):當(dāng)n>4時,切出的字符串除書名、地名、人名官職名外基本上很少有具體實義的詞。所以將“備選詞串表”中的4、5、6元組去除,其他記錄存入“詞串合并表”(共81 222條),參與下文過濾。
  
  3.5 字串類型分析   將n元組合并后,字串形式各異,大致可將這些字串分為以下幾種類型:
  類型1:利用抽詞詞典已經(jīng)提出的人名官職名、地名、書名。如“搜粟都尉”、“爾雅”,“建安郡”等,這些詞匯可直接作為專有名詞應(yīng)用于編制索引、詞典等。
  類型2:詞段組合型。詞段組合指的是在得到一個長詞條的同時,會得到很多相應(yīng)不表達(dá)任何意義或不能表達(dá)完整詞義的短詞條組合。比如:“雜陰”、“西京”分別是“雜陰陽書”、“西京雜記”被割裂的一部分,詞義被隔裂,無法表達(dá)原有的意義。這類詞條與其相應(yīng)的真實詞條的詞頻相同或相近。
  類型3:用停用詞典未能過濾的其他停用詞匯。由于上述過濾工作使用的是常用停用詞詞典,不是很完善,因此還剩下大量虛詞、數(shù)詞、連詞、介詞、副詞、量詞、形容詞等構(gòu)成的詞匯,這些詞的功能都不大,沒多少實際意義,如“千枚”、“兩邊”等。
  
  類型4:人名、地名、姓、國別、官職名、別名等。因為使用的抽詞詞典不是很齊全完善,有些人名官職名等專有名詞還保留著,如:“趙”、“漢武帝”、“神農(nóng)”等。
  類型5:不相干組合型。由兩個或多個被割裂的字串組成的字符串,如“芋大”、“皮胡芹”,這類詞條由于是割裂的字串偶然連在一起而被算法提取出來,沒有實際意義,詞頻往往很低,絕大多數(shù)詞頻為1,少數(shù)詞頻為2以上。
  類型6:橫組合詞匯。由兩個或多個詞組合成的詞組。如“拔去”、“劉欣期交州記”、“橘皮胡芹小蒜”。這類詞基本上都屬4元組及以上的字串,其子串包含了一部分新詞。
  類型7:不可識別的字詞。如“易”、“音感竹”、“力口反”,古籍文獻(xiàn)原文以繁體存在,在轉(zhuǎn)化為電子文檔時由于繁簡詞庫的限制,有許多繁體字不能識別,同時將N元組保存在Access數(shù)據(jù)庫時也有部分字詞識別不了,用“?”代替或以日韓文形式存在,這些字詞都需刪除。
  
  3.6 簡單計算過濾詞條及人工判別選詞
  對于類型1的專有名詞可直接應(yīng)用不必參與以下的過濾操作;
  類型5中不相干組合型的詞串(低頻次),可根據(jù)它們的頻率排除掉頻率為1的,共69841條,占“詞串合并表”中81222條記錄的86%,可見此操作處理了“詞串合并表”中一半以上的無用數(shù)據(jù),大大減少了后面手工操作的工作量;
  類型7中不可識別的字詞因不可將其還原成繁體字或轉(zhuǎn)化成可識別的詞,所以將“詞串合并表”中的字段term按升序或降序排列直接將其刪除(共230條),余下11 151條記錄參與下列計算過程的篩選。
  3.6.1 N元重疊的等頻剔除對于類型2的詞段組合型詞條,從余下n元組集合中發(fā)現(xiàn)大部分作物名、動物名滿足這個規(guī)律:若n元組片斷x包含在更長的n元組作物名動物名Y中,freq(X)=freq(Y)。因此,利用此規(guī)律運用算法,將n元組x刪除,如:x“檳15”Y“檳榔15",x“茱17”Y“茱萸17”freq(X)=freq(Y),則將x剔除。此法過濾掉1024條記錄,保留的基本都是作物名或動物名。例如:茱(17),茱萸(17);摩(8),愿鹿(8)。其中,括號內(nèi)的數(shù)字是詞頻。
  利用此規(guī)律時,發(fā)現(xiàn)過濾掉的1024條記錄相對于11151個候選詞條,只占9%的比例,根據(jù)現(xiàn)代文本利用N-gram算法提取未登錄詞的文章分析,筆者認(rèn)為這么低的比例是由于文本數(shù)據(jù)量不夠大所致。統(tǒng)計學(xué)的一般規(guī)律是統(tǒng)計的數(shù)據(jù)量越多得出的結(jié)果才會越明顯,10萬字的文本對于機(jī)器自動分詞是已足夠,但對于詞頻統(tǒng)計規(guī)律所需的數(shù)據(jù)量還是不足,不能明顯呈現(xiàn)出優(yōu)勢,這是本試驗所選文本不足之處。
  3.6.2 計算詞的置信度進(jìn)行詞條過濾此時剩下的10 127條記錄采用傅賽香基于統(tǒng)計的無詞典分詞模型中計算詞的置信度來過濾候選集。定義和方法如下:
  已知詞條w1的出現(xiàn)頻率為sup(w1),詞條w2的頻次為sup(w2),詞條w=w1+w2的頻次為sup(w),則詞條w1相對于詞條w來說,詞的置信度為
  eonf(w1/w)=(sup(w1)-sup(w))/sup(w1)
  同樣可知詞條w2相對于詞條w的置信度。
  定理:如果詞條w1相對于詞條w的置信度小于閾值a(a>0),則認(rèn)為詞條w是真實詞條的可能性比w1大,從候選集中去掉w1詞條;如果詞條w1相對于詞條w的置信度大于闔值β(β>0),則認(rèn)為詞條w1是真實詞條的可能性比w大,從候選集中去掉w詞條;如果詞條w1相對于詞條w的置信度大于閾值a且小于闔值β,則保留兩個詞條。
  利用此詞條過濾模式對試驗進(jìn)行處理時,發(fā)現(xiàn)閾值a和β的選擇對處理的結(jié)果有很大的影響,試驗了三種閾值不同的取值方法,程序執(zhí)行的結(jié)果如下:
  筆者比較了闔值a和β取以上不同值時的處理結(jié)果集,將term字段按拼音升序排列,從表頭各取樣本100條記錄,然后將各樣本進(jìn)行人工判別選擇語詞,得出:
  a=0.1,β=0.9時,100條記錄樣本過濾出實義詞32個(占樣本集的32%);
  a=0.2,β=0.8時,100條記錄樣本中過濾出30個實義詞(占樣本集的30%);
  a=0.3,β=0.7時,樣本中篩選出24個語詞(占樣本集的24%)。
  對這三個樣本進(jìn)行手工處理篩選語詞需要有統(tǒng)一的標(biāo)準(zhǔn),也即參照系,本試驗是用前一步等頻過濾的結(jié)果10 127條記錄中,選取前300條進(jìn)行人工操作挑出的語詞,作為對100條記錄樣本處理的參照系統(tǒng)。
  根據(jù)以上簡單抽樣測試結(jié)果,本試驗選擇閾值a=0.1,β=0.9計算詞的置信度來過濾詞條。雖然此時提取的語詞相對多而且準(zhǔn)確率相對高些,但還是有一些頻率較高的實義詞被過濾掉了,因此閾值的選取,要通過更多次的試驗比較才會保證處理結(jié)果的準(zhǔn)確度,降低剔除過程中的風(fēng)險。
  3.6.3 手工判別對計算過濾處理后剩余的5730條候選記錄進(jìn)行人工判別篩選,得出實義詞2747個,圖2列出了部分語詞及其頻次的樣例。從圖中可以看出,古籍文本中提取出的實義詞基本上都是名詞,且多為動植物名稱。另外,由于書名、地名等抽詞詞典并不完善,在利用二分查找算法匹配時并不能把文本中出現(xiàn)的所有書名、地名、人名和官職名等專有名詞單獨抽出,如圖2中出現(xiàn)的“陳思王”、“漢武帝”、“南越”、“兗州”4個詞不僅是實義詞,而且是抽詞詞典沒有包含的專有名詞,由此看來,利用N-gram算法還可以提取未登錄專有名詞,這些未登錄專有名詞可用來完善對應(yīng)的書名抽詞詞典、地名抽詞詞典、人名官職名抽詞詞典。
  本試驗系統(tǒng)利用抽詞詞典從文本中抽取了395個專有名詞,人工判別篩選出2747個實義詞,因此利用n元切分法共識別出3142個語詞(包括實義詞、人名、書名、官職名、地名等)。本試驗提取的普通語詞、書名、地名、人名、官職名可用于編制各種索引,方便查找原文;同時,也可用于編制或完善古籍專有名詞表甚至敘詞表。
  
  4 結(jié)語
  
  本文是將常用于處理現(xiàn)代文本的n-gram算法、自動分詞、詞頻統(tǒng)計、n元重疊、詞條過濾等方法移植到古籍文本中提取實義詞方案的嘗試。試驗結(jié)果表明,此方案基本可行,能從古籍文本中提取出大量明確表達(dá)文獻(xiàn)主題內(nèi)容的單義詞。本文所用的切詞方法是全切分,因此,所有可能的詞匯組合都被涵蓋,語詞的提取相對全面完整;采用機(jī)器輔助操作,包括自動分詞,詞頻統(tǒng)計及利用詞典和簡單計算過濾詞條,大大減輕了手工操作的工作量,也盡量減少因人為參與所帶來的主觀因素對試驗結(jié)果的影響,保證統(tǒng)計數(shù)據(jù)的客觀性。
  但在剔除n元重疊時,由于所選的文本(10萬字左右)數(shù)據(jù)量不夠大,所以得出的統(tǒng)計規(guī)律不是非常明顯,這在一定程度上也影響了試驗結(jié)果,所以此試驗需要選擇數(shù)據(jù)量更大的試驗文本,但是試驗本身采用的是全切分方法,容易導(dǎo)致n元組數(shù)據(jù)量過大,這與利用統(tǒng)計規(guī)律剔除n元重疊所需龐大數(shù)據(jù)量的條件對立,因此試驗文本的選擇很重要。另外,在計算詞置信度的詞條過濾模式中,閾值是由多次試驗確定的,因此它對語詞的篩選有很大的影響,要想提高篩選的準(zhǔn)確度和齊全性,還需多次取值試驗并改進(jìn)閾值的確定方法。
  在客觀條件上,由于所選古籍試驗文本中有很多繁體字詞轉(zhuǎn)化成文本文件,導(dǎo)入Access數(shù)據(jù)庫過程中識別不了,因此有一部分重要語詞無法提出來。同時,本試驗的假定條件是有現(xiàn)成的專有名詞表,而目前還沒有一部非常完善齊全的古籍專有名詞表供使用,而古籍?dāng)⒃~表更是沒有出現(xiàn),所以希望能有更多單位或個人投入力量,編制或完善古籍專有名詞表甚至敘詞表,這將會帶動更多學(xué)者參與對古籍文獻(xiàn)的研究,從而推動古籍?dāng)?shù)字化的發(fā)展。

相關(guān)熱詞搜索:古籍 文本 研究 古籍文本抽詞研究 語文論述類文本閱讀 高考語文論述類文本閱讀

版權(quán)所有 蒲公英文摘 m.serialtips.com
谁有黄色毛片黄色网站,天天操美女的逼干,美女131湿影院,完美伴侣电视剧