蛤文化維基_從維基文化看我國詞表建設(shè)
發(fā)布時(shí)間:2020-03-07 來源: 幽默笑話 點(diǎn)擊:
〔摘要〕通過匯總我國詞表建設(shè)歷史成果,結(jié)合當(dāng)前信息技術(shù)發(fā)展新趨勢(shì),系統(tǒng)地剖析維基百科迅速發(fā)展壯大的原因;提出在維基百科開放與協(xié)同工作的理念上,規(guī)劃我國詞表的宏觀管理、多渠道來源加工體系以及詞表結(jié)構(gòu)設(shè)計(jì),由此構(gòu)建出我國全新的詞表建設(shè)總體框架,設(shè)計(jì)詞表建設(shè)及其應(yīng)用服務(wù)的全新模式,并指出若干重點(diǎn)領(lǐng)域的應(yīng)用示范。
〔關(guān)鍵詞〕詞表 Wiki 維基百科
〔分類號(hào)〕N99
The Chinese Thesaurus Construction ――From Point of View of Wiki Culture
Liang Bing Qiao Xiaodong
Institute of Scientific and Technical Information of China, Beijing 100038
〔Abstract〕This paper firstly introduces the great achievements of thesaurus building in China. Then, by referring to the new information technology development, it analyzes the reasons of rapidly development of wikipedia and puts forward that we should make Chinese thesaurus?management plan, create Multi-channet sources process system and design the structure of thesaurus. Based on that, the paper lastly presents the new thesaurus building framewort, designs, the new model of thesaurus building, application and service, and gives some applications of this model in several important fields.
〔Keywords〕thesaurus wiki wikipedia
Wiki[1-2]是一種超文本系統(tǒng),相比較以往的虛擬論壇,它具備獨(dú)特的性質(zhì):系統(tǒng)架構(gòu)開放;信息反應(yīng)及時(shí);鼓勵(lì)知識(shí)融合;強(qiáng)調(diào)協(xié)作創(chuàng)新。在新一代互聯(lián)網(wǎng)絡(luò)模式興起之時(shí),Wiki作為Web2.0技術(shù)的代表之一,其最成功的案例就是維基百科辭典的建設(shè),共完成109種語言97萬條目的內(nèi)容建設(shè),且用了不到4年時(shí)間。而我國《中國大百科全書》74卷收錄條目近8萬個(gè),先后組織專家學(xué)者近2萬名,從1978-1993年歷經(jīng)10余年才編撰完成。從技術(shù)角度來看,維基百科并不是一種復(fù)雜的技術(shù),創(chuàng)新之處在于改變?nèi)伺c人之間的協(xié)作方式,更新了人們獲取、處理和傳播知識(shí)的途徑。以維基為代表的新一代互聯(lián)網(wǎng)知識(shí)建設(shè)重點(diǎn)在于其架構(gòu)的開放性,并且所有人都可以參與到知識(shí)組織與建設(shè)中。它真正給人們帶來的是思維方式、知識(shí)傳播以及認(rèn)知方式上的強(qiáng)烈沖擊。
對(duì)照維基詞表發(fā)展歷程回顧我國漢語詞表建設(shè),雖然在上個(gè)世紀(jì)我國漢語詞表建設(shè)取得了豐碩的成果[3],但是由于詞表系統(tǒng)研究處于行業(yè)封閉狀態(tài),研究成果沒得到廣泛地應(yīng)用。以下根據(jù)當(dāng)前信息技術(shù)的發(fā)展趨勢(shì),并吸取維基文化的開放與協(xié)作特點(diǎn),提出我國新一代詞表建設(shè)的結(jié)構(gòu)性框架,并指出部分重點(diǎn)領(lǐng)域應(yīng)用示范。
1我國詞表建設(shè)成果及現(xiàn)狀
由表1可以看出,建國以來,特別是在上世紀(jì)80、90年代,詞表建設(shè)蓬勃發(fā)展,眾多行業(yè)積累了豐富的建設(shè)成果。但是從另外一個(gè)角度來分析,當(dāng)詞表建設(shè)的熱潮期,我國計(jì)算機(jī)技術(shù)水平還很薄弱,很多建設(shè)成果沒有數(shù)字轉(zhuǎn)化或者不適合將來的數(shù)字化,極大地影響了成果共享和應(yīng)用。此外,這些傳統(tǒng)的詞表主要依靠詞組編纂委員會(huì)做系統(tǒng)升級(jí)和維護(hù),大量詞表只能作為印刷書籍出版,不利于網(wǎng)絡(luò)化、數(shù)字化傳播與使用,沒有統(tǒng)一的維護(hù)工具。
在日益重視知識(shí)組織與知識(shí)服務(wù)的背景下,我國的詞表建設(shè)變成了熱點(diǎn)。但當(dāng)前詞表建設(shè)還面臨很多問題:①詞表建設(shè)資金投入嚴(yán)重不足,僅依靠某個(gè)行業(yè)對(duì)詞表建設(shè)是不夠的,況且還不能做到持續(xù)性投資;②上個(gè)世紀(jì)的詞表建設(shè)成果沒有數(shù)字化、網(wǎng)絡(luò)化加工處理,存在著自動(dòng)化,網(wǎng)絡(luò)化時(shí)使用困難,造成資源浪費(fèi);③各個(gè)行業(yè)依靠各自技術(shù)實(shí)力推行詞表,沒有統(tǒng)一標(biāo)準(zhǔn),為今后詞表的共建共享造成障礙,使得跨行業(yè)詞表無法使用,盡管眾多研究學(xué)者都在研究跨行業(yè)、跨平臺(tái)詞表的共享技術(shù),但是不具備標(biāo)準(zhǔn)規(guī)范下的眾多詞表,必然會(huì)給今后的共建共享帶來巨大的障礙;④當(dāng)前很多單位的詞表建設(shè)往往當(dāng)作一個(gè)工程項(xiàng)目來實(shí)施,造成后續(xù)維護(hù)、更新能力差,跟不上了實(shí)際詞匯發(fā)展。
2新時(shí)期詞表的建設(shè)與應(yīng)用
雖然我國詞表建設(shè)在上個(gè)世紀(jì)取得了重大的階段性成果,但是現(xiàn)存的詞表已不能滿足人們的需要,也不能適應(yīng)新時(shí)期網(wǎng)絡(luò)化、數(shù)字化和智能化的新要求。因此需要在新形勢(shì)下重新規(guī)劃我國詞表建設(shè)。
維基百科從開始創(chuàng)立到形成規(guī)模,只有幾年的時(shí)間,這不是因?yàn)榫S基百科使用了先進(jìn)的技術(shù),而是采用了與以往不同的理念:①強(qiáng)調(diào)系統(tǒng)的開放性,允許廣大人員的參與;②制訂了標(biāo)準(zhǔn)規(guī)范的模版,方便各種層次人員協(xié)同創(chuàng)作,系統(tǒng)目標(biāo)性明確;③維基百科是一個(gè)持續(xù)建設(shè)的項(xiàng)目,隨著社會(huì)發(fā)展進(jìn)步而不斷更新。可以說,維基百科為我國詞表建設(shè)提供了一個(gè)標(biāo)志性的典范。
2.1國家政策導(dǎo)向和宏觀規(guī)劃
漢語詞表的建設(shè)、開發(fā)應(yīng)該作為一種國家行為來研究。在當(dāng)前信息社會(huì)和數(shù)字化生存時(shí)代,對(duì)待我國民族語言詞匯的收集、整理、保護(hù)和開發(fā)應(yīng)該提高到一定的高度來認(rèn)識(shí),政府要像對(duì)待國土資源、森林資源、水資源、中國基因資源等一樣看待我國漢語詞匯資源。對(duì)于詞表的建設(shè),國家應(yīng)該從政策上考慮:
●制定宏觀建設(shè)、管理和運(yùn)行制度,協(xié)調(diào)與引導(dǎo)各單位、各行業(yè)對(duì)詞表共建共享,為共建及共享提供良好管理流程。
●在投資上,注意建設(shè)的領(lǐng)域和布局,避免盲目投資與重復(fù)建設(shè),支持重點(diǎn)建設(shè),并大力促進(jìn)標(biāo)準(zhǔn)化及成果共享。
●適當(dāng)選取若干前沿領(lǐng)域重點(diǎn)支持詞表工程的應(yīng)用,以點(diǎn)帶面,全面推進(jìn)詞表建設(shè)和應(yīng)用步伐,使得兩者協(xié)調(diào)發(fā)展,互為促進(jìn)。
2.2多技術(shù)、多來源的詞表建設(shè)體系
任何階段的詞表建設(shè)都與當(dāng)時(shí)技術(shù)條件、科學(xué)環(huán)境有著密切關(guān)系,在科學(xué)技術(shù)飛速發(fā)展的今天,需要多種來源和多種技術(shù)相結(jié)合進(jìn)行詞信息構(gòu)建,主要有以下幾個(gè)途徑:
●充分融合當(dāng)前已有的詞表建設(shè)成果。上個(gè)世紀(jì)80、90年代,我國各行業(yè)紛紛建立了自己的詞表庫,由于當(dāng)時(shí)條件所限,很多成果并不適應(yīng)當(dāng)前數(shù)字化、網(wǎng)絡(luò)化的環(huán)境。新時(shí)期進(jìn)行詞表建設(shè)時(shí),首先應(yīng)該在眾多已有詞表建設(shè)成果中挑選具有代表性的涵蓋全面的詞表系統(tǒng),將其納入新詞表體系之中。
●充分重視當(dāng)前語料庫建設(shè)(包括網(wǎng)絡(luò)文本信息,書籍報(bào)刊文本信息等),依靠其所建立的語言統(tǒng)計(jì)模型對(duì)海量語料庫信息進(jìn)行自動(dòng)漢語分詞處理,做到詞匯挖掘和新詞發(fā)現(xiàn)。
●跟蹤特定領(lǐng)域形成的詞匯,將其加工、處理并納入詞表體系。例如科學(xué)技術(shù)論文中包括的關(guān)鍵詞,都是包含各領(lǐng)域前沿和重點(diǎn)的詞匯,對(duì)它們重點(diǎn)收錄、處理與分析,對(duì)于科技發(fā)展動(dòng)態(tài)以及交叉學(xué)科的發(fā)展具有重要指導(dǎo)作用。
●充分吸取維基百科的建設(shè)理念,建立開放的平臺(tái),供社會(huì)團(tuán)體甚至個(gè)人添加或修改詞表內(nèi)容。采用一個(gè)開放的平臺(tái)不僅為資源建設(shè)加入了眾多人力資源,還為詞表建設(shè)提高了社會(huì)影響力,將詞表建設(shè)納入持續(xù)發(fā)展的軌道。
2.3技術(shù)先進(jìn)、內(nèi)容豐富的詞表結(jié)構(gòu)設(shè)計(jì)
良好的詞表結(jié)構(gòu)和內(nèi)容設(shè)計(jì)關(guān)系著詞表使用前途與社會(huì)效益,應(yīng)全面加以研究及評(píng)估,主要包括:
●詞表應(yīng)采用分類法和主題詞法一體化的架構(gòu),既能按照學(xué)科分類為基礎(chǔ),對(duì)詞的概念從總到分,層層隸屬的組織和排列,形成上下級(jí)隸屬關(guān)系與同級(jí)概念并列關(guān)系的體系結(jié)構(gòu);還能在揭示內(nèi)容以及檢索分析時(shí),根據(jù)邏輯概念和知識(shí)分類進(jìn)行有效關(guān)聯(lián)。
●詞表內(nèi)容設(shè)計(jì)中應(yīng)包含多種語言詞匯的對(duì)照與映射關(guān)系。在建立中文詞內(nèi)部邏輯關(guān)系時(shí)(如同義、反義、邏輯關(guān)系),同時(shí)也完成其他語種的對(duì)應(yīng)鏈接工作及語義級(jí)邏輯的歸納。
●將本體研究技術(shù)與詞表建設(shè)相結(jié)合,通過本體的概念和角色的規(guī)范化與結(jié)構(gòu)化,為詞表提供類屬視圖及結(jié)構(gòu)化模式[4]。此外,針對(duì)當(dāng)前已存在的一體化兼容詞表的類目與主題詞,建立規(guī)范的邏輯轉(zhuǎn)換。
●規(guī)劃多項(xiàng)輔助詞表的建設(shè),完善禁用詞、關(guān)鍵詞、同義詞和反義詞等多種詞表工具;并且建立完備的多種索引機(jī)制,提高詞表的使用性能與效率。
●全面設(shè)計(jì)詞表的接口,做到標(biāo)準(zhǔn)化、模塊化。詞表的接口設(shè)計(jì)完備,既可以方便用戶從高層應(yīng)用角度訪問詞表內(nèi)容,又可以將自身作為一個(gè)工具或組件嵌入到其他項(xiàng)目業(yè)務(wù)應(yīng)用領(lǐng)域中,完成業(yè)務(wù)級(jí)底層調(diào)用。
2.4詞表的應(yīng)用與維護(hù)體系建設(shè)
現(xiàn)代詞表是一個(gè)不斷建設(shè)和發(fā)展的事物,是一個(gè)集成―服務(wù)―再集成―再服務(wù)的循環(huán)過程,詞表永遠(yuǎn)沒有建設(shè)完畢的時(shí)刻,期待詞表建設(shè)完畢再向社會(huì)提供服務(wù)是不切實(shí)際的,它不是某一項(xiàng)具體工程建設(shè)任務(wù),需要持續(xù)地建設(shè)和發(fā)展。詞表的運(yùn)行服務(wù)體系如圖1所示:
圖1 詞表應(yīng)用服務(wù)平臺(tái)體系結(jié)構(gòu)
由圖1可見,詞表應(yīng)用服務(wù)分為詞表加工,服務(wù)系統(tǒng)平臺(tái)和詞表應(yīng)用三個(gè)部分,主要遵從以下要點(diǎn):
●構(gòu)建維基式的開放詞表服務(wù)平臺(tái),面向社會(huì)團(tuán)體和個(gè)人開放,系統(tǒng)通過維基詞表類似的權(quán)限管理系統(tǒng)與版本恢復(fù)機(jī)制完成對(duì)詞表內(nèi)容的版本維護(hù)。除此之外,系統(tǒng)可以依托計(jì)算機(jī)信息處理技術(shù)發(fā)展,對(duì)于語料庫及科技論文關(guān)鍵詞等特定信息源數(shù)據(jù)作批量轉(zhuǎn)換處理,由此構(gòu)成的詞表信息庫全部面向互聯(lián)網(wǎng)開放,接受社會(huì)團(tuán)體或個(gè)人的維護(hù)。
●在新的詞表應(yīng)用服務(wù)平臺(tái)體系結(jié)構(gòu)下,詞表庫結(jié)構(gòu)設(shè)計(jì)應(yīng)該全面,內(nèi)容布局合理,具有明確的分類和索引。
●充分保護(hù)已有的詞表建設(shè)成果,開發(fā)專用的轉(zhuǎn)換器,將其納入到新詞表體系中。
●充分采用信息處理技術(shù)的最新研究成果,通過學(xué)術(shù)論文關(guān)鍵詞處理加工、語料庫詞匯統(tǒng)計(jì)技術(shù)、人工智能分詞技術(shù)[5-6],引入新詞并全面構(gòu)建詞間的邏輯關(guān)系。
●在詞表的應(yīng)用中,系統(tǒng)將提供兩種接口:一種是高層的web應(yīng)用,該接口可以使其他的web應(yīng)用系統(tǒng)隨時(shí)調(diào)用當(dāng)前詞表平臺(tái)的服務(wù);另外一種是底層的嵌入式工具,詞表系統(tǒng)應(yīng)開發(fā)一個(gè)組件式底層嵌入工具,將詞表工具無縫地嵌入到其他應(yīng)用服務(wù)系統(tǒng)的業(yè)務(wù)處理流程中,從而為詞表的廣泛應(yīng)用提供堅(jiān)實(shí)的技術(shù)支持。
2.5 詞表的重點(diǎn)應(yīng)用領(lǐng)域
詞表的建設(shè)與應(yīng)用應(yīng)該是同步的,只有這樣才能使詞表不斷發(fā)展壯大,在不斷完善服務(wù)的同時(shí)還能擴(kuò)大社會(huì)影響力。因此,進(jìn)行詞表建設(shè)的同時(shí)還要重點(diǎn)開發(fā)其在若干領(lǐng)域的應(yīng)用,以引起國家和社會(huì)各部門的關(guān)注,只有這樣,眾多行業(yè)才能相繼聚攏在統(tǒng)一的平臺(tái)下。詞表建設(shè)不是信息情報(bào)分析部門的責(zé)任,而是社會(huì)各行業(yè)的共同責(zé)任。詞表應(yīng)該優(yōu)先完成以下領(lǐng)域的應(yīng)用示范:
●每年定期發(fā)布各個(gè)科技研究領(lǐng)域或者相關(guān)行業(yè)的熱點(diǎn)主題詞和最新產(chǎn)生的詞匯。
●定期根據(jù)主題詞的演變過程歸納重點(diǎn)行業(yè)的科技發(fā)展研究趨勢(shì)。
●開發(fā)詞表底層應(yīng)用組件,按行業(yè)、領(lǐng)域定制組合,可方便地嵌入到各個(gè)行業(yè)知識(shí)檢索與知識(shí)管理中,這關(guān)系著詞表能否真正產(chǎn)生社會(huì)效益。
●建立詞表的高層集成加工平臺(tái),方便各個(gè)行業(yè)團(tuán)體或個(gè)人的協(xié)作開發(fā)建設(shè),為社會(huì)團(tuán)體、企業(yè)提供共建共享服務(wù)。
3結(jié)語
Wiki不是深?yuàn)W的技術(shù),而它的深刻內(nèi)涵是將一群平常的人聚合在一起,做成了不平常的事情。同理,在詞表建設(shè)過程中亦是如此。
詞表建設(shè)是一項(xiàng)國家基礎(chǔ)性建設(shè)工程,是我國自主駕馭漢語知識(shí)能力強(qiáng)弱的里程碑,它的建成對(duì)于我國科學(xué)技術(shù)研究、社會(huì)文化研究都將產(chǎn)生難以估量的重大影響。但是應(yīng)該清楚地看到:建成具有全面設(shè)計(jì)體系,完善管理功能,自主運(yùn)行能力的一整套漢語詞表體系工程需要政府、研究機(jī)構(gòu)、企業(yè)等眾多社會(huì)機(jī)構(gòu)的參與,這是一項(xiàng)龐大的系統(tǒng)工程,需要政府以及全社會(huì)站在國家和民族利益的高度來衡量與規(guī)劃,也只有這樣才能使?jié)h語詞表真正得以順利持久地建設(shè),并將對(duì)我國信息化建設(shè)產(chǎn)生巨大的推動(dòng)作用。
參考文獻(xiàn):
[1] 陳立.Wiki:網(wǎng)絡(luò)時(shí)代協(xié)同工作與知識(shí)共享的平臺(tái).中國信導(dǎo)報(bào),2005(1):51-54.
[2] 李綱.基于Wiki的組織內(nèi)部知識(shí)共享.江西社會(huì)科學(xué),2006(7):50-53.
[3] 常春.敘詞表編制歷史、現(xiàn)狀與發(fā)展.農(nóng)業(yè)圖書情報(bào)學(xué)刊.2002 (5):25-28.
[4] 張哲.利用本體和主題詞表的集成構(gòu)造RDF模式.微機(jī)發(fā)展.2004,14(3):87-92.
[5] 黃科.基于統(tǒng)計(jì)分詞的中文網(wǎng)頁分類.中文信息學(xué)報(bào).2002,16(6):25-31.
[6] 張永奎.基于機(jī)器學(xué)習(xí)的網(wǎng)頁主題詞自動(dòng)抽取.計(jì)算機(jī)應(yīng)用.2003, 23(3):1-3.
〔作者簡介〕 梁冰,男,1974年生,工程師,發(fā)表論文10篇;
喬曉東,男,1964年生,研究員,發(fā)表論文30余篇。
相關(guān)熱詞搜索:詞表 看我 建設(shè) 從維基文化看我國詞表建設(shè) 維基百科特點(diǎn)分析 維基百科中文網(wǎng)站
熱點(diǎn)文章閱讀