互聯(lián)網(wǎng)資源知識本體自動構(gòu)建實證研究 本體構(gòu)建
發(fā)布時間:2020-03-10 來源: 散文精選 點擊:
[摘要]研究一種利用互聯(lián)網(wǎng)已有資源就可以自動構(gòu)建互聯(lián)網(wǎng)資源知識本體的方法,從可以讓用戶對資源添加自由分類標簽的網(wǎng)站標簽中篩選出概念,根據(jù)標簽與資源的關(guān)系,設(shè)計合理的規(guī)則,繪出概念關(guān)系網(wǎng)絡(luò)地圖,從概念關(guān)系網(wǎng)絡(luò)地圖中總結(jié)規(guī)律,分析出構(gòu)建概念之間各種級系的合理規(guī)則,編成讓計算機理解的網(wǎng)絡(luò)本體語言自動構(gòu)建互聯(lián)網(wǎng)知識本體。根據(jù)概念匹配原則,系統(tǒng)軟件可以自動套用預(yù)給的權(quán)威詞典解釋,也可自動讀取百度百科網(wǎng)站相關(guān)的概念的解釋,套入本體術(shù)語解釋數(shù)據(jù)庫。
[關(guān)鍵詞]本體 自由分類標簽 概念關(guān)系結(jié)構(gòu)圖 自動構(gòu)建
[分類號]G250
1 引言
本體是某一領(lǐng)域共享的、概念化、形式化表示的知識體系,第二代互聯(lián)網(wǎng)的發(fā)展需要大量領(lǐng)域本體作為支撐。目前領(lǐng)域本體主要依賴手工構(gòu)建,而且只包含非常少的領(lǐng)域概念,需要耗費大量的人力和時間,對于互聯(lián)網(wǎng)資源知識的本體更是無從構(gòu)建。新的詞匯和概念每天都在出現(xiàn),概念間的關(guān)系也在發(fā)生變化,所以互聯(lián)網(wǎng)資源本體構(gòu)建一定要利用軟件快速構(gòu)建,自動更新。研究快速地自動構(gòu)建互聯(lián)網(wǎng)資源知識本體不但可以節(jié)省大量的人力物力,而且是建設(shè)語義網(wǎng)的基礎(chǔ)。
2 本體自動構(gòu)建的研究現(xiàn)狀
當前,國內(nèi)外許多研究團體正在致力于本體的自動構(gòu)建方法的研究。較為成熟和流行的是基于詞典的本體半自動構(gòu)建方案,WordNet和HowNet兩部詞典都是基于世界知識分析總結(jié)后建立的電子詞典,其中記錄了比較全面的概念詞條,通常用來作為構(gòu)建本體用詞典。概念發(fā)現(xiàn)過程中進行的模式匹配和概念相似度計算,就是基于詞典進行的,對抽取的數(shù)據(jù)進行凈化處理后,將獲得一條條名詞詞組,然后以詞典為基礎(chǔ),進行字符串的匹配,從而發(fā)現(xiàn)新的概念。同時,詞典也是概念間關(guān)系發(fā)現(xiàn)的基礎(chǔ),根據(jù)詞典中已有的上下位關(guān)系、同義關(guān)系進行概念的相似度計算,從而完成本體自動構(gòu)建過程中的概念匹配過程和確定關(guān)系過程。本體術(shù)語的定義也是采用詞典的解釋作為術(shù)語定義。
對于互聯(lián)網(wǎng)資源知識本體的自動構(gòu)建,如果按上述利用詞典去構(gòu)建的方法,筆者認為還存在以下問題:①互聯(lián)網(wǎng)新知識新概念每天都層出不窮,而詞典的概念是固定的,有限的,如果靠專家人工去不斷完善詞典,實際上也不是自動構(gòu)建;②詞典對于概念間的關(guān)系描述有限,對于關(guān)系的發(fā)現(xiàn)還只限于上下位關(guān)系和同義關(guān)系的發(fā)現(xiàn),而實際應(yīng)用的本體內(nèi)存在更多的較復(fù)雜的關(guān)系”’;③利用詞典進行的相關(guān)度計算,匹配計算,相似度計算后得出概念關(guān)系會存在偏差,這樣得出的本體應(yīng)用起來就會出現(xiàn)難以被人理解的情況;④利用詞典自動構(gòu)建的本體還未能對數(shù)據(jù)源的領(lǐng)域范圍進行判斷,這影響本體自動構(gòu)建的正確率。
3 利用互聯(lián)網(wǎng)已有資源自動構(gòu)建互聯(lián)網(wǎng)資源知識本體
3.1 新觀點、新方法
自由分類可以看作“本體論的新學(xué)派”,因為自由分類法可以被看作是一種“社會化的本體,本體的構(gòu)建不需要再依賴專家,而可以從豐富的用戶數(shù)據(jù)中提取。自由分類要自動構(gòu)建和豐富本體,其關(guān)鍵是要過濾掉非形式化、不規(guī)范的標簽,篩選出正確的概念,確定概念之間復(fù)雜的層次關(guān)系,同義關(guān)系和屬性關(guān)系,并用準確的定義去描述概念。
3.2 確定本體的領(lǐng)域和范圍
只有在可以讓用戶添加自由分類標簽的網(wǎng)站才可以提供這些構(gòu)成本體的詞匯、術(shù)語和它們之間的關(guān)系。用戶添加自由分類標簽的類型有:推薦的網(wǎng)站網(wǎng)頁資源分類標簽;推薦的圖書,電影,音樂分類標簽;視頻分類標簽;博客分類標簽;論壇分類標簽;圖片分類標簽;百科知識(WIKI)分類標簽;開放存取論文分類標簽;推薦的新聞分類標簽;商品分類標簽;威客witkey標簽;用戶上傳分享文檔的標簽等。雖然自由分類標簽并沒有覆蓋所有的互聯(lián)網(wǎng)資源類別和資源,但都是用戶推薦的,有代表性的;ヂ(lián)網(wǎng)的本體構(gòu)建只需每個類別資源中的有代表性的,受歡迎的資源去構(gòu)建就行了。
3.3 列舉各領(lǐng)域中重要的術(shù)語、概念
自由分類標簽中有許多非分類詞標簽,設(shè)計軟件對以下很明顯的垃圾標簽進行過濾,例如:純標點符號、純數(shù)字、數(shù)字加中文、單個字,等等。過濾后還會剩下不少垃圾標簽,由于其字面描述亂七八糟,出現(xiàn)次數(shù)很少,因此只要對只出現(xiàn)若干次以下的標簽不予統(tǒng)計即可,這樣兩次過濾后,就得到的比較標準的概念。
3.4 本體概念的組織
如果同一資源被用戶添加了兩個不同的標簽(概念),那么就說明這兩個概念之間存在部分意義關(guān)聯(lián),也就是有某部分含義的交叉重疊或者聯(lián)系。概念之間存在同義詞、包含、層次、等級等關(guān)系,分析它們所標注過的資源集合的關(guān)系就可以分析出概念之間的關(guān)系,當兩個概念標注同一個資源時,兩個概念之間就用一根連接線連接起來,兩個概念之間連線越多就說明這兩個概念意義越相近,當兩個概念標注過的資源集合連線數(shù)達到等于較小的概念標注過的資源集合元素總數(shù)時,就說明這兩個概念集合為同義詞關(guān)系或直接包含關(guān)系。如圖1所示:
圖1中的數(shù)字94、98、99、101為不同資源的代碼,長方形為概念名稱,橢圓表示概念包含的資源的集合,概念“圖畫書”標注過的資源集合和概念“繪本”標注過的資源集合的連接線達到最大限度,說明這兩個概念為同義詞或者達到完全包含的關(guān)系。如果為同義詞的,就將它們合并為一個概念;如果為直接包含的,就把包含較少元素的概念作為包含較多元素概念的子目錄。如果一系列概念中有互相完全包含關(guān)系的,就用不同的括符表示。例如A包含B,B包含C,B包含D,D包含E,那么就用A|B[C,D(E)],表示,而且合并為一個大概念A(yù)。
把每個概念看作一個點,兩個概念之間無論有多少條連線。都簡化為一條連線,而且連線的大小與原有的連線多少有關(guān),原連線越多就越加粗表示。
這樣就處理后,就可以得出每個概念之間的關(guān)系網(wǎng)絡(luò)地圖,從而判斷它們之間的層次,等級關(guān)系。
例如,筆者從豆?網(wǎng)(http://www.省略)的數(shù)據(jù)中選擇了120本有關(guān)文學(xué)的圖書和它們被用戶添加的自由分類標簽進行研究繪圖,首先對120本圖書標上1到120的編號,這樣每個數(shù)字就代表一本圖書,對只出現(xiàn)三次以下的標簽省略掉,這樣就去掉了絕大部分非分類詞標簽,得到較為標準的概念,在每個概念后列出其標注過的圖書的編號。
兩概念(標簽)之間只有一條連線的(即兩個標簽只標注了同一本書)就省略,因為只有一條連線不足以說明兩個概念之間有包含等級關(guān)系,可能只是某用戶的偏理解。兩概念(標簽)之間只有兩條以上連線的(即兩個標簽同時標注了兩本以上的書),繪制時兩標簽簡化用一條線連接,原連線越多,簡化后的連線就越粗。兩個概念集合為同義詞關(guān)系或直接包含關(guān)系的,就把這兩個概念緊挨著繪制。這樣處理后就得到如圖2所示:
在圖2中,可以很容易看出網(wǎng)絡(luò)圖的主干線,分支 線,主干線是一級目錄“文學(xué)”分別指向二級目錄“小說”、“散文”、“詩歌”、“隨筆”、“中國文學(xué)”、“外國文學(xué)”。二級干線有“中國文學(xué)”與“散文”、“小說”與“中國文學(xué)”、“文學(xué)”與“文學(xué)評論”、“中國文學(xué)”與“詩歌”等,三級干線有“網(wǎng)絡(luò)小說”與“小說”、“外國文學(xué)”與“英國文學(xué)”等。
圖2中的兩個概念集合緊挨著繪制的“武俠”與“武俠小說”、“兒童文學(xué)”與“童話”、“童書”等也確實為同義詞關(guān)系或直接包含關(guān)系。可以看出許多概念是的層次關(guān)系是交叉的,網(wǎng)狀分布的,繪出的結(jié)果非常符合實際,這樣就可以用實際數(shù)據(jù)例子說明這種繪制規(guī)則是合理的、正確的。
對于繪出的概念關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)圖,還會發(fā)現(xiàn)一些孤島概念,就是其和其他概念沒有任何連線的,經(jīng)分析,這些概念也是一些不規(guī)范的標簽,為了得到好的效果,設(shè)置系統(tǒng)對這些不規(guī)范的標簽也過濾掉。
這只是對120本書的標簽網(wǎng)絡(luò)地圖繪制的規(guī)則,如果對于10萬冊書的標簽網(wǎng)絡(luò)地圖繪制,筆者認為可以規(guī)定對只出N次以下連接線的支線省略掉,不斷變化參數(shù),直到得出最好的效果,并按照每個標簽之間的連接次數(shù)從多到少,逐級排列分為一級干線、二級干線、……N級干線。
不同類型的資源(例如電影、博客、音樂、論壇、百科知識等)的標簽與資源關(guān)系構(gòu)建的概念關(guān)系網(wǎng)絡(luò)地圖特征不同,所以要根據(jù)其特征具體分析,制定不同的確定概念之間屬性的合理方法。
所以筆者又選擇百度百科(http://baikebaidu.com)詞條為研究對象進行實證研究,選取了100個有關(guān)天文、地理的詞條,每個詞條的解釋后面都注明該詞條的屬于的幾個開放分類(這些開放分類實際上就是篩選后的用戶對該詞條添加的自由分類標簽)。同上述規(guī)則,首先對100個詞條標上1到100的編號,這樣每個數(shù)字就代表一個詞條,對只出現(xiàn)三次以下的開放分類標簽省略掉,包含相同序號詞條的兩個分類標簽之間就添加一條連線,兩個分類標簽之間連線少于兩條的就省略掉,兩個分類標簽之間無論有多少條連線都簡化為一條,而且連線的大小與原有的連線多少有關(guān),原連線越多就越加粗表示。如果有孤島概念(就是和其他概念沒有任何連線的)也篩選掉,這樣就得到如圖3所示:
圖3中,可以看出3個大的互相關(guān)聯(lián)的體系分別是地理、天文和自然科學(xué),其中自然科學(xué)處于它們的中間。概念層次分明,連線越粗就說明兩概念的細小知識單元重合越多,越處于眾多概念的上層架構(gòu),橢圓緊挨著長方形繪制的就是長方形概念集合里的詞條元素完全包含橢圓行概念集合里的詞條元素(即說明長方形概念的細小知識單元完全包含橢圓概念的所有細小知識單元),即長方形概念是橢圓形概念的上級。這樣就進一步用實際例子證明上述規(guī)則構(gòu)建概念的層次關(guān)系的正確性。而且這樣得出的本體結(jié)構(gòu)簡潔、直觀,概念之間的關(guān)系更為明了。
在圖3中,例如對于“地理”這個概念,橢圓形的詞條“地域”、區(qū)域”、“地球科學(xué)”、“自然景觀”都是“地理”中的一個屬性或特征,與“地理”相連的長方形詞條“平原”、“海洋”、“草原”、“地質(zhì)”、“地形”等是地理知識中要講述的某個方面概念。
“地質(zhì)學(xué)”可分別屬于“地理”、“地質(zhì)”、“自然科學(xué)”這三個目錄下。又例如“行星”和“八大行星”這兩個詞條都是屬于“太陽系”的部件。在判別究竟“宇宙”和“太陽系”這兩個概念究竟哪個是上級時,看到“宇宙”是通過一條很粗的干線與“天文”中心概念連接的,而“太陽系”是沒有直接與中心概念“天文”連接,而且與周邊概念的連接線都很細,所以“宇宙”肯定是“太陽系”的上級了。
可以看出圖2的概念關(guān)系結(jié)構(gòu)比圖3的概念關(guān)系結(jié)構(gòu)更加合理,因為圖2的資源是圖書,圖3的資源是詞條(詞條本身就可能是一個分類詞,給分類詞添加分類標簽就會存在不是很貼切的情況,而且會出現(xiàn)概念描述重復(fù))。如果資源是視頻、歌曲、論文、博客等,那么繪出的概念關(guān)系結(jié)構(gòu)圖的規(guī)律就肯定不完全相同,分析結(jié)構(gòu)圖的方法就肯定有差別,所以要根據(jù)實際繪出結(jié)構(gòu)圖后,用人工分析,總結(jié)規(guī)律,設(shè)計算法,再按照規(guī)律去編程,利用軟件自動分析,從而更加合理地自動定義本體中概念與概念的關(guān)系,定義概念的屬性。
3.5 定義本體中概念與概念的關(guān)系,定義概念的屬性
用上述規(guī)則繪出本體概念關(guān)系網(wǎng)絡(luò)地圖后,就可以根據(jù)概念關(guān)系地圖判斷出概念之間的各種層次關(guān)系,同義詞關(guān)系,包含關(guān)系及屬性關(guān)系。在圖2中,根據(jù)中心度的計算以及以與周圍的概念關(guān)聯(lián)最多,關(guān)聯(lián)線最粗的判斷,很容易看出“文學(xué)”是處于最高層的一級概念。“小說”、“散文”、“詩歌”、“隨筆”從體裁角度描述的二級概念分布在起周圍。“中國文學(xué)”、“外國文學(xué)”從地域范圍描述的二級概念也直接在“文學(xué)”這個一級概念之下,而且和“小說”、“散文”、“詩歌”、“隨筆”都有交叉聯(lián)系,“英國文學(xué)”、“美國文學(xué)”、“日本文學(xué)”、“法國文學(xué)”和“外國文學(xué)”的直接連線都較粗,所以可以判斷“英國文學(xué)”、“美國文學(xué)”、“日本文學(xué)”、“法國文學(xué)”首先屬于“外國文學(xué)”這個二級概念,先組成一個“外國文學(xué)”的凝聚子群。又例如在圖2中,“武俠”被“武俠小說”完全包含,是“武俠小說”的一個屬性。
3.6 本體術(shù)語定義
根據(jù)概念關(guān)鍵詞匹配原則,系統(tǒng)有接口可以引入權(quán)威詞典的解釋,也有接口引入百度百科(維基百科)對相應(yīng)概念的解釋,這就保證了不斷新出的概念都能套用到現(xiàn)成的解釋。
3.7 對本體編碼,形式化
選用OWL本體描述語言對上述建立的互聯(lián)網(wǎng)知識本體進行編碼、形式化。相比其他語言,OWL有更多的機制來表術(shù)語義,更重要的是它是由W3C推薦的,用它來描述本體具有國際通用性,適合互聯(lián)網(wǎng)知識本體的構(gòu)建。在本體編碼過程中選擇Prot~g6作為本體建模工具,通過Protege,可以很方便地將其轉(zhuǎn)換為OWL語言。
4 實現(xiàn)的關(guān)鍵技術(shù)與軟件示例
4.1 關(guān)鍵技術(shù)
系統(tǒng)有接口與可以讓用戶添加分類標簽的網(wǎng)站對接,直接導(dǎo)入以記事本形式記錄的資源和標簽數(shù)據(jù),有接口與權(quán)威詞典、百度百科的數(shù)據(jù)庫對接,直接導(dǎo)入概念的解釋和實例,并儲存在系統(tǒng)相對應(yīng)的本體術(shù)語數(shù)據(jù)庫中。
系統(tǒng)根據(jù)篩選后的標簽,按矩陣分析方法得出概念之間的完全包含關(guān)系,被包含概念的都列在相應(yīng)概念后面的括號里,如果有多個概念多重包含則用多重括號表示,然后分析不同概念之間的連接線,并按連接線的多少繪出概念之間的直線大小。軟件自動匯出的概念關(guān)系網(wǎng)絡(luò)圖中,概念的位置可以隨鼠標拖動,以求達到清晰的網(wǎng)絡(luò)圖。
概念關(guān)系網(wǎng)絡(luò)地圖涉及的數(shù)據(jù)和規(guī)則要讓人通過觀察、總結(jié)、理解后,再編成讓計算機理解的網(wǎng)絡(luò)本體語言。
4.2 軟件處理示例
從豆?網(wǎng)給的8萬冊圖書書名,每本書標注的標 簽數(shù)據(jù)分析來看,雖然每本書的標簽十分凌亂。有很多不規(guī)范的非概念性標簽,但正是由于它們十分不規(guī)范,所以出現(xiàn)次數(shù)都非常少,只需要對出現(xiàn)50次以下的標簽刪除,劉,一些很明顯的垃圾標簽(例如純數(shù)字標簽、中英文組合的標簽,純標點符號的標簽等)刪除即可得到比較標準的概念。根據(jù)上述標簽和資源的關(guān)聯(lián)規(guī)則繪制的概念關(guān)系網(wǎng)絡(luò)圖,如果概念之間連線少于40次的就省略掉,這樣就可以過濾掉由于個別用戶偏理解的而造成的概念關(guān)聯(lián)。然后再刪除一些孤島概念(和其他概念沒有任何連線的概念),這樣就基本可以從凌亂的標簽中篩選到標準的概念和繪出層次分明的概念關(guān)系網(wǎng)絡(luò)地圖。
課題組開發(fā)的軟件可以直接導(dǎo)入保存在,txt文件的資源名稱及其標簽數(shù)據(jù),并進行篩選、合并、計算,自動繪制概念關(guān)系網(wǎng)絡(luò)地圖,而且概念在圖中的位置可以隨鼠標拖動,這樣就保證各個關(guān)聯(lián)緊密的概念放在圖中的同一區(qū)域,無任何關(guān)聯(lián)的概念放在圖中不同的區(qū)域。軟件的一些操作界面見圖4-圖7:
例如圖5,按1、2步驟打開后綴為.txt的數(shù)據(jù)文件,如果對數(shù)據(jù)滿意,則不用任何處理,直接導(dǎo)入庫即可。如果不滿意還可以對數(shù)據(jù)按下面的步驟進行相應(yīng)的處理:①按5步驟可刪除選中的書名和標簽;②按6步驟合并選中的數(shù)據(jù);③按7步驟將標簽里的空格自動刪除,便于軟件分析標簽數(shù)據(jù);④按9步驟查出相似度達到一定程度(可設(shè)參數(shù))的書目數(shù)據(jù),然后就可以按6合并;⑤按10步驟可以自動合并完全相同的書目數(shù)據(jù);⑥按11步驟就可以先過濾掉很明顯的垃圾標簽,例如純數(shù)字,純標點符號,單個字等;⑦按12步驟將新文件的數(shù)據(jù)增加入庫,不清除原有的數(shù)據(jù);⑧按13步驟將新文件的數(shù)據(jù)入庫,人庫同時就清除原有的數(shù)據(jù);⑨按14步驟還可以修改標簽數(shù)據(jù)。
在圖6中,可分別用關(guān)鍵詞進行書名檢索和標簽檢索,并分別顯示標注這些書的標簽或標簽標注了什么書。
在圖7中,可進行標簽按出現(xiàn)次數(shù)(M次)過濾,得到標準概念,可按標簽之間連接線出現(xiàn)次數(shù)(N次)過濾,過濾掉由于用戶的偏理解而造成的概念關(guān)聯(lián)。然后進行矩陣分析標簽之間的完全包含關(guān)系。在圖中對角線的數(shù)字就是每個標簽本身包含的資源總數(shù)量,每個標簽與其他標簽包含相同資源的數(shù)量就列在兩個標簽行、列交叉的空格處,這樣就很容易分析出它們是否完全包含,例如在圖7中,美國文學(xué)包含的資源總數(shù)是4,外國文學(xué)與美國文學(xué)包含相同的資源總數(shù)也是4,而且外國文學(xué)包含的資源總數(shù)量是27,所以外國文學(xué)完全包含美國文學(xué)。
把完全包含的概念分別用小括號、中括號、大括號層層表示它們的不同層次的完全包含關(guān)系,而且把最大的外層看作一個點去繪制概念關(guān)系網(wǎng)絡(luò)地圖。外國文學(xué)完全包含美國文學(xué),就表示為外國文學(xué)(美國文學(xué)),同放于一個長方形內(nèi)。如圖8所示:
根據(jù)初步的實踐檢驗,只要通過人工觀察不同資源標簽構(gòu)建的概念關(guān)系網(wǎng)絡(luò)地圖特征,制定出合理的規(guī)則,那么根據(jù)不同規(guī)則編寫的程序自動構(gòu)建的本體是合理的。
相關(guān)熱詞搜索:互聯(lián)網(wǎng) 本體 構(gòu)建 互聯(lián)網(wǎng)資源知識本體自動構(gòu)建實證研究 本體構(gòu)建方法 本體
熱點文章閱讀