【2009年以來本體映射系統(tǒng)模型研究綜述】 本體映射

發(fā)布時間:2020-03-10 來源: 短文摘抄 點擊:

  [摘要]本體映射系統(tǒng)分為通用映射系統(tǒng)和領域映射系統(tǒng)兩大類型,從模型和流程視角綜述2009年RiMOM、As―MOV、DSSim、OntoMap、OntSE五種本體映射系統(tǒng)模型,認為本體映射研究在關聯(lián)數(shù)據(jù)等新興前沿領域的應用有待進一步深化。
  [關鍵詞]本體映射系統(tǒng) 映射模型 OAEI關聯(lián)數(shù)據(jù)
  [分類號]G350
  
  1 引言
  
  本體映射是實現(xiàn)本體互操作的關鍵。本體映射系統(tǒng)是建立在本體映射方法基礎上的,發(fā)現(xiàn)本體映射的方法一般分為四種:①術語方法:借助自然語言處理技術,比較映射對象之間的相似度,以發(fā)現(xiàn)異構本體間的聯(lián)系;②結構方法:分析異構本體之間結構上的相似,尋找可能的映射規(guī)則;③實例方法:借助本體中的實例,利用機器學習等技術來尋找本體間的映射;④綜合方法:在一個映射系統(tǒng)中同時采用多種尋找本體映射的方法,彌補不同方法的不足。
  現(xiàn)有的本體映射系統(tǒng)可分為兩種類型:①通用系統(tǒng)(Generic Systems)。這類系統(tǒng)一般采用通用方法,如不確定性推理、機器學習、相似度聚合等構建系統(tǒng)平臺,一般可滿足多個不同領域的映射需求,在語義網(wǎng)環(huán)境下潛在支持各種應用。②領域系統(tǒng)(Domain SpecificSystems)。這類系統(tǒng)針對特定領域問題(例如醫(yī)療、農(nóng)業(yè)等)的本體映射需求,使用具體的領域規(guī)則,啟發(fā)訓練或背景知識,在映射方案中具有較強的針對性。本文主要綜述這兩類系統(tǒng)模型近年來的代表成果。
  
  2 通用系統(tǒng)模型
  
  早期學者們開發(fā)了多種本體映射系統(tǒng),如GLUE,QOM,PROMPT等。近年來在國際語義網(wǎng)會議的推動下,特別是舉辦OAEI(the Ontology"Alignment Evalua―tion Initiative)競賽以來,多種通用本體映射系統(tǒng)亮相OAEI,有效促進了本體映射的發(fā)展。例如,F(xiàn)alcon―AOt、PRIOR+、DSSim ESl等近20種本體映射系統(tǒng)先后參加比賽。本文選取全程參與最近三屆(2007―2009)OAEI競賽的通用系統(tǒng),這些系統(tǒng)由于連年參賽,在測試中不斷改進與完善,基本代表了本體映射系統(tǒng)最新的發(fā)展水平。
  
  2.1 RiMOM
  RiMOM是多策略動態(tài)本體映射系統(tǒng),其采用貝葉斯理論,結合自然語言處理技術整合多種本體映射策略。RiMOM框架見圖1。
  
  結合圖1,可將RiMOM匹配過程概括為以下5個步驟:
  2.1.1 本體預處理與特征因素評估將待匹配本體裝入存儲器建立本體圖表,去除非相關信息,計算待匹配本體的標簽相似因子、結構相似因子和標簽意義相似因子,以此評估策略選擇。
  2.1.2策略選擇執(zhí)行策略選擇算法,即如果兩個本體具有某些相同的特征,那么基于這些特征信息的策略將被選擇并進行加權;如果本體特征信息較低,那么將不采取基于上述特征信息的策略。
  2.1.3單個策略執(zhí)行得到所選策略后,發(fā)現(xiàn)個體匹配,每一個策略輸出一個匹配結果。
  2.1.4 策略結果整合通過線性插值方法合并匹配結果。
  2.1.5相似度優(yōu)化與精煉如果兩個本體有較高的結構相似因子,使用相似度優(yōu)化過程進一步精煉發(fā)現(xiàn)的映射,依照結構化信息發(fā)現(xiàn)新的匹配。RiMOM基于相似度傳播理論(similarity Propagation Theory)提供了3種相似度聚合策略,分別是概念一概念、概念一屬性、屬性一屬性聚合方法。在此基礎上,系統(tǒng)通過多個啟發(fā)式規(guī)則剔除不可靠的映射,精煉匹配結果。
  RiMOM是以貝葉斯決策理論為基礎開發(fā)的本體映射系統(tǒng),它在OAEI 2009中參與了標準測試、解剖測試、目標匹配和實例匹配4種類型的競賽。作為2009年新推出的實例匹配測試項目,其由于具有更多實例的語義信息及屬性,測試要求更高。為此,RiMOM在優(yōu)化OAEl2008版本中8種策略的同時,針對實例特征推出了若干新方法。與此同時,亦有若干問題有待進一步提升。例如,面對比原有模式文檔多得多的大規(guī)模實例文檔,RiMOM在測試的效率及穩(wěn)定性方面如何保證;此外,如何深層次挖掘實例的語義信息等也是研究面臨的重要挑戰(zhàn)。
  
  2.2 ASMOV
  ASMOV是由美國Jean-Mary等人開發(fā)的自動化本體映射工具,其目標是促進異構本體的整合,ASMOV運用迭代計算分析3種特征計算實體本體對的相似度,產(chǎn)生基于概念間的映射、屬性間的映射和個體間的
  2.2.1 預處理ASMOV使用Jena的ARP解析器和建模組件加載解析本體,采用UMLS元詞表或Word,Net計算概念、屬性和個體間的詞表相似度,運用文本匹配算法計算詞表距離。
  2.2.2 相似度計算與預匹配 ASMOV通過外部匹配、內部匹配和個體匹配算法計算實體對的關系結構相似、內部結構相似和擴展程度相似,得到基于相似策略的概念矩陣、屬性矩陣和個體矩陣等3個二維矩陣。隨后抽取具有最高相似計算的本體與其他本體形成聯(lián)系實體,完成預匹配。
  2.2.3 語義確認與匹配結果 查找并除去預匹配中語義不一致的映射,并將其保存在日志文檔中,避免后續(xù)迭代重復,直至找到可匹配的所有結果。
  從整體上來看,ASMOV在召回率和F度量方面較2008年已取得不俗成績的基礎上再次有了提升。與此同時,在IIMB(ISLab Instance Matching Bench―mark)測試方面結果高度準確;在實例匹配中的徹底重新設計,有效改善了性能。針對其測試的范圍及卓越性能,ASMOV可用于書目、生物醫(yī)學等多種領域本體方面。值得關注的是,基于大規(guī)模實例文檔的實例匹配,ASMOV仍需進一步優(yōu)化。
  
  2.3 DSSim
  DSSim是由英國開放大學Nagy等人共同研制,適合大規(guī)模本體映射的通用系統(tǒng)。它是基于多智能代理體系結構的本體映射系統(tǒng),每一個智能代理通過特定映射假設的修正建立一個可信函數(shù)(belief),大量可信函數(shù)整合得到更為合理的匹配策略,從而提供最佳映射(主要流程見圖3)。
  
  
  基于特定參數(shù)將大規(guī)模本體分割成n*m片段,解析本體片段并將其裝入匹配任務隊列。
  執(zhí)行匹配安排,向空閑處理器核分配任務:①從本體1中選擇用戶使用的概念或屬性并考慮其作為查詢片段;在算法上參考WordNet,通過WordNet的上位詞擴大查詢概念或屬性。②從本體2考慮在語句構成上相似的概念或屬性構建查詢圖,建立局部本體圖查詢,其中包含概念和屬性以及上述環(huán)境的局部本體查詢片段。③通過語義相似度算法評估查詢結點與本體片段兩者的相似值。④可信質量函數(shù)由登普斯特整合規(guī)則(Dempstm’s rule of combination)構成,并受相似性矩陣的制約。處理器選用計算值最高的可信質量函數(shù)進行映射,對于不符合條件的進行迭代計算。
  將所選的映射加入匹配集合中,獲得匹配結 果。DSSim針對本體映射中表示和推理的不確定性在問答情景中采取登普斯特一謝弗理論,這與同為解決不確定性的RiMOM運用貝葉斯理論不同。DSSim參與了OAEl2009中的標準測試、解剖測試、目錄測試、實例匹配等4類共7個項目的競賽,它與ASMOV是該年度參加項目最多的兩位,但在召回率和F度量測評方面DSSim均與ASMOV存在差距。
  
  2.4 小結
  除上述三種本體映射系統(tǒng)外,還有另外兩種本體映射系統(tǒng)Lily和TaxoMap亦參與了OAEI近3年的比賽。其中,Lily是基于語義子圖的通用本體映射系統(tǒng),TaxoMap是以發(fā)現(xiàn)概念間的豐富聯(lián)系為目標的本體匹配工具。限于篇幅,這里不再贅述。
  
  3 領域系統(tǒng)模型
  
  領域系統(tǒng)是建立在某一特定領域或解決某一特定問題的本體映射系統(tǒng)。較通用系統(tǒng)而言,領域系統(tǒng)在解決特定領域本體互操作方面有其優(yōu)勢。
  
  3.1 OntoMap
  來自巴西圣保羅大學科學計算與數(shù)學研究所的Linhalis等學者,針對自然語言與計算機進行通信除英語外尚不能夠支持多種語言交流的特點,提出采用國際語(通用網(wǎng)絡語言中的一種)作為自然語言和計算機之間的中介,通過軟件構件執(zhí)行檢索的思路。其目標是促進多種自然語言在計算機中進行處理,為此,他們提出了OntoMap結構模型,結構如圖4所示:
  
  OntoMap模型主要是通過通用網(wǎng)絡語言(UniversalNetworking Language,UNL)和軟件構件來執(zhí)行自然語言的請求,OntoMap通過訪問UNL表示推斷構件的語義信息,然后使用該語義信息查找一個乃至多個合適的構件執(zhí)行請求。為了完成這一目標,OntoMap通過語義映射模塊將UNL和構件聯(lián)系起來。如圖4所示,OntoMap模型分為UNL轉換、語義映射、構件搜尋與檢索三部分。其中,語義映射模塊的工作流程如圖5所示:
  
  InterComp本體(國際語構件本體)在語義映射模塊中扮演重要作用,它與規(guī)則一起定義國際語與軟件構件之間的關系,同時InterComp本體還用來搜尋和檢索軟件構件,最終達到執(zhí)行自然語言請求的目的。In―terComp本體將UNL和構件的語義信息聯(lián)系起來,UNL令牌分類器在InterComp本體中對UNL語句分類,通過具體的規(guī)則推斷構件的語義信息,隨后通過語義信息搜尋語義信息構件,完成語義映射。
  OntoMap模型與其他研究的不同在于將自然語言請求轉換成國際語,使得多科咱然語言,特別是使用較少的自然語言(限制語)能夠在計算機中處理。但是,其方案仍需借助大量實驗抽取更多國際語的語義信息。此外,UNL項目的成熟對OntoMap的發(fā)展具有關鍵影響。
  
  3.2 OntSE
  為了克服企業(yè)信息系統(tǒng)用戶在找尋用戶所需要的語義層面的相似信息方面存在的局限,韓國科學技術院Jung M等人運用多維相似與貝葉斯網(wǎng)絡方法提出了OntSE模型,如圖6所示:
  
  OntSE模型主要由4個本體庫和3個模塊組件組成:即用戶本體庫(UOL)、內部形式本體庫(IOL)、分類本體庫(TOL)和匹配本體庫(MOL),分別用來存取用戶本體(UO)、內部形式本體(IOL)、分類本體(TO)和匹配本體(NO)。三個模塊分別是本體構建模塊、本體映射模塊和本體更新模塊,其功能分別是:
  ?本體構建:構建用戶的關鍵詞本體。
  ?本體映射:本體庫中用戶關鍵詞與存儲的術語(概念)之間的本體映射。
  ?本體更新:其目標是通過多維相似與貝葉斯網(wǎng)絡算法找到基于用戶關鍵詞的相同語義的術語。
  OntSE系統(tǒng)主要用于搜索不同企業(yè)信息系統(tǒng)的文檔語義信息,用戶可通過關鍵詞在上述方法的支持下找尋相關概念的語義,在用戶協(xié)作的基礎上檢索到相關文檔。OntSE模型具有3個典型特征:①通過本體映射找到用戶要查找的在語義上相似的概念;②利用用戶的關鍵詞描述更新本體庫;③用戶的歷史匹配決策被用來幫助隨后的用戶搜索。該系統(tǒng)的不足是對于具體領域的參數(shù)或加權因子需要大量實驗,在此基礎上調整賦于合適的參數(shù)值滿足具體領域信息的需求。
  
  4 本體映射系統(tǒng)評價
  
  無論是通用系統(tǒng)還是領域系統(tǒng),本體映射系統(tǒng)的優(yōu)劣均需要檢驗和比較。以通用系統(tǒng)為例,其評價一般采用OAEI競賽所提供的公共數(shù)據(jù)集進行測驗。國際語義網(wǎng)會議自2004年開始每年舉辦一次OAEI競賽,截至2009年已舉辦6次。該年測評體系包括5個大類共11種數(shù)據(jù)集。其中標準測試是競賽的基礎,其目標是考查本體映射系統(tǒng)在算法方面的強弱;而實例匹配則成為近年來關注的熱點。上述各類評價指標包括查準率、召回率和F度量,計算公式如下:
  查準率:P=發(fā)現(xiàn)正確的映射/發(fā)現(xiàn)所有的映射
  召回率:R=發(fā)現(xiàn)正確的映射/所有可能的映射
  F度量:F-m=2*P*R/(P+R)
  對于大規(guī)模本體的數(shù)據(jù)集來說,查準率和召回率兩者相互制約,F(xiàn)度量是上述兩種指標的一種平衡。5展望
  上述五種研究模型是本體映射研究最新發(fā)展的一個側面。盡管本體映射已成為相對成熟的研究領域,但仍存在很多問題尚待進一步研究,特別是在與相關前沿研究領域的結合方面,本體映射模型及其若干方法的應用亟待關注。例如,發(fā)展近5年的關聯(lián)數(shù)據(jù)(1inked data)近年來成為圖書情報界關注的熱點。瑞典、德國、英國等國國家圖書館率先將聯(lián)合目錄、詞表或書目數(shù)據(jù)發(fā)布為關聯(lián)數(shù)據(jù),與其他多種資源建立了關聯(lián)。但是如何將這些關聯(lián)起來的數(shù)據(jù)實現(xiàn)進一步整合,以推動關聯(lián)數(shù)據(jù)的深層應用成為發(fā)展的瓶頸。一些研究人員提出可嘗試將本體映射的若干研究成果引入到關聯(lián)數(shù)據(jù)中,在解決關聯(lián)數(shù)據(jù)的實例異構和值的轉換等方面發(fā)揮作用,這方面的研究有待深入。

相關熱詞搜索:本體 映射 綜述 2009年以來本體映射系統(tǒng)模型研究綜述 本體映射系統(tǒng)研究綜述 本體映射的研究綜述

版權所有 蒲公英文摘 m.serialtips.com
谁有黄色毛片黄色网站,天天操美女的逼干,美女131湿影院,完美伴侣电视剧