歐萊雅網(wǎng)絡(luò)營銷策略【基于語義模型的數(shù)字圖書館知識組織信息抽取策略】

發(fā)布時間:2020-03-07 來源: 人生感悟 點擊:

  [摘要]簡述語義模型是實現(xiàn)數(shù)字資源語義關(guān)系形式化描述的方式,是數(shù)字圖書館知識組織語義互聯(lián)的重要影響因素。作為數(shù)字圖書館知識組織語義互聯(lián)的重要環(huán)節(jié),信息抽取需要本體提供語義知識依據(jù),同時產(chǎn)生的文檔也可以作為設(shè)計和豐富本體的知識資源。構(gòu)建數(shù)字圖書館知識組織語言聯(lián)的語義模型以“元數(shù)據(jù)、領(lǐng)域本體、橋本體、本體解析體系”為核心要素,在此基礎(chǔ)上探討信息抽取的策略。
  [關(guān)鍵詞]數(shù)字圖書館 語義模型 信息抽取 本體
  [分類號]G250.76
  
  1 引言
  
  語義是指“數(shù)據(jù)(符號)”所指代的概念的含義以及這些含義之間的關(guān)系,是對數(shù)據(jù)的抽象或者更高層次的邏輯表示。語義通過兩種途徑產(chǎn)生:①人類賦予;②通過計算模型產(chǎn)生。通過第二種方式產(chǎn)生的語義可以被計算機理解和處理,可以被獲取、傳遞、共享。根據(jù)實體資源(如文本和圖像)來產(chǎn)生語義或挖掘出信息所蘊含的隱性語義是一個挑戰(zhàn)性的任務(wù);诮y(tǒng)計的聚類分析、共詞分析、信息抽取和挖掘技術(shù)可以幫助實現(xiàn)語義的自動抽取。實現(xiàn)的關(guān)鍵在于建立一個語義模型,該模型既適用于顯式語義,又適用于通過顯式語義挖掘推導(dǎo)出隱含語義。語義模型是通過模型作為媒介來實現(xiàn)數(shù)據(jù)語義關(guān)系形式化描述的一種方式;诒倔w的語義模型是通過以本體為核心的模型作為媒介,實現(xiàn)數(shù)字資源語義關(guān)系形式化描述的一種方式。本文基于本體構(gòu)建了語義模型,并基于該語義模型探討數(shù)字圖書館知識組織過程中信息抽取策略。
  
  2 信息抽取與本體
  
  信息抽取是從分布的、異構(gòu)的文本中提取出特定的事實信息,將其中隱含的語義提取出來并以更為結(jié)構(gòu)化、更為清晰的形式表示,為用戶使用提供便利。信息抽取與語義標(biāo)注總是融合在一起、互相支持的;信息抽取需要在語義標(biāo)注的基礎(chǔ)上進行,語義標(biāo)注的內(nèi)容是經(jīng)過信息抽取提取出來的。因此,目前對于信息抽取研究離不開對抽取對象的語義分析和描述。語義分析與描述技術(shù)的研究熱點是本體技術(shù)。
  
  本體是對面向計算機語言的、已被組織的知識的描述,而信息抽取是面向自然語言,分析文檔表達的事實和從這些文檔中提取相關(guān)信息片段。信息抽取和本體是相輔相成的:作為抽取相關(guān)信息的理解程序,本體被用于信息抽取,是信息抽取的語義知識依據(jù);信息抽取可以豐富本體,因為信息抽取出來的文檔可以作為設(shè)計和豐富本體的知識資源。
  這兩方面的任務(wù)被結(jié)合在循環(huán)中(見圖1)。本體可以有效地、準(zhǔn)確地、解釋信息抽取出來的數(shù)據(jù),而信息抽取從文檔提取出來的新知識可以整合進入本體從而豐富本體。
  
  2.1本體對信息抽取的支持
  在抽取過程中,本體知識對文檔的語義解釋具有重要作用。
  本體對領(lǐng)域概念以及概念的多種形式進行了規(guī)范性說明,因此在信息抽取中可以用來進行字符串的語義分析,進而進行概念識別;在信息抽取過程中,需要領(lǐng)域本體對文檔中實體名稱進行識別與分類。本體中的類可以對信息抽取文檔進行概念識別、語義標(biāo)注和概念規(guī)范。
  本體的概念層次結(jié)構(gòu)。傳統(tǒng)信息抽取的重點是使用同義詞集而不是層次關(guān)系。例如,在wordNet中,同義詞集可以用于語義標(biāo)注和消歧,但上下類關(guān)系還需要本體參與。本體中包含的語義類型或語義的層次關(guān)系,有助于通過抽取內(nèi)容進行推理和忠實釋義。
  更先進的信息抽取系統(tǒng)也需要利用領(lǐng)域本體的概念節(jié)點、概念節(jié)點的屬性和相互關(guān)系予以描述。本體中的概念與屬性值能夠清楚地描述信息抽取對象的本質(zhì)。對于文檔中抽取對象的分析既能提高自然語言處理,又能指導(dǎo)概念框架的實體構(gòu)成,而相應(yīng)的規(guī)則即是基于短語模型,更多是基于語義分析的。
  領(lǐng)域概念模型。領(lǐng)域概念模型本身用于推理,它能合并不同表現(xiàn)形式的同一概念,并且能夠揭示出隱含的語義。
  
  2.2信息抽取對本體的豐富
  本體構(gòu)建一直是公認(rèn)的語義進程中的瓶頸,而信息抽取有助于本體構(gòu)建。已經(jīng)提出各種方法用于語料庫的建設(shè)以利于本體構(gòu)建,如基于規(guī)則的信息抽取即是對本體構(gòu)建方法的補充。基于推理規(guī)則抽取出基本數(shù)據(jù),通過已有本體對該數(shù)據(jù)進行概念及概念關(guān)系分析,在此基礎(chǔ)上將數(shù)據(jù)中新的概念或概念間的新關(guān)系整合到本體。
  實體命名抽。簩嶓w命名通過在本體中以實例的形式表示。從這個角度看,需要自動地不斷地為本體增添一些熱門領(lǐng)域的實體名稱。而信息抽取被廣泛應(yīng)用于識別和分類文檔、網(wǎng)頁、數(shù)據(jù)庫等中的實體。
  關(guān)系抽。涸诮Y(jié)構(gòu)化本體中,概念與概念之間存在著語義關(guān)聯(lián)。目前從文檔中獲取本體關(guān)系的方法主要有三種:基于共詞分析方法、基于知識庫方法和基于信息抽取模式方法。信息提取模式方法提升了前兩種方式:第一種方法需要對基本關(guān)系類型進行解釋,而信息抽取中的規(guī)則就是特色化關(guān)系;第二種方法原有的知識可以幫助設(shè)計一個提取規(guī)則。
  信息抽取通過本體進行基于領(lǐng)域的語義分析,提升信息的語義性,為智能檢索打下基礎(chǔ);本體通過信息抽取不斷學(xué)習(xí),不斷演化,解決本體構(gòu)建的瓶頸問題。鑒于此,本文基于本體構(gòu)建數(shù)字圖書館知識組織語義互聯(lián)的語義模型,利用語義模型探討語義互聯(lián)實現(xiàn)過程中各個重要環(huán)節(jié)的策略,進而最終完成數(shù)字圖書館知識組織的語義互聯(lián)。
  
  3 數(shù)字圖書館互聯(lián)的語義模型
  
  語義模型是對內(nèi)容語義、語義類型及語義關(guān)系進行描述和組織的機制,它試圖在用戶的信息需求和信息資源之間搭建一座橋梁,將兩者靈活而有機地結(jié)合起來,從語義的角度來解析信息資源,進而從互理解的角度來提升用戶檢索的準(zhǔn)確度和召回率,更好地滿足用戶的信息需求。語義模型是影響數(shù)字圖書館知識組織語義互聯(lián)的核心要素。本文構(gòu)建了以元數(shù)據(jù)、領(lǐng)域本體、橋本體和本體解析體系為組成要素的語義模型,利用語義模型實現(xiàn)數(shù)字圖書館知識組織過程中的數(shù)字資源、用戶需求表達的語義解析,完成數(shù)字圖書館用戶交互層、內(nèi)容管理與功能層、內(nèi)容層之間的語義映射。其中,元數(shù)據(jù)進行資源的標(biāo)準(zhǔn)化描述,領(lǐng)域本體進行概念以及概念之間關(guān)系的語義標(biāo)注,橋本體用于資源之間語義聚合,本體解析主要解決本體的具體效用發(fā)揮的方式,如圖2所示:
  
  3.1元數(shù)據(jù)
  元數(shù)據(jù)是數(shù)字圖書館用來解決語義互聯(lián)的重要基礎(chǔ)工具。數(shù)字圖書館由資源構(gòu)成,而資源是可以被標(biāo)識的。元數(shù)據(jù)提供了對資源各種屬性的描述。元數(shù)據(jù)通過定義數(shù)字圖書館中資源的信息結(jié)構(gòu)以及定義由數(shù)字對象構(gòu)成的資源庫的組織結(jié)構(gòu),決定著數(shù)字圖書館知識組織和知識服務(wù)方式。元數(shù)據(jù)發(fā)展比較成熟,已經(jīng)形成完整規(guī)范的元數(shù)據(jù)體系,包括元數(shù)據(jù)格式、元數(shù)據(jù)標(biāo)準(zhǔn)、元數(shù)據(jù)方案、元數(shù)據(jù)應(yīng)用綱要、元數(shù)據(jù)注冊系統(tǒng)等等,這些為數(shù)字圖書館知識組織語義互聯(lián)打下了基礎(chǔ)。
  
  3.2領(lǐng)域本體
  領(lǐng)域本體是知識組織體系中重要組成部分,其目標(biāo)是捕獲相關(guān)領(lǐng)域的知識。領(lǐng)域本體是對領(lǐng)域內(nèi)共享概念模型的明確的形式化的規(guī)范說明;概念以及概念之間的關(guān)系是經(jīng)過精確定義的,提供了對領(lǐng)域知識的共同理解與描述,能夠為計算機所使用并可用數(shù)學(xué)方 式表達。在領(lǐng)域本體技術(shù)驅(qū)動下,信息資源以全新方式進行組織,組織原理發(fā)生如下改變:①從用戶可理解到機器可理解;②從信息描述到知識表現(xiàn);③從語義隱含到語義揭示;④從“以概念為中心”到“以概念一關(guān)系為中心”;⑤從信息表示到智能推理。這些變化要求知識組織理論、形式、方法、技術(shù)、體系以及知識組織過程都要隨之改變,實現(xiàn)對資源從語法層面向語義層面深入,最后直至語用層面的組織,在獲取、表示、加工、存儲、重組、提供、共享、利用、控制等知識組織過程中,充分體現(xiàn)語義性,在數(shù)字圖書館系統(tǒng)的各層之間,在用戶、資源、服務(wù)之間,形成語義互理解和互操作。
  
  3.3橋本體
  橋本體是一種特殊的本體,完成不同領(lǐng)域本體概念之間關(guān)系的映射,進而實現(xiàn)本體整合,形成領(lǐng)域內(nèi)的共享本體。橋本體記作Obridg。,可以用一個六元組表示:
  Obridge={cb,Acb,Rb,Arb,hb,xb}(1)
  其中,cb表示橋本體概念的集合,Acb表示橋本體概念所對應(yīng)的屬性集的集合,Rb表示橋本體之間關(guān)系的集合;Arb是橋本體之間關(guān)系所對應(yīng)的屬性集的集合,Hb代表了概念的層次結(jié)構(gòu),xb是一系列公理集合。
  在概念上,橋本體具有四層樹形結(jié)構(gòu)(見圖3):第一層是最普遍的概念,標(biāo)記為T;第二層具有概念橋和關(guān)系橋兩個概念,它們分別表示了兩種不同的橋關(guān)系;第三層由10種不同類型的子類橋組成;第四層是一系列動態(tài)創(chuàng)建概念的集合,它們的屬性描述了不同本體之間關(guān)系的信息。其中上面三層是固定的,稱之為靜態(tài)層,第四層的概念是根據(jù)已知的多本體動態(tài)產(chǎn)生的,為動態(tài)層。
  
  3.4本體解析體系
  數(shù)據(jù)存儲模式的選擇直接影響使用的效率。本體是系統(tǒng)多層之間語義聯(lián)系的紐帶,因此本體、橋本體的存儲方式影響數(shù)字圖書館知識組織和知識服務(wù)的質(zhì)量。本文選用的本體描述語言為W3C推薦的OWL,將其存儲到關(guān)系數(shù)據(jù)庫。關(guān)系數(shù)據(jù)庫存儲本體既有缺點,對本體含有的豐富語義缺乏精準(zhǔn)的表現(xiàn),又有無可比擬的優(yōu)點。已有文獻對本體到關(guān)系數(shù)據(jù)庫模式映射進行了詳盡的闡述,在此僅談及橋本體的解析。
  根據(jù)橋本體的概念結(jié)構(gòu)和關(guān)系數(shù)據(jù)庫的形式化定義,下面給出它到關(guān)系數(shù)據(jù)庫模式的映射規(guī)則。
  以橋本體建立數(shù)據(jù)庫,取名為database-brid―geO。
  橋本體中的十個橋關(guān)系分別為橋本體的子類,分別以這十個橋關(guān)系建立十張表,表名為table―Bcequal、table_BCdifferent、table_BCisa、table_Bcinstan―ceof、table BCoverlap、table BChasa、table_Beopposed、ta-ble_BCconnect、table_BRsubsume和table_Brinverse。
  將橋本體的屬性映射為各個表的屬性,屬性類型為字符型;各表屬性個數(shù)并不相同,主要包括三類:一類表示具有該種橋關(guān)系的兩個領(lǐng)域本體的名稱;一類表示具有該種橋關(guān)系的領(lǐng)域本體的類名稱;一類屬性代表該類所對應(yīng)表的地址。
  屬性值分別取值為領(lǐng)域本體名、領(lǐng)域本體中類名和類對應(yīng)的表名。
  不同領(lǐng)域本體概念之間的關(guān)系構(gòu)成表中的記錄。
  表中的主鍵為復(fù)合主鍵,由不同領(lǐng)域本體名稱和不同概念名稱組合而成。
  
  4 基于語義模型的信息抽取策略
  
  抽取對象是異質(zhì)的、異構(gòu)的、多語種的、半結(jié)構(gòu)化甚至是非結(jié)構(gòu)化的,并且可能存在著語義模糊、語義缺失,因此對抽取對象實體命名識別、實體間關(guān)系的識別變得更加困難,需要多種技術(shù)協(xié)作完成。語義模型能有效協(xié)助信息抽。豪迷獢(shù)據(jù)對數(shù)字信息資源和用戶信息資源進行規(guī)范化描述,利用領(lǐng)域本體集和橋本體實現(xiàn)數(shù)字資源和用戶信息資源語義關(guān)系形式化描述,而語義模型中本體解析體系為信息抽取為利用本體提供了途徑。因此,利用語義模型可以有效地進行實體命名識別和信息抽取規(guī)則制定。基于規(guī)則進行信息抽取能有效過濾掉噪聲,增加新的結(jié)構(gòu)信息。大體過程如圖4所示:
  
  4.1數(shù)據(jù)采集和數(shù)據(jù)清洗
  通過各種數(shù)據(jù)采集工具對數(shù)據(jù)庫、文檔和網(wǎng)頁進行數(shù)據(jù)采集。數(shù)據(jù)庫中的數(shù)據(jù)是結(jié)構(gòu)化的,采集相對簡易;而文檔和網(wǎng)頁結(jié)構(gòu)各異,先將它們抓取入系統(tǒng);數(shù)據(jù)清洗目的是對有信息價值的各種數(shù)據(jù)通過處理產(chǎn)生純文檔。首先對抓取的原始數(shù)據(jù)進行結(jié)構(gòu)分析,去除噪聲,分析數(shù)據(jù)是表結(jié)構(gòu)、文檔結(jié)構(gòu)還是網(wǎng)頁結(jié)構(gòu),網(wǎng)頁結(jié)構(gòu)是內(nèi)容型網(wǎng)頁還是表單型網(wǎng)頁,并對各種結(jié)構(gòu)進行識別剝離;然后進行內(nèi)容分析,例如網(wǎng)頁中的廣告、圖像、版權(quán)信息等等;最后對用戶關(guān)心的信息內(nèi)容進行提取,產(chǎn)生待處理的純文檔,如圖5所示:
  
  4.2文檔預(yù)處理
  文檔預(yù)處理的任務(wù)是自然語言處理,將文檔處理切分為待處理的詞匯和信息單元。首先將待處理的純文檔進行詞語切分和詞性標(biāo)注,取出分詞結(jié)果中的名詞和動詞;然后按標(biāo)點符號進行短句分割,作為信息單元,并以此作為信息抽取的粒度;最后對短句進行語法詞法分析,并實施初次篩選,保留其中至少包含兩個名詞和一個動詞的信息單元。該過程需要相關(guān)領(lǐng)域知識的術(shù)語表、詞匯表、主題詞表等,對分詞系統(tǒng)中的詞表進行二次加工。語義模型中的領(lǐng)域本體可以提供規(guī)范化的概念及概念中所涉及術(shù)語的多種形式,可以對詞表進行豐富和規(guī)范,如圖6所示:
  
  4.3規(guī)則生成
  信息抽取規(guī)則的生成利用了本文構(gòu)建的語義模型。語義模型中的領(lǐng)域本體描述了概念、屬性、實例以及本體內(nèi)部概念與概念之間的關(guān)系,橋本體描述跨本體的概念之間的多種關(guān)系。領(lǐng)域本體和橋本體用OWL描述,將OWL本體映射到關(guān)系數(shù)據(jù)庫,形成語義模型數(shù)據(jù)庫;數(shù)據(jù)庫中含有若干個表,通過表、表的屬性、表的主鍵與外鍵以及屬性之間的約束對本體進行解析。信息規(guī)則在此基礎(chǔ)上生成:首先從語義模型數(shù)據(jù)庫抽取類、抽取屬性、抽取實例、抽取關(guān)系,對于橋本體還需要抽取表名;然后通過其解析出的本體中描述的概念、關(guān)系、層次結(jié)構(gòu)等來生成三元組,再將此三元組作為信息抽取的規(guī)則存入規(guī)則庫。如圖7所示:
  
  4.4實體抽取
  信息抽取主要是對信息單元進行解析后,對信息單元中的名詞基于語義模型中的概念和實例進行實體命名識別,充分利用本體對概念規(guī)范描述的優(yōu)勢,提高實體命名識別的準(zhǔn)確性;再對信息單元重新規(guī)范,形成具有主、謂、賓三元關(guān)系的分析樹。將該分析樹與抽取規(guī)則三元組進行匹配,如果匹配成功則將該三元關(guān)系存入數(shù)據(jù)庫中,完成信息抽。蝗绻ヅ洳怀晒,對該三元關(guān)系的概念與語義模型進行語義相似度計算,根據(jù)計算結(jié)果,形成本體中的新概念或新關(guān)系,添加到語義模型中,完成本體學(xué)習(xí),豐富領(lǐng)域本體,如圖8所示:
  基于語義模型的信息抽取有如下好處:①語義模型的引入既保證了結(jié)構(gòu)的一致性,又保證了數(shù)據(jù)的一致性,使不同來源的數(shù)據(jù)都能以統(tǒng)一的標(biāo)準(zhǔn)進行描述和呈現(xiàn),方便了信息的繼承與交換,提高了信息抽取的準(zhǔn)確率及召回率;②驅(qū)使整個信息抽取過程都直接來自于語義模型,這為利用各種各樣的本體數(shù)據(jù)呈現(xiàn)了一條非常自然的路徑;③基于語義模型的系統(tǒng)可以促進本體進化,豐富領(lǐng)域本體。
  
  5 結(jié)語
  
  本文通過探求和把握語義描述和組織的規(guī)律,構(gòu)建了以元數(shù)據(jù)、領(lǐng)域本體、橋本體和本體解析體系為組成要素的語義模型,試圖建設(shè)一種有效機制,發(fā)揮其作為數(shù)字圖書館知識組織語義互聯(lián)重要影響因素的作用,在此基礎(chǔ)上研究信息抽取策略,進而為數(shù)字圖書館知識組織語義互聯(lián)理論和實踐提供奠基性的方法論支持。

相關(guān)熱詞搜索:語義 抽取 數(shù)字圖書館 基于語義模型的數(shù)字圖書館知識組織信息抽取策略 數(shù)字圖書館知識組織策略 信息抽取技術(shù)探析

版權(quán)所有 蒲公英文摘 m.serialtips.com
谁有黄色毛片黄色网站,天天操美女的逼干,美女131湿影院,完美伴侣电视剧