【基于漢語(yǔ)框架網(wǎng)絡(luò)本體的問(wèn)答式語(yǔ)義檢索系統(tǒng)分析與設(shè)計(jì)】語(yǔ)義本體
發(fā)布時(shí)間:2020-03-07 來(lái)源: 感恩親情 點(diǎn)擊:
摘要 通過(guò)對(duì)檢索資源及用戶檢索提問(wèn)的語(yǔ)義解析,采用基于概念圖匹配的語(yǔ)句相似度計(jì)算方法,不僅可得到與檢索條件精確匹配的信息資源,而且還能查詢到與檢索條件語(yǔ)義相關(guān)的隱含信息資源,提高信息查全率和查準(zhǔn)率。最后,用一個(gè)語(yǔ)義檢索實(shí)驗(yàn)系統(tǒng)驗(yàn)證系統(tǒng)分析與設(shè)計(jì)的可行性和有效性。
關(guān)鍵詞 語(yǔ)義檢索 框架網(wǎng)絡(luò) 本體 語(yǔ)義匹配
分類(lèi)號(hào) G354.4
1 引言
關(guān)于語(yǔ)義檢索,目前學(xué)術(shù)界還沒(méi)有一個(gè)確切的定義。有人認(rèn)為:語(yǔ)義檢索是把信息檢索與人工智能技術(shù)、自然語(yǔ)言技術(shù)相結(jié)合的檢索。它從語(yǔ)義理解的角度分析信息對(duì)象與檢索請(qǐng)求,是一種基于概念及其相關(guān)關(guān)系的檢索匹配。也有人將語(yǔ)義檢索稱為概念匹配,匹配在語(yǔ)義上相同、相近、相包含的詞語(yǔ)。它是對(duì)檢索條件、信息組織以及檢索結(jié)果顯示賦予了一定語(yǔ)義成份的一種新的檢索方式。作者比較贊同“語(yǔ)義檢索是一種基于語(yǔ)義理解技術(shù)的智能信息檢索”的觀點(diǎn),它是指應(yīng)用先進(jìn)的智能理論及其技術(shù),對(duì)信息資源和用戶提問(wèn)進(jìn)行一系列的語(yǔ)義解析,通過(guò)挖掘其深層含義,充分、精確地表達(dá)知識(shí)資源和用戶需求,進(jìn)而在各類(lèi)異構(gòu)的數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、知識(shí)庫(kù)中進(jìn)行檢索,并對(duì)檢索到的信息進(jìn)行智能化處理之后,返回最相關(guān)的結(jié)果的檢索機(jī)制。本體作為一種知識(shí)庫(kù),在這種檢索機(jī)制中扮演著重要的角色。
筆者所設(shè)計(jì)的向用戶提供自然語(yǔ)言檢索入口的基于漢語(yǔ)框架網(wǎng)絡(luò)本體語(yǔ)義檢索系統(tǒng),旨在利用已構(gòu)建好的框架庫(kù)、詞匯庫(kù)、例句庫(kù)等知識(shí)庫(kù),依賴于框架及框架之間的關(guān)系及語(yǔ)義類(lèi)型限制,以語(yǔ)義標(biāo)注的法律語(yǔ)料庫(kù)為受限領(lǐng)域,實(shí)現(xiàn)基于用戶的自然語(yǔ)言提問(wèn)的語(yǔ)義匹配檢索,最終給出用戶真正有用、精確、簡(jiǎn)潔的答案。這將在一定層面上解決問(wèn)答系統(tǒng)中純粹的字面匹配、顯式匹配等存在的問(wèn)題。
2 漢語(yǔ)框架網(wǎng)絡(luò)本體庫(kù)與語(yǔ)料庫(kù)
利用框架語(yǔ)義學(xué)原理,參考美國(guó)加州大學(xué)伯克利分校的FrameNet工程,以法律領(lǐng)域?yàn)檠芯繉?duì)象,構(gòu)建了法律漢語(yǔ)框架網(wǎng)絡(luò)本體。
2,1法律框架網(wǎng)絡(luò)本體的構(gòu)成
法律框架網(wǎng)絡(luò)本體庫(kù)以語(yǔ)義框架為核心,其構(gòu)成元素包括語(yǔ)義框架、框架元素、詞元以及框架間的關(guān)系。此外,還有對(duì)框架、框架元素及詞元進(jìn)行語(yǔ)義分類(lèi)的本體語(yǔ)義類(lèi)型。
2,1,1語(yǔ)義框架(Frame)作為框架網(wǎng)絡(luò)本體的基本組成單元,語(yǔ)義是對(duì)該領(lǐng)域核心概念的描述。一個(gè)語(yǔ)義框架,相當(dāng)于跟一些激活性語(yǔ)境相一致的一個(gè)結(jié)構(gòu)化的范疇系統(tǒng)。
2,1,2框架元素(Frame Element,F(xiàn)E)一個(gè)語(yǔ)境涉及的各種參與者、外部條件和其他概念角色,它們被稱為是該語(yǔ)義框架的框架元素。
2,1,3詞元(Lexical Unit,LU) 某種語(yǔ)境在言語(yǔ)中被一些詞語(yǔ)激活,而理解語(yǔ)言中詞語(yǔ)意義,必需先具備概念結(jié)構(gòu),即框架語(yǔ)義的知識(shí)。這樣的詞語(yǔ)在框架網(wǎng)絡(luò)本體中被定義為框架的詞元。
2,1,4框架關(guān)系(Frame Relation,F(xiàn)R)
框架關(guān)系包括框架與框架間的關(guān)系及其包含的框架元素之間的關(guān)系。目前所定義的框架間關(guān)系有繼承、總分、參照、透視、起始、使用、致使和先后關(guān)系。
2,1,5語(yǔ)義類(lèi)型(Semantic type,ST)
語(yǔ)義類(lèi)型是無(wú)法用框架、框架元素及框架關(guān)系等表達(dá)的一些通用語(yǔ)義,它表示詞匯固有的、本質(zhì)的、上下文無(wú)關(guān)的語(yǔ)義特征。主要用于對(duì)框架、框架元素和詞元所指稱的事物或現(xiàn)象進(jìn)行分類(lèi)。它們以一定的邏輯關(guān)系構(gòu)成一個(gè)語(yǔ)義類(lèi)型結(jié)構(gòu)體系附加在框架、框架元素及詞元之上。
例如,語(yǔ)義框架“盜竊”(theft)表達(dá)這樣一個(gè)概念或語(yǔ)境:以非法占有為目的,秘密竊取數(shù)額較大的公私財(cái)物或者多次盜竊公私財(cái)物的行為。這一事件(語(yǔ)境)會(huì)涉及犯罪者[perp]、受害者[vict]、被盜財(cái)物[goods]、作案工具[inst]、發(fā)生頻率[frequ]、時(shí)間[time]等角色及因素,它們都是盜竊框架的框架元素。其中,框架元素犯罪者[perp]、受害者[vict]的語(yǔ)義類(lèi)型是“有知覺(jué)能力者”(sentient),被盜財(cái)物[goods]的語(yǔ)義類(lèi)型為“物理實(shí)體”(physical_entity)。不同語(yǔ)義類(lèi)型之間以通過(guò)子類(lèi)關(guān)系(subelassof)相互關(guān)聯(lián)。在具體的語(yǔ)句中,詞“盜用”、“偷竊”、“偷”“行竊”、“盜竊”等類(lèi)似的詞都可以激活一個(gè)“盜竊”語(yǔ)義場(chǎng)景,它們就是盜竊框架的詞元!氨I竊”框架與另一個(gè)框架“犯罪”(commiting crime)框架之間是繼承關(guān)系,表示前者是后者在概念及語(yǔ)義上的細(xì)化。
法律框架網(wǎng)絡(luò)本體以語(yǔ)義框架為核心,通過(guò)框架的內(nèi)部關(guān)系和外部關(guān)系將詞匯進(jìn)行聯(lián)系,構(gòu)成一個(gè)巨大的網(wǎng)狀數(shù)據(jù)庫(kù)?蚣艿膬(nèi)部關(guān)系包括框架與框架元素的關(guān)系(hasFE)、框架與詞元的關(guān)系(hasLU)。框架的外部關(guān)系包括各種框架關(guān)系以及相關(guān)聯(lián)框架的框架元素之間關(guān)系、框架及其框架元素、詞元與本體語(yǔ)義類(lèi)型之間的關(guān)系(Subelassof,子類(lèi)關(guān)系)。與語(yǔ)料庫(kù)中基于真實(shí)語(yǔ)料提取的標(biāo)注例句的句法配價(jià)信息和語(yǔ)義配價(jià)信息相結(jié)合,為對(duì)信息的語(yǔ)義理解提供了較好的途徑。
2,2漢語(yǔ)框架網(wǎng)絡(luò)本體標(biāo)注語(yǔ)料庫(kù)
基于法律框架網(wǎng)絡(luò)本體的語(yǔ)料庫(kù)建設(shè)包括標(biāo)注例句庫(kù)的建設(shè)和標(biāo)注文本語(yǔ)料庫(kù)的建設(shè)。標(biāo)注例句用于提取例句中以詞元為中心的語(yǔ)義特征及句法特征信息,標(biāo)注文本主要作為被檢索的語(yǔ)義信息資源。例句語(yǔ)料的選擇,以北京大學(xué)漢語(yǔ)語(yǔ)言學(xué)研究中心的現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)為可用資源,從語(yǔ)料庫(kù)中不同的位置(前端、中端、尾部)下載一批包含目標(biāo)詞元的句子作為標(biāo)注對(duì)象。對(duì)于文本語(yǔ)料,以中國(guó)法制日?qǐng)?bào)每期的刑事案件為資源,從法制日?qǐng)?bào)網(wǎng)下載案例,作為全文標(biāo)注對(duì)象。
對(duì)從網(wǎng)絡(luò)上收集到的信息,筆者以手工方式去掉其中無(wú)用的不相關(guān)信息(如網(wǎng)頁(yè)目錄、網(wǎng)頁(yè)鏈接、圖片等)并對(duì)語(yǔ)料的格式進(jìn)行規(guī)范(如文本標(biāo)題、作者、日期、句子編號(hào)等信息的格式)等處理。然后,基于所構(gòu)建的漢語(yǔ)框架網(wǎng)絡(luò)本體,以語(yǔ)義框架為核心,以語(yǔ)料庫(kù)中的每條句子為處理對(duì)象進(jìn)行語(yǔ)義分析。采用計(jì)算機(jī)輔助人工標(biāo)注的方法,給語(yǔ)義框架所在的句子進(jìn)行語(yǔ)義標(biāo)引。對(duì)標(biāo)引過(guò)的句子,抽取其語(yǔ)義及句法特征信息并按一定的結(jié)構(gòu)存儲(chǔ)在數(shù)據(jù)庫(kù)中,形成本體標(biāo)注語(yǔ)料庫(kù)。語(yǔ)義分析及標(biāo)注過(guò)程如下:
首先,利用山西大學(xué)計(jì)算機(jī)應(yīng)用研究所開(kāi)發(fā)的分詞軟件“分詞2000”對(duì)語(yǔ)料中的句子進(jìn)行分詞和詞性標(biāo)注,并根據(jù)詞元確定句中的標(biāo)注目標(biāo)詞。
第二,對(duì)句子進(jìn)行依存句法分析,確定句中目標(biāo)詞的依存項(xiàng)及與依存項(xiàng)之間的依存關(guān)系類(lèi)型。
第三,語(yǔ)義標(biāo)引。根據(jù)目標(biāo)詞所激活的語(yǔ)義框架,分析句子中目標(biāo)詞元的依存項(xiàng)在語(yǔ)義框架中充當(dāng)?shù)目蚣茉,將其填入框架中相?yīng)的語(yǔ)義槽,完成對(duì)框架元素的實(shí)例化處理。
對(duì)句子的標(biāo)注內(nèi)容:句子的目標(biāo)詞、句中語(yǔ)塊(片段)充當(dāng)?shù)目蚣茉、語(yǔ)塊的短語(yǔ)類(lèi)型及語(yǔ)法功能。目標(biāo)詞的標(biāo)注形式為,tgt是目標(biāo)詞的標(biāo)注符 號(hào),w是句中的目標(biāo)詞。對(duì)句中語(yǔ)塊的標(biāo)注形式為“(FE-PT-GF span>”,F(xiàn)E,PT,GF分別表示框架元素、短語(yǔ)類(lèi)型和語(yǔ)法功能,span是具體的語(yǔ)塊。
例如:對(duì)句子為A1“某華僑農(nóng)場(chǎng)趙明亮為了吸毒,1998年盜竊群眾的自行車(chē)30多輛!钡恼Z(yǔ)義標(biāo)注結(jié)果為:
,w。w
第四,提取標(biāo)注例句的特征信息,包括句中詞元的語(yǔ)義配價(jià)模式信息和框架元素的句法實(shí)現(xiàn)方式信息。為查詢子系統(tǒng)中的問(wèn)句的語(yǔ)義分析做準(zhǔn)備。句子中的這種由包括核心詞在內(nèi)的各語(yǔ)塊的短語(yǔ)類(lèi)型、語(yǔ)法功能按照語(yǔ)塊在句中的位置順序組成的信息序列即是該句的句法特征信息,也稱為目標(biāo)詞的句法配價(jià)信息。圖1是提取出的句子A1的特征信息:
最后,選取適當(dāng)?shù)男问剑瑢?biāo)引過(guò)的句子作為語(yǔ)義信息實(shí)體存儲(chǔ)在語(yǔ)義語(yǔ)料庫(kù)中,并通過(guò)詞元與本體庫(kù)關(guān)聯(lián)。
文本語(yǔ)料的全文標(biāo)注與單個(gè)例句的語(yǔ)義分析及標(biāo)注過(guò)程相同,只不過(guò)前者是一些連續(xù)的、有一定順序的句子。
3 基于漢語(yǔ)框架網(wǎng)絡(luò)本體的問(wèn)答式語(yǔ)義檢索系統(tǒng)的設(shè)計(jì)思路
基于本體的語(yǔ)義檢索以實(shí)現(xiàn)對(duì)信息資源的本體化和對(duì)用戶檢索請(qǐng)求的本體化為基礎(chǔ)。對(duì)信息資源的本體化是指利用本體知識(shí)對(duì)信息資源進(jìn)行語(yǔ)義分析,實(shí)現(xiàn)信息資源的語(yǔ)義標(biāo)注及格式化存儲(chǔ),從而確定文檔以及文檔中的句子中在本體結(jié)構(gòu)中的位置;對(duì)用戶檢索請(qǐng)求的本體化是指利用本體中的知識(shí)對(duì)用戶的檢索請(qǐng)求加以規(guī)范和引導(dǎo),使用戶既能清晰地表達(dá)檢索需求,又能使機(jī)器很好地理解用戶意圖。
本文基于漢語(yǔ)框架網(wǎng)絡(luò)本體的問(wèn)答式語(yǔ)義檢索系統(tǒng),以所構(gòu)建的法律框架網(wǎng)絡(luò)本體為基礎(chǔ),探討在該領(lǐng)域本體之下的語(yǔ)義檢索解決方案。通過(guò)對(duì)資源庫(kù)的框架語(yǔ)義標(biāo)注及用戶以自然語(yǔ)言提出的檢索請(qǐng)求的語(yǔ)義解析,具體檢索方案設(shè)計(jì)如下:①在框架網(wǎng)絡(luò)本體的支持下,對(duì)用戶的檢索請(qǐng)求進(jìn)行語(yǔ)義分析及語(yǔ)義擴(kuò)展,確定查詢目標(biāo),明確用戶檢索內(nèi)容;②根據(jù)檢索請(qǐng)求處理模塊提交的用戶查詢的特征信息對(duì)語(yǔ)料庫(kù)中的標(biāo)注文本進(jìn)行檢索,實(shí)現(xiàn)查詢對(duì)象與標(biāo)引文本的匹配;③計(jì)算檢索結(jié)果與用戶檢索請(qǐng)求的相關(guān)度大小,將最相關(guān)的句子作為答案句,從中抽取準(zhǔn)確答案提交給用戶界面。
據(jù)此,漢語(yǔ)框架網(wǎng)絡(luò)本體語(yǔ)義檢索系統(tǒng)從功能上可以分為三個(gè)模塊:用戶檢索請(qǐng)求處理模塊、信息檢索模塊及答案抽取模塊。如圖2所示:
3,1檢索請(qǐng)求處理模塊
為了讓用戶更好地表達(dá)其檢索意圖,我們向用戶提供自然語(yǔ)言檢索入口,允許用戶用自然語(yǔ)言向系統(tǒng)提問(wèn),系統(tǒng)收到用戶提問(wèn)后,經(jīng)過(guò)簡(jiǎn)單的預(yù)處理,如去除前綴、后綴,采用一些自然語(yǔ)言處理技術(shù),運(yùn)用法律框架網(wǎng)絡(luò)本體知識(shí)對(duì)用戶的提問(wèn)進(jìn)行語(yǔ)義分析,得到用戶的真正檢索意圖。具體方法為:基于依存句法分析確定不同類(lèi)型問(wèn)句的目標(biāo)詞,采取模式匹配方法實(shí)現(xiàn)對(duì)問(wèn)句的框架語(yǔ)義分析,完成對(duì)問(wèn)句的框架語(yǔ)義標(biāo)注。根據(jù)疑問(wèn)詞及框架元素的語(yǔ)義類(lèi)型確定問(wèn)句焦點(diǎn)與問(wèn)句類(lèi)型,構(gòu)建問(wèn)句的語(yǔ)義檢索式。
3,1,1問(wèn)句的依存句法分析筆者采用哈爾濱工業(yè)大學(xué)信息檢索研究室提供的免費(fèi)共享的語(yǔ)言技術(shù)平臺(tái)LTP對(duì)問(wèn)句自動(dòng)進(jìn)行分詞和詞性標(biāo)注基礎(chǔ)上的依存句法分析。以問(wèn)句Q1“周紹海偷了誰(shuí)的東西?”為例,分析得到的結(jié)果如圖3所示:
圖中,詞問(wèn)依存關(guān)系用帶箭頭的弧線表示,依存弧從核心詞出發(fā),指向它的依存成份,并表明依存關(guān)系的類(lèi)型。
3,1,2問(wèn)句中目標(biāo)詞元的確定
目標(biāo)詞元在句中激活一個(gè)語(yǔ)義場(chǎng)景,它是句子的語(yǔ)義中心。因此,確定目標(biāo)詞實(shí)為確定句子的語(yǔ)義中心詞。通常情況下,句子的句法中心也是句子的語(yǔ)義中心。在這種情況下,可以將句子的句法核心詞作為語(yǔ)義中心詞,即框架語(yǔ)義分析的目標(biāo)詞。但是,有些句子的句法中心詞并不是句子的語(yǔ)義中心詞,通過(guò)綜合考察語(yǔ)料,結(jié)合作者的語(yǔ)言學(xué)知識(shí),筆者針對(duì)不同情況確定了選擇句子語(yǔ)義中心詞的規(guī)則。
3,1,3問(wèn)句句法配價(jià)信息的提取
LTP對(duì)句子進(jìn)行句法依存分析的粒度為單個(gè)的詞,而筆者在信息資源的語(yǔ)義標(biāo)注過(guò)程中以短語(yǔ)為單位對(duì)句子進(jìn)行框架語(yǔ)義分析。只考慮句法依存樹(shù)中以語(yǔ)義中心詞為父結(jié)點(diǎn)的各句子成份與其下位節(jié)點(diǎn)詞一起作為一個(gè)語(yǔ)塊與語(yǔ)義中心詞的句法依存關(guān)系。按照這一粒度,需根據(jù)句中的詞在依存樹(shù)中的位置及詞間的依存關(guān)系類(lèi)型進(jìn)行詞匯捆綁,將句子劃分為一個(gè)個(gè)語(yǔ)塊。提取語(yǔ)塊的短語(yǔ)類(lèi)型及與中心詞的依存關(guān)系類(lèi)型,將相應(yīng)的符號(hào)轉(zhuǎn)換為與語(yǔ)料標(biāo)注符號(hào)系統(tǒng)相統(tǒng)一的格式,構(gòu)成問(wèn)句的句法配價(jià)信息。
3,1,4問(wèn)句的框架語(yǔ)義標(biāo)注
問(wèn)句語(yǔ)義分析的實(shí)質(zhì)是對(duì)問(wèn)句進(jìn)行語(yǔ)義表征。在本系統(tǒng)中就是要對(duì)問(wèn)句實(shí)現(xiàn)基于框架的語(yǔ)義標(biāo)注。標(biāo)注過(guò)程基于這樣一種假設(shè):對(duì)于兩個(gè)句子,如果目標(biāo)詞激活相同的語(yǔ)義框架,且目標(biāo)詞具有相同句法依存結(jié)構(gòu),那么這兩條句子具有相同的語(yǔ)義配價(jià)模式。這是因?yàn),如前所述,詞的行為,尤其是對(duì)其論元的表達(dá)和理解,在很大程度上是由詞的語(yǔ)義決定的。因此,筆者選擇通過(guò)問(wèn)句的句法配價(jià)信息與語(yǔ)料庫(kù)中例句的句法配價(jià)信息的匹配,來(lái)實(shí)現(xiàn)對(duì)問(wèn)句的框架語(yǔ)義標(biāo)注,具體步驟為:①在框架元素的句法實(shí)現(xiàn)方式信息表中查找與問(wèn)句的句法配價(jià)信息相匹配的記錄,得到該框架元句法實(shí)現(xiàn)方式對(duì)應(yīng)的語(yǔ)義配價(jià)信息的ID。②在語(yǔ)義配價(jià)信息表中獲取所得ID的語(yǔ)義配價(jià)信息,將它賦予問(wèn)句中相應(yīng)的語(yǔ)塊,即對(duì)問(wèn)句中的各語(yǔ)塊標(biāo)注框架語(yǔ)義。
3,1,5問(wèn)句焦點(diǎn)的確定
問(wèn)句的焦點(diǎn)即問(wèn)句的答案所指。疑問(wèn)詞是確定問(wèn)句焦點(diǎn)的主要依據(jù)。一般情況下,通過(guò)專有疑問(wèn)詞(例如,誰(shuí)、哪兒、何時(shí)等)可以直接確定問(wèn)題的焦點(diǎn);對(duì)于一些通用疑問(wèn)詞(如,什么、哪個(gè)等),則需要憑借疑問(wèn)詞的附屬成份來(lái)確定問(wèn)題的焦點(diǎn)。筆者對(duì)部分疑問(wèn)詞及其附屬成份從句法角度做了捆綁或過(guò)濾處理,所以,對(duì)問(wèn)句焦點(diǎn)的確定不僅基于所構(gòu)建的疑問(wèn)詞表,而且依據(jù)問(wèn)句的句法、語(yǔ)義分析結(jié)果。
3,2信息檢索模塊
在信息資源的本體化階段,筆者已將法律領(lǐng)域相關(guān)的自然語(yǔ)言文本根據(jù)法律框架網(wǎng)絡(luò)本體的知識(shí)轉(zhuǎn)化成大量的按語(yǔ)義框架歸類(lèi)、以框架元素為最小單位的信息實(shí)例,構(gòu)成基于法律框架網(wǎng)絡(luò)本體的標(biāo)注語(yǔ)料庫(kù)。
在問(wèn)題處理階段,筆者將用戶的問(wèn)題轉(zhuǎn)換成對(duì)某個(gè)語(yǔ)義框架的框架元素及其實(shí)例的查詢。經(jīng)過(guò)這兩部分的處理,就將自然語(yǔ)言檢索的問(wèn)題轉(zhuǎn)換成了對(duì)實(shí)例化語(yǔ)義信息的檢索問(wèn)題。以問(wèn)句的目標(biāo)框架和除目標(biāo)框架元素以外的其他框架元素及其實(shí)例為檢索條件,在信息資源庫(kù)中查找符合條件的框架元素實(shí)例。檢索流程如圖4所示:
首先,根據(jù)從用戶請(qǐng)求處理部分提交過(guò)來(lái)的目標(biāo)語(yǔ)義框架,在本體數(shù)據(jù)庫(kù)中查找該語(yǔ)義框架的所有詞 元;第二步,在語(yǔ)料庫(kù)中查找以這些詞元為目標(biāo)詞的句子標(biāo)注集;第三步,篩選出包含目標(biāo)框架元素實(shí)例的句子,作為答案候選句提交給答案抽取模塊做進(jìn)一步處理。
3,3答案抽取模塊
答案抽取模塊收到信息檢索模塊提交的答案候選句后,采取基于概念圖匹配的方法對(duì)答案候選句與用戶檢索請(qǐng)求進(jìn)行語(yǔ)句相關(guān)度計(jì)算,按照相關(guān)度大小排序選取出相關(guān)度最大的句子作為答案句。最后,提取句中目標(biāo)框架元素的實(shí)例向用戶提交準(zhǔn)備答案。其工作流程如圖5所示:
答案抽取模塊的主要功能是按照與用戶查詢的相關(guān)度對(duì)查詢結(jié)果排序并以一定方式顯示給用戶。因此,查詢結(jié)果的排序算法對(duì)信息檢索系統(tǒng)至關(guān)重要,一個(gè)好的排序算法是檢索系統(tǒng)成功的保證,它直接決定了查詢結(jié)果對(duì)用戶的有用性和重要性。本系統(tǒng)采用了基于概念圖匹配的方法,將問(wèn)句的框架語(yǔ)義結(jié)構(gòu)圖與信息資源中句子的框架語(yǔ)義結(jié)構(gòu)圖視作概念圖進(jìn)行語(yǔ)義相似度計(jì)算。計(jì)算過(guò)程中,句子的語(yǔ)義相似度分為框架概念相似度、框架元素概念相似度和語(yǔ)塊相似度三部分來(lái)考量。計(jì)算公式為:
上式中,Sire(CGQ,CGR)是分別代表問(wèn)句的框架語(yǔ)義結(jié)構(gòu)和信息資源中答案候選句的框架語(yǔ)義結(jié)構(gòu)的查詢概念圖與資源概念圖的相似度。Sire(QFR,RFR)是查詢圖與資源圖中框架概念結(jié)點(diǎn)的相似度。n是查詢概念圖中包含的框架元素概念結(jié)點(diǎn)數(shù)。Sim(QFEi,RFEj)表示查詢概念圖中第i框架元素概念結(jié)點(diǎn)與資源圖中各框架元素概念結(jié)點(diǎn)之間的相似度。選擇資源概念圖中與QFEi相似度最大那個(gè)框架元素概念RFEj作為相匹配的框架元素,進(jìn)一步計(jì)算兩個(gè)相匹配的框架元素結(jié)點(diǎn)對(duì)應(yīng)的語(yǔ)塊間的相似度。對(duì)查詢圖和資源圖中匹配的框架元素的語(yǔ)塊相似度求和后除以查詢圖中框架元素概念結(jié)點(diǎn)的總數(shù),所得結(jié)果與兩圖中框架概念相似度的乘積即是查詢概念圖與資源概念圖之間的相似度或語(yǔ)義相關(guān)度。
4 語(yǔ)義檢索實(shí)驗(yàn)系統(tǒng)LawontoSearch
在前面分析的基礎(chǔ)上,實(shí)現(xiàn)了一個(gè)向用戶提供自然語(yǔ)言接口的語(yǔ)義檢索實(shí)驗(yàn)系統(tǒng)LawOntoSearch。下面通過(guò)一個(gè)實(shí)例說(shuō)明該系統(tǒng)基于本體的語(yǔ)義檢索機(jī)制并分析其運(yùn)行效果。
4,1LawOntoSearch語(yǔ)義檢索機(jī)制
用戶向系統(tǒng)提交檢索問(wèn)句后,系統(tǒng)調(diào)用哈工大信息檢索研究室的語(yǔ)言技術(shù)平臺(tái)“LTP”的句法依存分析系統(tǒng)及詞義消歧系統(tǒng),對(duì)句子進(jìn)行句法依存分析以確定句子的語(yǔ)義核心,即確定句子的目標(biāo)詞。利用詞元庫(kù)確定目標(biāo)詞所激活的語(yǔ)義框架,系統(tǒng)提供了與用戶的交互機(jī)制,當(dāng)目標(biāo)詞元激活多個(gè)語(yǔ)義框架時(shí),可由用戶輔助確定目標(biāo)語(yǔ)義框架。然后,系統(tǒng)對(duì)問(wèn)句進(jìn)行基于目標(biāo)框架的語(yǔ)義分析,明確問(wèn)句中各語(yǔ)塊的語(yǔ)義,并確定問(wèn)句的焦點(diǎn)。例如,當(dāng)用戶輸入檢索問(wèn)句“周紹海偷了什么?”后,系統(tǒng)對(duì)句子的依存句法分析結(jié)果為“(np-subj周紹海)(tgt偷)(np-obj什么)”,表示句子中“周紹!弊鳛槊~短語(yǔ)(np)在句中做主語(yǔ)(subj),“偷”是該句的句法核心(具有述謂意義的詞),因而也成為句子的語(yǔ)義核心,作為句子的語(yǔ)義目標(biāo)詞(tgt)在本體庫(kù)中將激活一個(gè)語(yǔ)義框架“盜竊”。該框架激活這樣一個(gè)語(yǔ)義場(chǎng)景:以非法占有為目的,秘密竊取數(shù)額較大的公私財(cái)產(chǎn),該語(yǔ)義場(chǎng)景的參與角色(即該框架的框架元素)包括犯罪者、物品、時(shí)間、地點(diǎn)等。系統(tǒng)分析得到句子的句法特征“(np-subj)+(tgt)+(np-obj)”后與標(biāo)注語(yǔ)料庫(kù)中存儲(chǔ)的盜竊框架下該詞元的句法特征進(jìn)行匹配,找到相匹配的句法特征并將與之對(duì)應(yīng)的語(yǔ)義特征“(犯罪者)+(偷)+(物品)”賦予該句子,實(shí)現(xiàn)對(duì)用戶檢索問(wèn)句的語(yǔ)義理解并按一定的規(guī)則確定問(wèn)句的焦點(diǎn)。對(duì)該問(wèn)句的處理結(jié)果如圖6所示:
在語(yǔ)料數(shù)據(jù)庫(kù)中要檢索的目標(biāo)框架為“盜竊”,檢索的目標(biāo)框架元素“物品”,約束條件是“犯罪者”是周紹海。
信息檢索模塊以查找出“盜竊”框架下所有詞元的標(biāo)注語(yǔ)句,從中提取出包含框架元素“物品”的實(shí)例(語(yǔ)塊)的句子作為答案候選句。答案抽取模塊計(jì)算答案候選句與問(wèn)句之間的相關(guān)度并按相關(guān)度大小排序,然后按一定的形式向用戶提交檢索結(jié)果。檢索出的答案是“一家貿(mào)易公司的煤”或者“煤”。如圖7所示:
4,2LawOntoSearch的運(yùn)行效果分析
測(cè)試表明,LawOntoSearch實(shí)驗(yàn)系統(tǒng)能夠?qū)崿F(xiàn)對(duì)自然語(yǔ)言提問(wèn)進(jìn)行句法及框架語(yǔ)義自動(dòng)標(biāo)注,并提供友好接口實(shí)現(xiàn)與用戶的交互,及時(shí)修正機(jī)器自動(dòng)標(biāo)注的結(jié)果。并通過(guò)框架庫(kù)及語(yǔ)義消歧系統(tǒng)將用戶提問(wèn)的目標(biāo)詞、語(yǔ)塊進(jìn)行語(yǔ)義擴(kuò)充,以實(shí)現(xiàn)對(duì)用戶提問(wèn)的語(yǔ)義理解。檢索過(guò)程中,能夠?qū)z索結(jié)果進(jìn)行相關(guān)性排序,并結(jié)合問(wèn)句焦點(diǎn)向用戶提供精確答案。
用本系統(tǒng)和一個(gè)基于關(guān)鍵詞的檢索系統(tǒng)分別對(duì)從《中國(guó)法制日?qǐng)?bào)》中的10個(gè)刑事案例文本為檢索資源進(jìn)行處理,并做了一個(gè)簡(jiǎn)單的性能比較。以其中的一篇文本《雇傭保安原本是為防范外賊,沒(méi)想到去“引狼人室”》例,當(dāng)用戶想知道“周紹海偷了什么?”時(shí),LawOntoSearch找到1篇文獻(xiàn),返回與問(wèn)句相關(guān)的4條句子,每條句子中都包含了答案,并可以讀取出準(zhǔn)確答案。當(dāng)用戶向基于關(guān)鍵詞的檢索系統(tǒng)輸入關(guān)鍵詞“周紹海+偷”,發(fā)現(xiàn)系統(tǒng)找不到相關(guān)文獻(xiàn),無(wú)答案返回。而如果用戶向基于關(guān)鍵詞的輸入關(guān)鍵詞“周紹!睍r(shí),系統(tǒng)找到1篇文獻(xiàn),返回13條答案句,其中9條句子并不包含用戶想要的信息。在針對(duì)該文本隨意提出的25個(gè)提問(wèn)中,LawOntoSearch對(duì)其中20個(gè)問(wèn)題給出了答案,答對(duì)18個(gè),2個(gè)錯(cuò)誤是因?yàn)長(zhǎng)awOntoSearch系統(tǒng)沒(méi)有還沒(méi)有涉及到對(duì)于判斷問(wèn)句的處理。對(duì)于基于關(guān)鍵字的檢索系統(tǒng),則對(duì)其中的15個(gè)問(wèn)題做出回答,并且返回答案噪聲較大,其中包含錯(cuò)誤答案和無(wú)關(guān)信息。從這個(gè)簡(jiǎn)單的性能比較可以看出LawOntoSearch系統(tǒng)在檢全率和檢準(zhǔn)率兩方面都比基于關(guān)鍵字的信息檢索系統(tǒng)有一定程度的提高。
5 結(jié)語(yǔ)
本體是對(duì)世界或領(lǐng)域知識(shí)的概念化描述。本文將法律框架網(wǎng)絡(luò)本體應(yīng)用于語(yǔ)義檢索系統(tǒng)中,以實(shí)現(xiàn)對(duì)法律領(lǐng)域的檢索資源和用戶檢索提問(wèn)的語(yǔ)義理解及語(yǔ)義擴(kuò)展,為提高問(wèn)答式檢索系統(tǒng)的性能提高了可靠的保證。不足之處在于,目前語(yǔ)料庫(kù)中不論是標(biāo)注例句語(yǔ)料還是檢索資源語(yǔ)料都規(guī)模較小,對(duì)實(shí)現(xiàn)問(wèn)句的語(yǔ)義分析有一定的制約性;在語(yǔ)義檢索過(guò)程中,只是利用到了框架之間的直接繼承關(guān)系,對(duì)于框架網(wǎng)絡(luò)本體庫(kù)中豐富的語(yǔ)義關(guān)系沒(méi)有充分利用,還沒(méi)最大限度地發(fā)揮這些關(guān)系在信息檢索乃至語(yǔ)義推理中的作用。
相關(guān)熱詞搜索:漢語(yǔ) 語(yǔ)義 本體 基于漢語(yǔ)框架網(wǎng)絡(luò)本體的問(wèn)答式語(yǔ)義檢索系統(tǒng)分析與設(shè)計(jì) 數(shù)據(jù)庫(kù)概念結(jié)構(gòu)設(shè)計(jì) 語(yǔ)義分析技術(shù)
熱點(diǎn)文章閱讀