一種基于詞間關(guān)聯(lián)規(guī)則挖掘的查詢擴展方法 關(guān)聯(lián)規(guī)則挖掘算法

發(fā)布時間:2020-03-07 來源: 感悟愛情 點擊:

  [摘 要]針對現(xiàn)有信息檢索系統(tǒng)中存在的詞不匹配問題,提出一種基于詞間關(guān)聯(lián)規(guī)則的查詢擴展算法,該算法利用現(xiàn)有挖掘算法自動對前列初檢文檔進(jìn)行詞間關(guān)聯(lián)挖掘,提取含有原查詢詞的詞間關(guān)聯(lián)規(guī)則,從中提取擴展詞,實現(xiàn)查詢擴展。實驗結(jié)果表明,該算法能改善和提高信息檢索系統(tǒng)性能,具有很高的應(yīng)用價值。
  [關(guān)鍵詞]查詢擴展 關(guān)聯(lián)規(guī)則 局部反饋 信息檢索
  [分類號]TP391
  
  1 引 言
  
  查詢擴展是提高和改善信息檢索性能的核心技術(shù)之一,指的是利用計算機語言學(xué)、信息學(xué)等多種技術(shù),把與原查詢相關(guān)的詞或者詞組添加到原查詢,得到比原查詢更長的新查詢,然后再次檢索文檔,以改善檢索系統(tǒng)的查全率和查準(zhǔn)率,彌補用戶查詢信息不足的缺陷。傳統(tǒng)的查詢擴展技術(shù)主要有全局分析的、局部分析的查詢擴展。全局分析的查詢擴展是對全部文獻(xiàn)中的詞或詞組進(jìn)行相關(guān)分析,計算每對詞或詞組間的關(guān)聯(lián)程度,將與用戶查詢關(guān)聯(lián)程度較高的詞或者詞組加入原查詢生成新查詢,其主要技術(shù)有全局聚類算法、潛在語義索引(LSI)和相似性詞典等;诰植糠治龅牟樵償U展主要是利用初檢文檔中與原查詢最相關(guān)的n篇文檔作為擴展詞的來源,主要有局部反饋的、用戶相關(guān)反饋的和基于局部上下文分析的查詢擴展等。
  本文從數(shù)據(jù)挖掘的角度研究查詢擴展,提出一種基于詞間關(guān)聯(lián)規(guī)則挖掘的查詢擴展算法,該算法自動對前列初檢文檔進(jìn)行詞間關(guān)聯(lián)挖掘,提取含有原查詢詞的詞間關(guān)聯(lián)規(guī)則,從中提取擴展詞,實現(xiàn)查詢擴展。實驗結(jié)果表明,該算法能改善和提高信息檢索的查全率和查準(zhǔn)率,與未進(jìn)行查詢擴展時比較,采用本文查詢擴展算法后,平均準(zhǔn)確率提高了13.34%,與傳統(tǒng)的局部上下文分析查詢擴展算法比較,其平均準(zhǔn)確率提高了4.87%。
  
  2 基于詞間關(guān)聯(lián)規(guī)則的查詢擴展算法
  
  2.1算法基本思想
  首先對用戶查詢采用傳統(tǒng)的向量空間模型檢索算法(即tf*idf算法)對文檔集初檢,然后,對局部前列初檢文檔進(jìn)行詞間關(guān)聯(lián)規(guī)則挖掘,提取含有原查詢項的關(guān)聯(lián)規(guī)則構(gòu)建規(guī)則庫,從庫中提取擴展詞添加到原查詢中構(gòu)建新查詢,實現(xiàn)查詢擴展。
  
  2.2 面向查詢擴展的詞間關(guān)聯(lián)挖掘及其剪枝策略
  在向量空間模型中,將文檔視為事務(wù),將語詞看作是事物項,即特征項,則可以運用關(guān)聯(lián)規(guī)則挖掘算法對基于向量空間模型的文本數(shù)據(jù)庫進(jìn)行詞間關(guān)聯(lián)規(guī)則挖掘。查詢擴展的核心問題是如何找到與原查詢相關(guān)的擴展詞。針對查詢擴展的特點,我們在文獻(xiàn)的關(guān)聯(lián)規(guī)則挖掘算法基礎(chǔ)上給出了面向查詢擴展的詞間關(guān)聯(lián)規(guī)則挖掘的基本思想,即:用文獻(xiàn)的挖掘算法對文本數(shù)據(jù)庫只挖掘含有原查詢項的詞間關(guān)聯(lián)規(guī)則,讓候選項集減少到最低程度,提高挖掘效率。為此,在原算法的剪枝策略基礎(chǔ)上,增加兩種剪枝策略:一是將頻度為O的候選項集剪掉,因為頻度為O的候選項集不可能成為頻繁項集,二是從候選2_項集開始,將剪掉不含原查詢項的候選項集,只保留含有原查詢項的候選項集。
  
  2. 3擴展模型和擴展詞權(quán)重的計算方法
  本文采用的查詢擴展模型為:原查詢詞→擴展詞(sup,conf)。即規(guī)則前件是查詢項集合,后件是擴展項集合。sup是關(guān)聯(lián)規(guī)則支持度,conf是關(guān)聯(lián)規(guī)則置信度。在查詢擴展中,原查詢項永遠(yuǎn)是最重要的,是最能反映用戶查詢意圖的,應(yīng)該具有最高的權(quán)重。擴展詞的重要性不會高于原查詢語詞。為了體現(xiàn)這種思想,在進(jìn)行查詢擴展時,本文將原查詢項語詞的權(quán)重設(shè)置為2(設(shè)置為2的原因主要是和文獻(xiàn)的算法進(jìn)行實驗比較),擴展詞的權(quán)重置為0到l之間的值(包括0和1),即擴展詞權(quán)重計算公式如下:
  
  
   原查詢相關(guān)的擴展詞,計算其權(quán)重,實現(xiàn)查詢擴展,進(jìn)行第二次檢索,并返回結(jié)果。
  
  3.3實驗結(jié)果及其分析
  將本文查詢擴展算法(即BARBTQE算法)和基于局部上下文分析的查詢擴展算法(即LCA-Based QE)進(jìn)行檢索性能比較。兩種算法分別對所設(shè)計的10個查詢在相同的測試文檔集中進(jìn)行檢索,統(tǒng)計這10個查詢的平均準(zhǔn)確率(MAP)。表l表示分別采用BARBTQE和LCA-Based QE兩種擴展方法后的檢索性能。其中“No Expansion”列表示不進(jìn)行查詢擴展時的檢索性能(即初始檢索結(jié)果的檢索性能),其他兩列表示相應(yīng)擴展方法的檢索性能以及與“No Expansion”相比時改進(jìn)的百分比。
  從表1中可以看出,與未進(jìn)行查詢擴展時相比,兩種查詢擴展方法的檢索性能都有顯著的提高,然而,本文BARBTQE算法的提高幅度最為明顯,其平均準(zhǔn)確率(MAP)比傳統(tǒng)的向量空間模型tf*idf算法(No Expansion)的提高了13.34%,而比LCA-Based QE算法的提高了4.87%。實驗結(jié)果表明,本文算法的檢索性能確實獲得了明顯的提高,比傳統(tǒng)的查詢擴展效果好。主要原因是本文算法引入了查詢擴展機制后,具有明顯歧義性的短查詢詞通過擴展詞可以達(dá)到消歧作用,同時還能檢索到原始短查詢中所不能檢索到的文檔。
  
  
  4 結(jié)論
  
  在信息檢索中,查詢擴展是改善和提高其檢索性能的關(guān)鍵技術(shù)之一。本文提出了一種基于詞間關(guān)聯(lián)規(guī)則的查詢擴展算法,該算法利用現(xiàn)有挖掘算法自動對前列初檢文檔進(jìn)行詞間關(guān)聯(lián)挖掘,提取含有原查詢詞的詞間關(guān)聯(lián)規(guī)則,從中提取擴展詞,實現(xiàn)查詢擴展。實驗結(jié)果表明,該算法能有效地改善和提高信息檢索系統(tǒng)的查全率和查準(zhǔn)率,具有很高的推廣應(yīng)用價值。

相關(guān)熱詞搜索:關(guān)聯(lián) 挖掘 擴展 一種基于詞間關(guān)聯(lián)規(guī)則挖掘的查詢擴展方法 關(guān)聯(lián)規(guī)則挖掘 不屬于大數(shù)據(jù)挖掘形式

版權(quán)所有 蒲公英文摘 m.serialtips.com
谁有黄色毛片黄色网站,天天操美女的逼干,美女131湿影院,完美伴侣电视剧