文本分類綜述 國內(nèi)外文本分類研究計(jì)量分析與綜述
發(fā)布時(shí)間:2020-03-10 來源: 感悟愛情 點(diǎn)擊:
[摘要]運(yùn)用文獻(xiàn)計(jì)量分析方法、計(jì)算機(jī)統(tǒng)計(jì)分析技術(shù)、社會(huì)網(wǎng)絡(luò)分析軟件對文本分類領(lǐng)域的歷史文獻(xiàn)進(jìn)行計(jì)量分析及可視化,通過繪制文獻(xiàn)數(shù)量分布圖、核心關(guān)鍵詞的共現(xiàn)網(wǎng)絡(luò),挖掘文本分類領(lǐng)域的發(fā)展趨勢、目前研究概況、熱點(diǎn)及未來研究趨勢等信息,并對文本分類領(lǐng)域研究熱點(diǎn)和未來研究趨勢進(jìn)行綜述。
[關(guān)鍵詞]文本分類計(jì)量分析社會(huì)網(wǎng)絡(luò)分析可視化圖譜
[分類號]G250 TP391
1
引言
隨著數(shù)字化文檔信息總量的快速增長,大規(guī)模文本處理已經(jīng)成為一個(gè)挑戰(zhàn)。傳統(tǒng)向量空間模型表征文本的方法逐漸呈現(xiàn)出一些問題,比如忽視詞間語義關(guān)系,不能解決同義詞、多義詞、詞間上下位關(guān)系等問題,為解決這些問題,國內(nèi)外學(xué)者開始從概念或語義層次上對文本自動(dòng)分類方法展開廣泛的研究,出現(xiàn)一些新的文本分類方法,如基于詞典或概念的文本分類、基于本體或語義的文本分類等。隨著文本分類領(lǐng)域的快速發(fā)展,文本分類領(lǐng)域的總體發(fā)展趨勢、研究概況、熱點(diǎn)及未來發(fā)展趨勢如何,將是關(guān)注的焦點(diǎn)。因此關(guān)于文本分類領(lǐng)域文獻(xiàn)信息的計(jì)量分析與綜述具有重要的理論和現(xiàn)實(shí)指導(dǎo)意義。
2 樣本與方法
在樣本數(shù)據(jù)檢索中,共檢索到1 851篇國內(nèi)外相關(guān)文獻(xiàn)。在方法運(yùn)用上,利用文獻(xiàn)計(jì)量分析方法對國內(nèi)外文本分類領(lǐng)域的發(fā)展趨勢進(jìn)行對比分析;利用Ex―cel 2007、SQL語句的數(shù)據(jù)處理與統(tǒng)計(jì)分析功能、社會(huì)網(wǎng)絡(luò)分析軟件Ucinet和NetDraw的數(shù)據(jù)分析及可視化功能等,對文本分類文獻(xiàn)中的關(guān)鍵詞進(jìn)行詞頻統(tǒng)計(jì)與分析、共現(xiàn)頻次統(tǒng)計(jì)與分析,繪制國內(nèi)外文本分類領(lǐng)域研究概況和熱點(diǎn)的可視化圖譜。據(jù)此可以解讀國內(nèi)外文本分類領(lǐng)域的發(fā)展趨勢、研究概況、熱點(diǎn)等信息。樣本數(shù)據(jù)的檢索情況如表1所示:
3 分析與結(jié)果
3.1文獻(xiàn)數(shù)量分析
對表1中1980-2009年30年間的國內(nèi)外文本分類文獻(xiàn)數(shù)量進(jìn)行分析(5年一個(gè)區(qū)間,30年共計(jì)6個(gè)區(qū)間),具體如圖1所示:
從圖1可以看出,國外在文本分類方面的研究存在如下特點(diǎn):①起步較早。德國學(xué)者Giere w和Dett-mer H在1986年就提出基于詞典的文本分類與檢索。國內(nèi)在1999年才出現(xiàn)文本分類方面的研究文獻(xiàn),比國外晚了13年。②實(shí)際應(yīng)用成果多,理論落后于實(shí)踐。國外自動(dòng)分類技術(shù)早在1975年就進(jìn)入實(shí)用化階段,而理論研究從1986才開始,落后于實(shí)踐11年。③發(fā)展速度快。國外從1995年開始進(jìn)人快速增長期,而國內(nèi)從2000年才開始進(jìn)入快速增長期,比國外晚了5年。國內(nèi)在文本分類方面的研究雖然起步較晚,應(yīng)用成果少,但是發(fā)表的文獻(xiàn)數(shù)量較多。國外在快速增長期(1995―2009)內(nèi)共發(fā)表文獻(xiàn)510篇,而國內(nèi)在快速增長期(2000―2009)內(nèi)發(fā)表文獻(xiàn)1 338篇,比國外多出828篇。
3.2詞頻分析
利用作者提出的詞頻統(tǒng)計(jì)分析方法對檢索到的文獻(xiàn)關(guān)鍵詞進(jìn)行統(tǒng)計(jì)分析,獲得文本分類領(lǐng)域高頻關(guān)鍵詞86個(gè)。對86個(gè)高頻關(guān)鍵詞進(jìn)行詞頻分析,發(fā)現(xiàn)國內(nèi)外對文本分類領(lǐng)域的研究主要集中在以下幾個(gè)部分(詞匯后括號中的數(shù)字為詞頻):3.2.1
文本分類過程
主要對分詞(18)、詞匯處理(27)、文本表示(27)、向量空間模型(200)等進(jìn)行研究。最常用的文本表示方法是向量空間模型,到目前為止,國內(nèi)外學(xué)者重點(diǎn)研究的向量空間模型主要有詞向量空間模型、語義向量空間模型。詞向量空間模型存在向量空間維度過高、詞項(xiàng)之間缺乏語義關(guān)系等問題,針對這些問題,國內(nèi)外學(xué)者提出語義向量空間模型,嘗試?yán)脻撛谡Z義索引(32)技術(shù)或本體(28)的概念語義關(guān)系挖掘詞項(xiàng)之間的語義關(guān)系,構(gòu)建低維的語義向量空間模型。3.2.2文本分類算法
目前國內(nèi)外學(xué)者重點(diǎn)研究的文本分類算法有支持向量機(jī)算法(257)、K-近鄰算法(102)、神經(jīng)網(wǎng)絡(luò)算法(90)、樸素貝葉斯算法(56)、決策樹算法(28)和遺傳算法(24)。未來研究趨勢將是各類算法的融合、改進(jìn)和提高。3.2.3
文本分類降維技術(shù)
文本分類的一個(gè)核心難題就是特征空間的高維性,因此文本分類降維技術(shù)是國內(nèi)外學(xué)者研究的重中之重。降維技術(shù)主要分為兩大類:特征選擇(475)和特征重構(gòu)(85)。特征選擇是去除文檔中信息量少的項(xiàng)以提高分類的效率,目前流行的特征選擇方法有TF×IDF方法(11)、主分量分析(6)、互信息(27)、信息增益(20)和信息熵(6)。特征重構(gòu)是將原有特征集T加以聯(lián)系和轉(zhuǎn)化以構(gòu)建新特征集T’的過程,從而使得降維的效果最大化。目前主要有兩種特征重構(gòu)方法:項(xiàng)聚類(25)和潛在語義索引(32)。3.2.4文本分類應(yīng)用領(lǐng)域
主要對文本分類在信息檢索(216)、學(xué)習(xí)系統(tǒng)(205)、數(shù)據(jù)挖掘(115)、文本挖掘(39)、模式識別(35)、數(shù)字圖書館(13)等領(lǐng)域的應(yīng)用方法、原理和模型進(jìn)行研究。
3.3共現(xiàn)頻次分析
利用程序統(tǒng)計(jì)“文本分類”與3.2節(jié)中獲得的86個(gè)高頻關(guān)鍵詞在文本分類文獻(xiàn)標(biāo)題中共現(xiàn)的頻次,根據(jù)詞匯之間的共現(xiàn)頻次,利用Ueine6的矩陣編輯功能構(gòu)建文本分類與其領(lǐng)域關(guān)鍵詞匯的共現(xiàn)矩陣,再利用NetDraw繪制文本分類與其領(lǐng)域關(guān)鍵詞匯的共現(xiàn)網(wǎng)絡(luò)如圖2所示:
從圖2可以看出,文本分類領(lǐng)域的研究熱點(diǎn)主要有文本分類特征選擇方法、文本分類方法如傳統(tǒng)的支持向量機(jī)分類算法、K-近鄰分類算法和目前基于語義的文本分類方法。
4 文本分類研究熱點(diǎn)綜述
4.1
文本分類特征選擇方法
目前常用的特征選擇方法有TFIDF方法、互信息、信息增益等,其主要利用特征權(quán)重統(tǒng)計(jì)方法統(tǒng)計(jì)文檔集中特征項(xiàng)的權(quán)重,然后設(shè)定閾值,選擇特征權(quán)重大于等于閾值的特征項(xiàng)構(gòu)建文檔特征空間,進(jìn)行文本分類模型的訓(xùn)練。不過在特征選擇過程中,由于沒有考慮詞間語義關(guān)系如同義關(guān)系、多義關(guān)系、上下位關(guān)系等造成特征空間維度較高,文本分類性能無法提高到一個(gè)更高水平。針對此問題,國內(nèi)外學(xué)者對傳統(tǒng)特征選擇方法進(jìn)行改進(jìn)和提高,將特征選擇方法與特征重構(gòu)方法如聚類、潛在語義索引等進(jìn)行融合。如國內(nèi)學(xué)者劉海峰等人將TFIDF和互信息特征選擇方法分別進(jìn)行改進(jìn),并重新組合,形成一種新的特征選擇方法季鐸、鄭偉、蔡東風(fēng)等人提出融合文檔頻率和潛在語義索引的文檔特征優(yōu)化方法,首先利用文檔頻率對文檔集合進(jìn)行特征選擇,然后利用潛在語義索引技術(shù)挖掘特征之問語義關(guān)聯(lián),形成低維語義向量空間。
4.2文本分類方法4.2.1
支持向量機(jī)分類算法支持向量機(jī)算法是以結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則為基礎(chǔ),通過構(gòu)造分類超平面進(jìn)行無序文本的分類,具有很強(qiáng)的學(xué)習(xí)能力和較好的泛化性能,只需較少的樣本就可迅速訓(xùn)練出具有較高性能指標(biāo)的分類器,在解決小樣本、非線形及高維模式識別問題中表現(xiàn)出許多特有優(yōu)勢。不過,其對于大規(guī) 模數(shù)據(jù)集,訓(xùn)練速度異常緩慢,并且需要占用很多內(nèi)存。針對此問題,一些學(xué)者提出相應(yīng)的解決方案如利用數(shù)據(jù)集分解算法如Bagging算法、Google的Map/Reduce算法等,將大數(shù)據(jù)集分解成小數(shù)據(jù)集分別進(jìn)行支持向量機(jī)的訓(xùn)練,然后通過合并算法將各支持向量機(jī)進(jìn)行兩兩合并,形成最終的支持向量機(jī)分類模型。4.2.2 K-近鄰分類算法
K-近鄰分類算法(KNN算法)的基本思想是在訓(xùn)練樣本中找到測試樣本的K個(gè)最近鄰,然后根據(jù)這K個(gè)最近鄰的類別來決定測試樣本的類別,具有很好的魯棒性,簡單易用,對于大規(guī)模數(shù)據(jù)非常有效。但是,它存在如下缺點(diǎn):①計(jì)算量巨大,要求計(jì)算未知文本與所有訓(xùn)練樣本間的相似度,進(jìn)而得到K個(gè)最近鄰樣本。針對此問題,吳春穎和王士同提出融合Rocchio和KNN的文本分類方法,其先通過Rocchio分類算法快速得到k。個(gè)最有可能的候選類別,然后在k個(gè)類別訓(xùn)練文檔中抽取部分代表樣本采用KNN算法”。②在決定測試樣本的類別時(shí),把測試樣本的K個(gè)最近鄰等同對待,沒有考慮這K個(gè)最近鄰在所屬類別中的重要程度。針對此問題,江濤、陳小莉等學(xué)者提出利用聚類算法,求出訓(xùn)練樣本集合中每個(gè)訓(xùn)練樣本的隸屬度,利用隸屬度來區(qū)別對待測試樣本的K個(gè)最近鄰。4.2.3
基于語義的文本分類方法該方法主要借助本體、項(xiàng)聚類、潛在語義索引等挖掘詞間語義關(guān)系,將原文檔詞項(xiàng)之間相互獨(dú)立的高維特征空間轉(zhuǎn)換為低維的語義特征空間或概念特征空間進(jìn)行文本分類模型的訓(xùn)練。本體具有豐富的概念語義關(guān)系如同義關(guān)系、多義關(guān)系、上下位關(guān)系等和清晰的層次結(jié)構(gòu),利用本體可以將原文檔高維特征向量中詞性不同而語義相同的特征映射成相同的特征即本體同義詞集,將具體的特征映射成通用特征即本體通用概念,從而建立低維的概念或語義向量空間模型。項(xiàng)聚類就是試圖將在語義方面具有高關(guān)聯(lián)性的項(xiàng)分組,以該分組的表示代替這些項(xiàng)成為向量空間中的維度。潛在語義索引是一個(gè)通過詞共現(xiàn)產(chǎn)生語義向量模型的文本分類和文檔索引技術(shù),主要通過詞一文本矩陣的奇異值分解技術(shù)解決文檔向量維度過高的問題。
5 文本分類未來研究趨勢
5.1
特征選擇方法與特征重構(gòu)方法之間的融合
特征選擇方法在進(jìn)行特征選擇時(shí)認(rèn)為各個(gè)特,征維度之間是相互獨(dú)立的,沒有考慮特征維度之間的語義關(guān)聯(lián),從而降低了分類的精度。目前加強(qiáng)語義信息的特征選擇方法如主分量分析或特征重構(gòu)建方法如項(xiàng)聚類、潛在語義分析等利用統(tǒng)計(jì)信息方法來發(fā)現(xiàn)文檔特征間的關(guān)聯(lián),這些方法雖然在挖掘特征之間語義關(guān)系上占有優(yōu)勢,但它們在特征選擇上存在很大的局限性。因此,文本分類特征選擇方法的未來研究趨勢足傳統(tǒng)特征選擇方法的改進(jìn)和提高、特征選擇方法與特征重構(gòu)方法之間的融合,如融合互信息和聚類的特征選擇,即通過互信息最大化從原始特征空間中選擇次優(yōu)特征子集,借助特征空間的聚類來剔除冗余特征,從而實(shí)現(xiàn)特征空間的再次降維。
5.2文本分類算法之間的融合、改進(jìn)和提高
目前已經(jīng)出現(xiàn)很多有效的文本分類算法,這些算法各有優(yōu)缺點(diǎn)。因此未來研究趨勢是如何將這些算法進(jìn)行融合、改進(jìn)和提高,利用它們的優(yōu)勢,摒棄它們的劣勢,取長補(bǔ)短,從而有效提高文本分類算法的性能。比如:李蓉、葉世偉等人針對支持向量機(jī)(Support Vec-tor Machine,SVM)在對分類超平面附近樣本進(jìn)行分類時(shí),容易將其誤分,而KNN很容易將其分開的現(xiàn)象,提出基于SVM和KNN融合的分類方法。該方法對樣本在空間中的不同分布使用不同的分類方法,即樣本離分界面較遠(yuǎn)時(shí),用SVM分類,反之用KNN分類;美國學(xué)者M(jìn)itra,Vikramjit等人針對支持向量機(jī)在進(jìn)行大規(guī)模樣本數(shù)據(jù)分類時(shí),效率和分類性能非常低,而神經(jīng)網(wǎng)絡(luò)具有大規(guī)模并行、分布式存儲(chǔ)和處理、自組織和自學(xué)習(xí)的能力,提出一種融合遞歸神經(jīng)網(wǎng)絡(luò)和最小二乘支持向量機(jī)的文本分類模型,從而提高SVM訓(xùn)練效率和分類性能,實(shí)驗(yàn)顯示分類準(zhǔn)確率達(dá)到99.66%。
5.3語義或概念向量空間模型文本分類方法
傳統(tǒng)詞向量空間模型文本分類方法沒有考慮詞間語義關(guān)系,造成文檔向量空間維度高,不能解決同義詞和多義詞對分類的干擾,因此語義或概念向量空間模型文本分類方法開始成為國內(nèi)外學(xué)者研究的熱點(diǎn)和方向。目前已出現(xiàn)很多語義或概念向量空間模型的構(gòu)建方法,其中比較流行的有潛在語義分析法、本體語義映射法、概念格構(gòu)建法、規(guī)范化概念分析法等。如Deer―wester,Scott在1990年提出的潛在語義索引模型,通過奇異值分解技術(shù)將原文檔詞向量空間分解成低維的語義向量空間。芬蘭學(xué)者Fili PGinter等人在2004年提出利用本體的概念語義關(guān)系將原文檔高維特征向量轉(zhuǎn)換成低維語義特征向量。意大利學(xué)者Carpine-to,Claudio等人在2009年提出基于概念格的支持向量機(jī)文本分類方法,通過規(guī)范化概念分析挖掘文檔特征之間關(guān)系,構(gòu)建概念格進(jìn)行文本分類模型的訓(xùn)練。
6 結(jié)語
本文從文獻(xiàn)計(jì)量分析的角度,對文本分類領(lǐng)域的發(fā)展趨勢、目前研究概況、熱點(diǎn)及未來研究趨勢進(jìn)行綜述,使讀者對該領(lǐng)域有一個(gè)直觀、清晰的認(rèn)識,為以后的研究工作提供指引。
相關(guān)熱詞搜索:計(jì)量 綜述 文本 國內(nèi)外文本分類研究計(jì)量分析與綜述 文本分類研究現(xiàn)狀 文本分類技術(shù)研究進(jìn)展
熱點(diǎn)文章閱讀