職業(yè)規(guī)劃范文500字 [句子情感分析及其關(guān)鍵問題]
發(fā)布時(shí)間:2020-03-07 來源: 感悟愛情 點(diǎn)擊:
[摘要]情感分析關(guān)注具有情感傾向的評(píng)價(jià)性信息,具有廣泛的應(yīng)用。情感分析按照粒度的不同分為三種:詞匯情感分析、句子情感分析和文檔情感分析。文中對(duì)句子情感分析及其關(guān)鍵問題進(jìn)行介紹,首先簡(jiǎn)要描述句子情感分析的任務(wù),然后介紹句子情感分析中主客觀句分類方法及兩種主觀句情感分類方法――基于情感詞的方法和機(jī)器學(xué)習(xí)方法,最后對(duì)情感分析中的三個(gè)關(guān)鍵問題――詞匯上下文極性判定、評(píng)價(jià)主題識(shí)別、意見持有者識(shí)別進(jìn)行總結(jié)。
[關(guān)鍵詞]句子情感分析 詞匯上下文極性 評(píng)價(jià)主題 意見持有者
[分類號(hào)]TP391
1、引 言
隨著網(wǎng)絡(luò)的發(fā)展與普及,由普通用戶發(fā)表的包含個(gè)人情感傾向的評(píng)價(jià)性信息越來越多。評(píng)價(jià)性信息包含四個(gè)部分:評(píng)價(jià)主題、意見持有者、評(píng)價(jià)和情感傾向,情感分析通過分析和挖掘評(píng)價(jià)性信息,識(shí)別其情感傾向。情感分析根據(jù)粒度的不同分為三種:詞匯情感分析、句子情感分析和文檔情感分析,三者相比較,句子情感分析能夠得到評(píng)價(jià)主題及各個(gè)方面特征的情感關(guān)系,具有更廣泛的應(yīng)用范圍。
本文將句子情感分析作為研究重點(diǎn),首先簡(jiǎn)要描述句子情感分析的主要任務(wù),然后介紹了主客觀句分類方法以及兩種主觀句情感分類方法――基于情感詞的方法和機(jī)器學(xué)習(xí)方法,最后對(duì)句子情感分析中的關(guān)鍵問題進(jìn)行總結(jié)。
2、句子情感分析的任務(wù)
句子情感分析的任務(wù)是按照句子所表達(dá)的情感傾向?qū)ζ溥M(jìn)行識(shí)別,包含以下兩個(gè)子任務(wù):①主觀句識(shí)別,提取文本中包含的主觀句;②主觀句的情感分類,識(shí)別主觀句的情感傾向,通常是褒/貶二元分類。
2.1 主觀句識(shí)別
主觀句識(shí)別是對(duì)文本進(jìn)行分析,過濾掉其中的客觀句,得到更能反映文本情感傾向的主觀句集合。根據(jù)詞性的不同,Hu Minqing和IAu BingTM將形容詞作為主客觀句的分界線,當(dāng)句子中同時(shí)包含形容詞和評(píng)價(jià)主題時(shí),即認(rèn)為該句為主觀句。句子之間的關(guān)系同樣可以作為判定標(biāo)準(zhǔn),Pang和Lee采用最小圖割的方法獲取文檔中的句子與已知主觀句的關(guān)系;Yu將事實(shí)性文檔看作客觀句集合,評(píng)價(jià)性文檔看作主觀句集合,通過判斷句子與這兩種文檔之間的相互關(guān)系識(shí)別句子的主客觀性。從句子中篩選出具有情感傾向的情感詞和短語作為特征,選擇不同的分類算法如貝葉斯、K鄰近等,采用機(jī)器學(xué)習(xí)的方法進(jìn)行主客觀分類,同樣取得不錯(cuò)的效果;谝(guī)則的方法可以從文檔中提取精度高、觀點(diǎn)清晰的主觀句,但需要人工編寫語言規(guī)則且覆蓋面較窄。
從以上研究可以看出,識(shí)別文檔中的主觀句關(guān)鍵是提取句子中包含的情感詞或者直接判斷,或者結(jié)合其它信息作為特征項(xiàng)送入標(biāo)準(zhǔn)分類器中判斷。句子的主客觀分類能夠有效提高文本情感分析的準(zhǔn)確度,在以上方法中,客觀句的識(shí)別一般在80%左右,而主觀句的識(shí)別比較低,只有60%左右。
2.2 主觀句的情感分類
主觀句的情感分類是對(duì)主觀句所表達(dá)的情感傾向進(jìn)行褒貶識(shí)別,主要包括兩種分類方法:基于情感詞的方法和機(jī)器學(xué)習(xí)方法。
2.2.1 基于情感詞的方法基本思路是通過判定句子中包含情感詞的語義傾向,加上句法結(jié)構(gòu)等信息,間接得到句子的情感傾向。其流程如圖1所示:
通過情感詞判斷句子情感傾向時(shí),yuTM、Kim和Hovy:J、Hu Minqing和Liu Bing首先構(gòu)建一個(gè)情感詞集,并為集合中的每個(gè)情感詞標(biāo)記正/負(fù)整數(shù)值作為情感值。
在得到情感詞集后,Hu Minqing和Liu Bing通過統(tǒng)計(jì)句子中褒義詞和貶義詞的數(shù)量判斷句子的情感傾向;Yu將句子中所有情感詞的情感平均值作為句子的情感值;Kim和Hovy則將否定詞納入到句子情感傾向的判定之中,采用乘積方法來判斷句子的極性,該方法能夠處理否定、雙重否定對(duì)句子情感傾向的反向影響。
采用基于情感詞的方法判定句子情感傾向時(shí),能否得到情感傾向準(zhǔn)確、包含全面的情感詞集是關(guān)鍵,同時(shí)也要考慮一些特殊的句法結(jié)構(gòu)對(duì)結(jié)果的影響,如否定句、比較句等。
2.2.2 機(jī)器學(xué)習(xí)方法:機(jī)器學(xué)習(xí)方法的基本思想是根據(jù)已知訓(xùn)練樣本求取對(duì)系統(tǒng)輸入輸出之間依賴關(guān)系的估計(jì),使它能夠?qū)ξ粗敵鲎鞒霰M可能準(zhǔn)確的預(yù)測(cè)。使用機(jī)器學(xué)習(xí)方法進(jìn)行情感分類時(shí),分類算法的選擇和特征項(xiàng)的選取是最重要的兩個(gè)方面。運(yùn)用機(jī)器學(xué)習(xí)方法進(jìn)行情感分類的過程(見圖2)。
PangBo最早將機(jī)器學(xué)習(xí)方法應(yīng)用于情感分類領(lǐng)域,他分別利用樸素貝葉斯、最大熵、SVM算法對(duì)電影評(píng)論進(jìn)行分類,當(dāng)以u(píng)nigram作為特征項(xiàng)時(shí),SVM表現(xiàn)最好,準(zhǔn)確率為82.9%,最大熵和樸素貝葉斯的效果相當(dāng)。
與PangBo不同,DavaLg在對(duì)幾種產(chǎn)品的評(píng)論進(jìn)行情感分類時(shí),采用bigrarn作為特征項(xiàng)訓(xùn)練分類器的效果最好,這表明分類器效果的好壞與所選取的特征項(xiàng)息息相關(guān)。
在特征項(xiàng)的選擇上,崔彩霞和王素格提出一個(gè)特征項(xiàng)選擇函數(shù),用來替代傳統(tǒng)的文檔頻率和互信息選擇方法。除此之外,王素格等還研究了停用詞對(duì)中文文本情感分類的影響,它構(gòu)造了五種停用詞表作為特征項(xiàng)選擇的依據(jù),實(shí)驗(yàn)表明停用詞表的選擇對(duì)文本情感分類的影響很大。
在采用機(jī)器學(xué)習(xí)方法分類時(shí),同時(shí)選取形容詞、副詞、名詞作為特征項(xiàng)比選取單一詞性的效果要好,對(duì)否定詞進(jìn)行處理能明顯提高分類的準(zhǔn)確性。
在上述機(jī)器學(xué)習(xí)方法中,選取的特征項(xiàng)是相互獨(dú)立的,然而句子中詞匯之間的語義關(guān)系對(duì)判斷文本的情感傾向也很重要。Matsumoto等從句子提取出頻繁子序列和頻繁子樹,與unigram、bigram共同作為特征項(xiàng),采用SVM方法分類時(shí)準(zhǔn)確率達(dá)到了92%以上。Whitelaw將評(píng)價(jià)組作為文本情感傾向識(shí)別的最小單位,同樣采用SVM方法分類,準(zhǔn)確率在78%左右,當(dāng)其它特征項(xiàng)增大文本的覆蓋范圍時(shí),準(zhǔn)確率上升到90%以上。
3、句子情感分類的關(guān)鍵問題
在許多應(yīng)用中,不但需要對(duì)句子的主客觀性和整體情感傾向進(jìn)行識(shí)別,還需要深入句子內(nèi)部分析評(píng)價(jià)主題和各個(gè)特征的情感傾向以及與意見持有者的從屬關(guān)系。本文從實(shí)際應(yīng)用的角度出發(fā)總結(jié)出句子情感分析的三個(gè)關(guān)鍵問題,下面分別介紹。
3.1 詞匯上下文極性的判定
詞匯含有兩種極性,原極性和上下文極性。原極性指詞匯本身的極性;上下文極性指詞匯在文本中的極性。在上下文中,由于受到周圍詞匯影響,詞匯的情感強(qiáng)度可能發(fā)生變化,甚至與原極性相反。正確識(shí)別詞匯的上下文極性能夠有效提高情感分類的準(zhǔn)確率。
婁德成等和徐琳宏等研究了否定詞和強(qiáng)度詞對(duì)詞匯極性的影響。前者構(gòu)建否定詞字典和強(qiáng)度詞字典,對(duì)文本進(jìn)行詞性標(biāo)注后,根據(jù)詞性找到詞匯間的依存關(guān)系,計(jì)算詞匯的上下文傾向。后者采用否定規(guī)則匹配文檔中的否定旬,同時(shí)處理強(qiáng)度詞附近具有明顯語義傾向的詞匯,得到經(jīng)過否定處理和強(qiáng)度處理的特征項(xiàng),分類效果比處理前提高了5%左右。
Wilson等首先判斷句子中短語的主客觀性,從 主觀性短語中選取詞匯特征和極性特征,對(duì)短語的上下文極性采用機(jī)器學(xué)習(xí)方法判斷。同樣可以采用人工編寫規(guī)則的方法來判斷詞匯的上下文極性,該方法可以達(dá)到非常高的準(zhǔn)確率,然而查全率很低,并且只能對(duì)部分情感表達(dá)進(jìn)行判斷。
詞匯上下文極性的識(shí)別是句子情感分析的關(guān)鍵,然而由于自然語言的差異以及句法結(jié)構(gòu)的復(fù)雜性,使得詞匯的上下文極性很難判斷;另外,人為因素如書寫不規(guī)范、人造詞語等也增加了這方面的困難。要準(zhǔn)確地判斷詞匯上下文極性,還需要吸收一些語言學(xué)方面的研究成果。
3.2 評(píng)價(jià)主題的識(shí)別
評(píng)價(jià)主題包括顯性評(píng)價(jià)主題和隱性評(píng)價(jià)主題,前者可以直接從句子中得到,而隱性評(píng)價(jià)主題只能根據(jù)句子中詞匯之間的關(guān)系來判斷。
3.2.1 顯性評(píng)價(jià)主題的識(shí)別:Hu Minqing和LiuBingTM認(rèn)為,雖然在一篇文檔中會(huì)涉及到對(duì)評(píng)價(jià)主題多個(gè)方面的評(píng)價(jià),但他們所用的詞匯具有收斂關(guān)系,可以通過關(guān)聯(lián)挖掘方法從文本中得到經(jīng)常出現(xiàn)和較少出現(xiàn)的評(píng)價(jià)主題。
婁德成等提出SBV算法及其補(bǔ)充算法,利用詞匯間的語義關(guān)系從漢語主觀旬中識(shí)別評(píng)價(jià)主題。由于漢語語義關(guān)系的復(fù)雜性和網(wǎng)絡(luò)中用戶評(píng)論結(jié)構(gòu)的不規(guī)范性,該方法在實(shí)驗(yàn)中的準(zhǔn)確率只有40%。
天網(wǎng)知名度系統(tǒng)將名人作為評(píng)價(jià)主題,能夠從網(wǎng)絡(luò)中自動(dòng)抽取名人的姓名以及相應(yīng)的評(píng)價(jià),但它只能提供名人的總體評(píng)價(jià),缺乏對(duì)某一方面的具體評(píng)價(jià)。
蘇祺通過對(duì)主觀句進(jìn)行詞性標(biāo)注,將名詞和名詞短語作為候選主題,在對(duì)候選主題過濾后進(jìn)行聚類。該方法不但能識(shí)別顯性評(píng)價(jià)主題,還可以得到具有內(nèi)在聯(lián)系的評(píng)價(jià)主題集合。
3.2.2 隱性評(píng)價(jià)主題的識(shí)別:很多情況下旬子中并沒有將評(píng)價(jià)主題顯示出來,而是通過一些詞語表達(dá)。例如“這輛車很靈活”,就隱性地對(duì)汽車的操控性進(jìn)行評(píng)價(jià)。隱性評(píng)價(jià)主題的識(shí)別依賴于上下文語義分析,目前只有少數(shù)的研究涉及。
在隱性評(píng)價(jià)主題的識(shí)別上,可以將評(píng)價(jià)詞匯與評(píng)價(jià)主題映射,如圖3所示:
它在PMI-IR的基礎(chǔ)上提出了用于計(jì)算評(píng)價(jià)性詞語與評(píng)價(jià)主題之間相互關(guān)系的FB-PMI-IR方法,可以根據(jù)值的大小確定評(píng)價(jià)性詞語與主題的關(guān)系。例如“漂亮”與“動(dòng)力性”FB-PMI-IR值為-12.01,與“外觀”的值為-4.79,從而可以得到“漂亮”更有可能修飾“外觀”。
評(píng)價(jià)主題的識(shí)別是句子情感分析應(yīng)用的重要方面。在領(lǐng)域中,評(píng)價(jià)主題及對(duì)應(yīng)的情感詞是一個(gè)有限集合,兩者之間存在著多對(duì)多的關(guān)系。在通過機(jī)器學(xué)習(xí)識(shí)別這些關(guān)系時(shí),需要大量的評(píng)價(jià)文本做支撐,如何獲得高質(zhì)量的標(biāo)注評(píng)價(jià)文本,是提高評(píng)價(jià)主題識(shí)別準(zhǔn)確率的關(guān)鍵。
3.3 意見持有者的識(shí)別
意見持有者是對(duì)評(píng)價(jià)主題進(jìn)行評(píng)價(jià)的主體,包括個(gè)人、機(jī)構(gòu)等實(shí)體,對(duì)意見持有者進(jìn)行識(shí)別能夠得到某人對(duì)某事的具體態(tài)度。
一般來說,可以通過命名實(shí)體識(shí)別將人或機(jī)構(gòu)名作為意見持有者,但該方法的語言覆蓋率較差且領(lǐng)域獨(dú)立性較弱。Kim和Hovy 、Xu和Wong將個(gè)人、機(jī)構(gòu)、國(guó)家和群體四種實(shí)體作為候選意見持有者,前者通過最大熵評(píng)測(cè)算法從中選取可能性最大的實(shí)體作為意見持有者;而后者通過在句子中找到意見算子進(jìn)而確定意見持有者,同時(shí)考慮到修飾實(shí)體的詞匯及其附近實(shí)體對(duì)意見持有者識(shí)別的影響,如短語“美國(guó)總統(tǒng)布什”作為一個(gè)整體被看做意見持有者。
Choi等把意見持有者的識(shí)別看做是一個(gè)信息抽取任務(wù),考慮到句子表達(dá)的情感強(qiáng)度,將基于規(guī)則的信息抽取和機(jī)器學(xué)習(xí)方法相結(jié)合來識(shí)別意見持有者。
總體來說,相對(duì)于詞匯上下文極性的判定和評(píng)價(jià)主題的識(shí)別,句子中意見持有者識(shí)別的難度更高,這主要表現(xiàn)在:①一個(gè)句子中可能會(huì)包含多個(gè)評(píng)價(jià),需要為每個(gè)評(píng)價(jià)確定對(duì)應(yīng)的意見持有者;②一個(gè)句子可能包含多個(gè)意見持有者,需要判斷它們之間的關(guān)系;③需要考慮句子之間評(píng)價(jià)與意見持有者的關(guān)系。
4、結(jié) 語
由于在商業(yè)方面巨大的應(yīng)用價(jià)值,情感分析受到許多研究機(jī)構(gòu)的重視。在技術(shù)上,產(chǎn)生了多種情感特征抽取方法和分類策略;在應(yīng)用上,基于情感分析的應(yīng)用系統(tǒng)層出不窮,如意見挖掘系統(tǒng)、輿情分析系統(tǒng)等。但是由于自然語言情感表達(dá)方式的多樣性,情感分析仍然面臨著許多困難,筆者認(rèn)為,未來情感分析研究的熱點(diǎn)主要集中在:
?文本情感強(qiáng)度判斷。情感分析不僅得出好/壞、正面/負(fù)面這樣的二元分類,還應(yīng)該對(duì)句子的情感強(qiáng)度進(jìn)行分析。例如可以通過加權(quán),為各個(gè)情感詞設(shè)置不同權(quán)重的方法對(duì)句子及其中包含的主觀性短語進(jìn)行強(qiáng)度分析。
?更有效的特征抽取方法。通過改進(jìn)現(xiàn)有的或設(shè)計(jì)新的特征抽取方法,從文本中提取出更能表達(dá)文本情感的主題、情感詞特征以及影響文本情感傾向的句法信息、特殊詞匯等,提高文本情感分類的效率。
?情感語料庫的建設(shè)。對(duì)非頻繁特征來說,數(shù)據(jù)稀疏一直是基于機(jī)器學(xué)習(xí)方法的瓶頸,作為情感分析的知識(shí)來源,需要建設(shè)大規(guī)模情感語料庫,在語料的采集、標(biāo)注規(guī)范的制定及語料庫應(yīng)用等方面提供規(guī)則。
?中文特殊句法結(jié)構(gòu)處理。漢語表達(dá)方式的多樣性、句法結(jié)構(gòu)的復(fù)雜性使中文文本情感分析更加復(fù)雜,其中否定句、比較句是最常見的兩種類型,對(duì)中文句子的句法分析需要借助于語言學(xué)領(lǐng)域的研究成果。
?更廣泛的應(yīng)用。情感分析需要與其它領(lǐng)域相結(jié)合,形成更有價(jià)值的應(yīng)用。如可以將情感詞、主題等作為查詢條件的情感檢索;對(duì)產(chǎn)品評(píng)論進(jìn)行情感分析后得到規(guī)范的情感摘要;識(shí)別不同網(wǎng)站相互轉(zhuǎn)載的重復(fù)信息、競(jìng)爭(zhēng)對(duì)手發(fā)布的惡意信息等垃圾信息識(shí)別等。
?跨領(lǐng)域研究。在目前的情感分析中,情感詞本身所表示的情感極性與主題所屬的領(lǐng)域密切相關(guān),在大部分情況下,這種領(lǐng)域依賴是不同主題領(lǐng)域中常用詞匯變化的結(jié)果。當(dāng)同一個(gè)情感詞與不同的主題、不同的特征相關(guān)聯(lián)時(shí),可能表達(dá)了截然相反的情感極性,這就需要對(duì)情感分析的跨領(lǐng)域問題進(jìn)行研究。
相關(guān)熱詞搜索:句子 關(guān)鍵 情感 句子情感分析及其關(guān)鍵問題 文本情感分析若干問題分析 文本情感分析
熱點(diǎn)文章閱讀