煙葉香氣風(fēng)格分類中的特征選擇算法研究
發(fā)布時(shí)間:2019-08-24 來(lái)源: 感悟愛(ài)情 點(diǎn)擊:
摘要:煙葉香氣風(fēng)格分類是利用煙葉外觀質(zhì)量、理化成分判定其香型、香氣質(zhì)量的類別。為了提高分類能力,通過(guò)特征選擇發(fā)現(xiàn)最佳屬性集是一種有效的方法。本文對(duì)比研究了信息增益率(GainRatio)、ReliefF、CFS、Wrapper四種特征選擇方法改善煙葉香氣分類器性能的差異。實(shí)驗(yàn)結(jié)果表明:基于遺傳算法的Wrapper方法優(yōu)于其他三種方法,所得最佳屬性集的特征維數(shù)低,而且使分類精確率大大提高。
關(guān)鍵詞:特征選擇;分類;信息增益率;ReliefF;CFS
中圖分類號(hào):TP301.6 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1007-9599 (2010) 14-0000-01
The Feature Selection Algorithm Research on the Tobacco Leaf Aroma Style Classification
Liu Guoqiang1,He Ying2,Wang Wei1
。1.China Ocean University,Qingdao266071,China;2.Qingdao University,Qingdao266071,China)
Abstract:The classification of the tobacco aroma flavor is evaluated according to the tobacco physical and chemical compositions.In order to improve the classification performance,it is an effective method that find the best feature set based on feature selection.The diff-erence of the classification performance of tobacco aroma model is found by comparing four feature selection methods,such as Gain-Ratio,ReliefF,CFS and Wrapper methods.The experiment results have shown that the Wrapper method based on the genetic algori- thm is superior to other three methods,and the character dimension is the lowest,so it can greatly improved the classification accuracy.
Keywords:Feature selection;Classification;Information Gain Ratio;
ReliefF;CFS
一、引言
煙葉的香氣風(fēng)格是人對(duì)煙葉的一種感官評(píng)價(jià),是受煙葉特定的生態(tài)條件、栽培技術(shù)、遺傳因素等因素的影響。近年來(lái),不少學(xué)者利用統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)技術(shù)建立煙葉感官質(zhì)量評(píng)價(jià)模型[1,2]。試圖利用計(jì)算機(jī)建立一種快速評(píng)價(jià)煙葉香氣風(fēng)格的手段,有助于實(shí)現(xiàn)卷煙配方數(shù)字化設(shè)計(jì)。由于建立分類器的輸入屬性維數(shù)較多,其中存在一部分無(wú)關(guān)特征或冗余特征,導(dǎo)致分類器的精度和時(shí)間效率難以提高。一些學(xué)者試圖通過(guò)改進(jìn)一些分類算法來(lái)改善分類器性能,但效果并不明顯。
特征選擇是機(jī)器學(xué)習(xí)領(lǐng)域的熱點(diǎn)研究問(wèn)題之一。特征選擇是從原始特征集中按照評(píng)估標(biāo)準(zhǔn)選擇滿足最優(yōu)的特征子集[3]。目前特征選擇已在文本分類、數(shù)據(jù)挖掘、基因工程、計(jì)算機(jī)視覺(jué)、信息檢索等領(lǐng)域中得到了廣泛應(yīng)用研究。本文研究了四種典型的特征選擇算法:ReliefF、信息增益率(GainRatio)、相關(guān)度量(CFS)、Wrapper的基本原理,以及對(duì)分類器性能的改善能力,并應(yīng)用于煙葉香氣風(fēng)格分類問(wèn)題。
二、特征選擇
特征選擇主要有四個(gè)步驟,首先按照一定的搜索策略產(chǎn)生候選特征子集,再通過(guò)某個(gè)評(píng)價(jià)函數(shù)評(píng)估特征子集的優(yōu)劣,然后根據(jù)預(yù)先指定的特征數(shù)目等條件決定特征選擇算法什么時(shí)候停止,最后驗(yàn)證最終所選的特征子集的有效性。Dash和Liu將特征選擇算法主要分為三類:Filter算法族、Wrapper算法族以及混合算法[4]。下面針對(duì)典型的特征選擇算法簡(jiǎn)單介紹。
。ㄒ唬㏑iliefF算法
Relief算法是由Kira提出的一種特征權(quán)重算法[5]。Kononenko提出了一種改進(jìn)的ReliefF算法,它能處理多類問(wèn)題,對(duì)屬性的數(shù)據(jù)類型沒(méi)有要求,是一種比較有效的特征選擇算法[6]。算法的主要步驟如下:
1.從訓(xùn)練集D中隨機(jī)選擇一個(gè)樣本R;
2.從和R同類的樣本集中找出R的k個(gè)近鄰樣本 ,從每個(gè)R的不同類的樣本集中找出k個(gè)近鄰樣本 ;
3.根據(jù)規(guī)則更新每個(gè)特征的權(quán)重:如果R和最近鄰樣本H在某個(gè)特征上的距離小于R和最近鄰樣本M上的距離,則說(shuō)明該特征對(duì)區(qū)分同類和不同類的最近鄰是有益的,則增加該特征的權(quán)重;反之,則降低該特征的權(quán)重;
4.輸出:特征權(quán)重大于閾值δ的特征組成的特征子集T。
。ǘ┬畔⒃鲆媛(GainRatio)算法
信息增益率算法是根據(jù)評(píng)價(jià)每個(gè)特征對(duì)整體樣本分類所貢獻(xiàn)的信息增量多少作為衡量特征重要性的標(biāo)準(zhǔn),信息越多,特征越重要。假設(shè)所研究的分類問(wèn)題數(shù)據(jù)集S= ,包含m個(gè)特征,類別C共有n個(gè)類別,每一個(gè)類別出現(xiàn)的概率為 ,則分類系統(tǒng)的信息熵為: (1)
某一屬性 對(duì)類屬性C的信息增益如下:
IG(C, )=H(C)-H(C| )= H(C)-(2)
本文采用信息增益率:GainRatio( )= IG(C, ) / H( ) (3)
其中,H(C)是類屬性C的信息熵,特征 共有p個(gè)取值,公式(2)的第2項(xiàng)是特征 對(duì)數(shù)據(jù)集S進(jìn)行分類后的熵的期望值。
。ㄈ┫嚓P(guān)度量CFS算法
相關(guān)度量CFS特征選擇算法是基于相關(guān)性的啟發(fā)式評(píng)價(jià)函數(shù),度量每個(gè)屬性與類屬性是高度相關(guān)還是不相關(guān),將不關(guān)聯(lián)的冗余屬性去除,最終對(duì)特征屬性進(jìn)行降序排序獲得特征子集。評(píng)價(jià)函數(shù)(式4)中Ms是屬性子集中k個(gè)屬性的啟發(fā)式價(jià)值。 為屬性與類之間相關(guān)性的均值, 是屬性間交互相關(guān)性的均值[7]。
(4)
在對(duì)離散數(shù)據(jù)進(jìn)行相關(guān)度量時(shí),利用對(duì)稱不確定方法(式5)計(jì)算屬性與類屬性之間的相關(guān)性大小和屬性X與屬性Y之間的相關(guān)性大小。
(5)
。ㄈ¦rapper方法
Wrapper方法是一種使用歸納算法結(jié)合重復(fù)抽樣技術(shù)來(lái)評(píng)價(jià)特征準(zhǔn)確性的特征選擇算法[8]。本文采用基于遺傳算法的Wrapper方法。算法主要步驟如下:
1.編碼:采用二進(jìn)制編碼,1表示該位代表的特征被選中,0表示特征未被選中。
2.種群初始化:隨機(jī)生成m個(gè)染色體,每個(gè)染色體含有n個(gè)基因,代表n維特征屬性。
3.對(duì)種群中每個(gè)染色體包含的特征屬性,作為訓(xùn)練數(shù)據(jù),訓(xùn)練分類器,以分類器最大準(zhǔn)確率為評(píng)價(jià)函數(shù)計(jì)算評(píng)估值,取出最優(yōu)個(gè)體;
熱點(diǎn)文章閱讀