摘 要: 通過利用Apriori算法抽取評價對象的候選特征集,結合計算領域一致度和領域相關度對候選特征進行過濾,實現了對中文客戶評論的對象特征挖掘,并且用實驗驗證了該方法的有效性。
關鍵詞: 特征挖掘;領域一致度;領域相關度
評論挖掘是一種以從評論數據中探尋有用信息為目標的非結構化數據挖掘技術,主要包含評論對象的特征挖掘、評論觀點挖掘、評論觀點的極性以及強度判斷、評論挖掘結果的匯總以及按用戶觀點排序4個子任務[1]。
評價對象的特征挖掘是指從大量的客戶評論中挖掘出用戶關注的評價對象特征。這一技術是分析用戶對評價對象的具體特征所持的情感傾向的前提,其準確性和全面性是非常重要的。近年來,國內外研究人員對評價對象的特征挖掘進行深入研究,他們采用很多不同方法來對特征進行挖掘[2-6]。本文針對中文客戶評論的特征挖掘的性能不夠理想的問題[7],提出了一種基于Apriori算法抽取候選特征集,集成領域一致度和領域相關度方法對候選特征進行過濾的方法,實現中文客戶評論對象的特征挖掘,并且通過實驗驗證這一方法的有效性。
1 評論對象的特征挖掘
中文客戶評論對象的特征挖掘過程如圖1所示。首先,輸入不同評論對象的評論語料;然后對這些評論語料進行預處理,利用中科院計算所所研發的ICTCLAS系統對評論文本語料進行分詞和二級詞性標注,以評論語料中句子為單位,進行詞性過濾,提取出評論語料中名詞和具有名詞功能的形容詞或者動詞或者名詞短語作為項,每一篇評論項組合起來作為一個事務在事務文件中存為一行。將每個評論對象的所有評論語料中的事務都存儲在一個事務文件中。經過預處理后,每個評論對象均有一個事務文件。然后,應用Apriori算法從事務文件中提取頻繁項集,并通過剪枝方法去除掉一些不合適的頻繁項,得到評價對象的候選特征集。最后,利用特征的領域相關度和領域一致度定義綜合評定指標,根據該指標對候選特征進行過濾,得到評價對象的特征。
1.1 評價對象的候選特征挖掘
定義1 頻繁項:設I是m個項目的集合,T是n個事務集合,其中每個事務S是一個項目集合,并滿足S?哿I。由I中的若干項組成的集合稱為項集,包含k個項的項集稱為k-項集,包含項集的事務數稱為該項集的出現頻度。如果該項集的出現頻度大于或等于預先設定的最小支持度,則稱項集為頻繁項。
定義2 鄰近規則:假設f是頻繁項,而且f包含n個詞,評論句s包含f,而且在f中的詞出現在s中的順序為:w1,w2,…,wn。如果在s中wi和wi+1(i=1,…n-1)的距離不超過兩個詞,則可以說f在s中是鄰近的。
定義3 獨立支持度:頻繁項f的獨立支持度是指包含f本身但不包含f的超集的句子數量,即f的支持度減去f的超集支持度之和。若f的獨立支持度大于最小支持度,則其符合獨立支持度規則。
挖掘評價對象的候選特征過程如算法1所示。首先,應用Apriori算法從預處理得到的評價對象的事務文件中,提取滿足最小支持度的頻繁項集。通過分析評論對象特征的特性,發現3維以上頻繁項不可能是特征,所以只提取3維及其以下的頻繁項;然后,根據鄰近規則,去掉不在其相鄰位置的頻繁項;根據獨立支持度剪枝去掉被包含在其他頻繁項的冗余頻繁項;因為單字不可能是評價對象的特征,所以,刪去頻繁項集中的單字。
算法1 評價對象的候選特征挖掘
輸入:評論語料事務文件W,評論語料庫T
輸出:頻繁特征集L
方法:
int minsupport,int k;
//初始化最小支持度和頻繁項集的最高維度
L0=Apriori(W,minsupport,k);
//通過Apriori算法得到頻繁項集L0
for each f∈L0 do
//對于L0中的大于一維的項根據鄰近規則重新計算支持度
if f.dimension﹥1 then//如果f的維度大于1
f.count=0;//f的支持度重新設置為0
for each t∈T do//對所有事務掃描一遍
if f在t中是鄰近的do//若f在t中符合鄰近規則
f.count++;//f的支持度加1
end if
end for
end if
end for
風華電感 L1={f∈L0|f.count≧minsupport}; 大功率電感廠家 |大電流電感工廠