NLP情感分析之情感分類
情感分析與情感分類
情感分析(sentiment analysis)是近年來國內外研究的熱點,其任務是幫助使用者快速獲取、整理和分析相關評價資訊,對帶有情感色彩的主觀性文字進行分析、處理、歸納和推理。
情感分析包含較多的任務,如情感分類(sentiment classification)、觀點抽取(opinion extraction)、觀點問答和觀點摘要等。因此很難簡單地將其劃歸為某一個領域,往往從不同的角度將其劃歸到不同的方向。如果單純地判別文字的傾向性,可以將其看作是一個分類任務;如果要從觀點句中抽取相關的要素(觀點持有者、觀點評價物件等),則是一個資訊抽取任務;而如果要從海量文字中找到對某一事物的觀點,則可以看作是一個檢索任務。
隨著網際網路技術的迅速發展和普及,對網路內容管理、監控和有害(或垃圾)資訊過濾的需求越來越大,網路資訊的主觀傾向性分類受到越來越多的關注。這種分類與傳統的文字分類不同,傳統的文字分類所關注的是文字的客觀內容(objective),而傾向性分類所研究的物件是文字的“主觀因素”,即作者所表達出來的主觀傾向性,分類的結果是對於一個特定的文字要得到它是否支援某種觀點的資訊。這種獨特的文字分類任務又稱為情感分類。
情感分類
情感分類是指根據文字所表達的含義和情感資訊將文字劃分成褒揚的或貶義的兩種或幾種型別,是對文字作者傾向性和觀點、態度的劃分,因此有時也稱傾向性分析(opinion analysis)。
情感分類作為一種特殊的分類問題,既有一般模式分類的共性問題,也有其特殊性,如情感資訊表達的隱蔽性、多義性和極性不明顯等。
針對這些問題人們做了大量研究,提出了很多分類方法。這些方法可以按機器學習方法歸類,也可以按情感文字的特點劃分。
1.按機器學習方法分類
根據機器學習方法所使用訓練樣本的標註情況,情感文字分類可以大致分為有監督學習方法、半監督學習方法和無監督學習方法三類。
有監督學習方法:基於有監督學習的情感分類方法使用機器學習方法用於訓練大量標註樣本。
2002首次將有監督的學習方法應用到情感分類中,文獻中分別比較了多種分類演算法以及各種特徵和特徵權值選擇策略在基於監督學習的情感分類中的效果。2004將主觀句摘要引入情感分類中;2010分析了極性轉移對情感分類的影響;2011使用基於特徵空間及分類演算法的整合學習方法有效地提高了情感分類的效能。
半監督學習方法:基於半監督學習的情感分類方法是通過在少量標註樣本上訓練,並在大量未標註樣本上進行學習的方式構建分類模型。
2009將多種機器學習方法(例如:聚類方法、整合學習等)融入基於半監督學習的情感分類中;面對情感分類中漢語標註語料匱乏的問題,2009採用協同學習方法使用標註的英文語料和無標註的中文語料實現了高效能的中文情感分類。2010將情感文字的表達分為個人的和非個人的兩種檢視,應用協同學習進行情感分類的半監督學習。
無監督學習方法:基於無監督學習的情感分類方法是指僅使用非標註樣本進行情感分類建模。
以往的大部分研究工作都是通過情感分類標註的種子詞集來實現無監督分類,2002通過計算文字中候選單詞與種子情感詞之間的點互資訊來計算文字的情感傾向性,選擇“excellent”和“poor”作為種子詞,在得到每個單詞與種子詞之間的點互資訊後,根據SO-PMI計算每個詞的情感傾向性,並通過詞語計數的方式計算文字的整體情感傾向性。2006通過基於HowNet的語義分析抽取單詞的情感資訊。2009根據樣本空間中文件與單詞的共現關係,基於潛在狄利克雷分佈(latent Dirichlet allocation,LDA)的淺層語義分析方法獲取未標註樣本的標籤。
2.按研究問題分類
根據情感文字分類中側重關注的問題,可以將情感分類研究劃分為領域相關性研究和資料不平衡問題研究兩類。
領域相關性研究:情感分類是一個領域相關(domain-specific)的問題,當訓練集和測試集屬於不同的領域時,基於監督學習的情感分類方法通常會表現出較差的效果。因此,領域適應性(domain adaptation)研究成為一個重要課題,其目的就是儘量使情感分類器在跨領域學習時保持一定的分類效能。
2005針對領域適應中的特徵選擇、分類器融合和訓練集的組合等問題做了詳細分析。2007提出了一種基於結構共現學習(structural correspondence learning,SCL)的情感分類領域適應方法,在跨領域情感分類中取得了較好的效能。2010利用基於圖模型的Graph-Ranking演算法處理中文情感分類中的領域適應問題。2011將整合學習方法應用於“多領域”情感分類,讓多個領域的資源互相幫助,從而使整體的情感分類效能獲得提升。
資料不平衡問題研究:情感分類往往牽涉樣本的正負類別分佈不平衡的問題。
Li et al.(2011b)對實際情況中的樣本不平衡問題做了深入分析。假設在情感分類中有N個樣本的訓練資料,其中包含N+個正類樣本和N-個負類樣本。目前大多數研究總是假設正類樣本數和負類樣本數是平衡的,即N+=N-,但實際情況並非如此,更一般的情況是訓練資料中一類樣本要遠遠多於另一類樣本。
針對不平衡資料的有監督情感分類問題,Li et al.(2011c)提出了一種基於中心向量的不平衡情感分類方法。
該方法包括以下幾個步驟對不平衡資料的標註樣本進行訓練:
①將“多類”裡面的所有訓練樣本進行聚類;
②在各個聚類裡面進行內部層次取樣,獲得同“少類”相同規模的樣本;
③使用這些取樣樣本並結合整個類的中心向量構建的新向量進行訓練學習。該方法借鑑中心向量充分利用“多類”裡面所有樣本的分類資訊,獲得了比其他傳統取樣方法或者代價敏感方法更優的分類效能。
針對不平衡資料的半監督情感分類問題,Li et al.(2011b)提出了一種基於協同學習的半監督學習方法。
該方法有如下兩個特點:
①使用欠取樣技術對訓練樣本進行平衡取樣,用於構建多個欠取樣分類器,利用多個分類器對非標註樣本進行標註;
②採用動態特徵子空間的方式,即每次迭代重新生產特徵子空間,增加多分類器之間的差異性,進一步提升協同學習的效能。
實驗結果表明,該方法在處理情感分類的資料不平衡問題上,能夠利用非標註樣本提高分類效能。另外,該工作的一個貢獻是首次提出了一種針對不平衡資料分類的半監督學習方法。
針對不平衡資料的情感分類中的主動學習問題,Li et al.(2012b)提出了一種整合確定性和不確定性樣本選擇策略的方法,用於主動選擇不平衡資料中資訊量大的樣本以提高分類效能。其中,確定性和不確定性分佈由兩個分開的特徵子空間進行控制,不確定性用於選擇資訊量大的樣本,確定性用於選擇儘量平衡的資料。此外,對於確定性判斷出來的“多類”非標註樣本進行自動標註,進一步降低樣本的標註規模。實驗證明,在同樣的標註情況下該方法能夠大幅度提高不平衡資料的分類效能。