自然語言處理之情感分析與觀點挖掘
觀點、情感以及與之相關的許多概念,如評價、評估、態度、感情、情緒和心情,與我們主觀的感覺和感受密切相關。這些是人類心理活動的核心要素,也是影響人們日常行為的關鍵因素。情感分析也稱為觀點挖掘,是一個旨在利用可計算的方法從自然語言文字中提取觀點和情感資訊的研究課題。
一.情感分析
其伴隨著網路社會媒體(如評論、論壇、部落格和微博)的興起而快速發展。
情感分析研究的目標是從文字中分析出人們對於實體及其屬性所表達的觀點、情感、評價、態度和情緒。這些實體可以是各種產品、服務、機構、個人、事件、問題或主題等。包含很多相關研究任務,例如情感分析、觀點挖掘、觀點分析、觀點資訊抽取、情感挖掘、主觀性分析、傾向性分析、情緒分析以及評論挖掘。
從自然語言處理的角度看,情感分析的人物就是識別人們談論的主題以及針對主題所表達出來的觀點傾向。因此,它常被看成一個語義分析任務的子問題。
情感分析研究可劃分三個級別:篇章級、句子級和屬性級。
情感詞典:承載情感資訊最重要的基本單元是情感詞,也稱為觀點詞。但是僅僅依靠它們對構建精準的情感分析系統遠遠不夠。
辯論和評論分析:
意圖挖掘:意圖就是一個人或者一群人試圖遵循的行動步驟。儘管意圖與情感是兩個不同的概念,但是它們有許多相關點。第一,在一個含有意圖傾向的句子中,作者通常會表達對於某一事物或實體的情感或情緒。第二,當一個人非常想得到某一東西的時候,他通常會對這個東西表達褒義的情感。第三,有些觀點是通過描述意圖的方式表達出來的。
垃圾觀點檢測與評論質量:社會媒體的一個關鍵特點就是允許每個人在任何時間、任何地點以匿名的方式自由地表達自己的想法和觀點。而不必害怕自己的真正身份被洩露。也不必擔心這些言論會讓自己招致麻煩。儘管這些觀點和想法對於很多應用來說十分有價值,但是這種匿名的方式是有代價的。這種代價就是使得那些存有不良目的或隱藏企圖的人可以通過發表虛假評論的方式欺騙情感分析系統,對某種產品、服務、機構和個人進行蓄意的誇獎或貶低,而不必暴露其真正的目的。這種發表虛假評論的個體被稱為垃圾觀點發布者,這種行為被稱為垃圾觀點發布。
二.什麼是情感分析
情感分析主要研究那些表達或暗示褒義或貶義情感的觀點資訊。這裡,觀點是一個廣義的概念,包括了情感、評估、評價、態度,以及其他相關資訊,包括觀點持有者和觀點評價物件。
觀點、情感與目標:一個觀點有兩個重要組成部分:一個是觀點評價的物件或目標g;另一個是針對該目標所表達的情感s。(g,s)中的g可以是一個實體,也可以是所評價實體的某個屬性或一個側面;s是一個正面(褒義)、負面(貶義)或中立的情感傾向或打分。正面(褒義)、負面(貶義)、中立則稱為情感或觀點傾向(極性)。
可以把觀點定義為一個四元組:(g, s, h, t),h是觀點持有者、t是時間
情感物件:觀點所評價的實體、實體的一部分或實體的一個屬性。
觀點中的情感:情感是觀點中所蘊含的感受、態度、評價或情緒。通常情感由一個三元組表示:(y, o, i)。其中,y是情感型別,分理性和感性;o是情感的傾向,正面、負面或中立;i是情感的強度。情感評分
簡化的觀點定義:上述觀點的定義,雖然簡練,但很難應用於實際操作,從文字中識別出實體不同層次上的元件和屬性是很困難的任務。其實大多數應用並不需要如此複雜的分析。因此,我們可以簡化之前對於觀點評價物件的定義,其層次結構只有2層,同時我們使用屬性或方面這個詞來指代目標實體的元件和引數。在這顆簡化的樹中,根節點依然是實體本身,第二層(葉子層)的節點是該實體的不同屬性。
重新定義觀點的概念:五元組(e, a, s, h, t)
其中,e是觀點評價的目標實體,a是實體e中一個觀點評價的實體屬性,s是對實體e的a屬性的觀點中所包含的情感,h是觀點持有者,t是觀點發布時間;
基於此定義的情感分析常稱為基於屬性的情感分析。
情感分析的目標:給定一個包含觀點資訊的文件d,找出d中所有的觀點五元組。對於更高階的分析需求,還要找出每個觀點五元組中情感的原因和限定條件。
情感分析的關鍵任務:實體消解或者實體聚類
觀點的不同型別:常規型觀點和比較型觀點,
三.文件級情感分類:
任務的目標是將一篇給定觀點的文件(如產品評論)根據所持觀點為正面或負面進行分類。定義是給定針對一個實體的觀點文件d,判斷觀點持有者對實體的整體的觀點傾向性s。大多數現有的技術都是基於監督學習的,也有一些無監督學習的方法。現有大多數技術都是特徵工程加機器學習演算法在實際中的直接應用。但目前還沒有工作對於這些既有方法的有效性和準確性進行全面的、獨立的評測和比較。
3.1、基於監督的情感分類:本節提到兩類分類方法:(1)使用一個標準的有監督機器學習演算法進行情感分類;(2)使用一個專為情感分類設計的分類方法。
基於機器學習演算法的情感分類:情感分類的關鍵還是抽取有效的特徵。一些特徵樣例:詞和詞頻:帶有詞頻資訊的單獨的詞袋及與其相關的n-gram
詞性:研究表明,形容詞是觀點和情感的主要承載詞。
情感詞和情感短語:大多情感詞都是形容詞或副詞
觀點的規劃:文字結構或語音成分可以表示或隱含情感和觀點
情感轉置詞:有的表達可以反轉文字中的情感傾向
句法依存關係:
3.2、基於無監督的情感分類:使用句法模板和網頁檢索的情感分類、使用情感詞典的情感分類。
四.句子級主客觀和情感分類:
文件級別的情感分類對實際應用來說還是太粗糙。句子級其目標是識別每個觀點文件中的句子中所包含的情感傾向,判斷每個句子包含的正面、負面還是中性的情感。這離實際應用的情感分類系統的需求更進一步,即提取針對每個評論物件的觀點資訊。因為句子太短從而包含的資訊也少得多,因此,句子級別的情感分類要更加困難。大多數文件級別的情感分類論文都忽略中性類,主要是做準確的三類分類太難了。但是,對於句子級別的情感分類,中性類就不可以忽略了。
句子級別分類有個潛在的假設是:一個句子只表達了一個觀點,即只包含一箇中情感。
句子級情感分類:
處理條件句:
處理諷刺句:
跨語言主客觀分類和情感分類:
在情感分類中使用語篇資訊:
句子級情緒分類: