1. 程式人生 > >文字挖掘與分析第五週學習筆記3--意見挖掘和情感分析

文字挖掘與分析第五週學習筆記3--意見挖掘和情感分析

知識圖譜定位:

這裡寫圖片描述

1.情感分析的動機

1.主觀與客觀的情緒

兩種方式:攝影記錄,文字採集。
文字比攝影更具有資訊優勢,由於可以藉助辦公機會。
這裡寫圖片描述

2.觀點是什麼?

觀點:常等同於主觀宣告,代表一個人所相信的,對某件事的想法。
1)觀點的主觀性與客觀存在對立面:主觀性是無法證明對錯的,而客觀是可以證明對錯的。例如:電腦有一個螢幕和一個電池,這是可以檢查是否正確的;而你說電腦有一個好螢幕,這是無法判斷正確與錯誤的,這存在主觀性。
2)觀點與文化,背景,等因素相關,不同的人對同一件事物會有不同的觀點,同一個人對不同事物也會有不同的觀點。
這裡寫圖片描述

3.觀點的表示

觀點的三個基本組成:人,事物,觀點內容。
觀點的其他組成:1)所處文化、背景(時間地點);2)人的觀點情緒。例如:積極、消極。
這時觀點的內容使得方便挖掘和分析。
這裡寫圖片描述

新聞中的觀點:

例子中的成分提取需要用到:自然RAM程式技術
分析和組裝新聞仍然很困難,比起產生評論的觀點。
這裡寫圖片描述

各種各樣的觀點:

6:00

文字資料中的不同種類的觀點:

觀點分為直接觀點和間接觀點
直接觀點指作者自己的觀點;
客觀觀點指其他人對作者的觀點。例如:我認為他喜歡那植物。
挖掘潛在觀點:例如:從”蘋果手機電池只能用一個小時”挖掘出潛在觀點”他希望電池有更長的使用時間”。
這裡寫圖片描述

4.挖掘觀點的任務:

將觀點陳述的各要素作為輸入挖掘分析觀點
這裡寫圖片描述

5.觀點挖掘的重要性:

1)幫助決策:選擇產品和服務;預測投票結構;制定新政策
2)理解人:理解人的需求從而更好服務;
3)自願的調查:商業情報;市場調查;資料驅動社會科學調查;基於文字的預測獲得利益。
這裡寫圖片描述

2.情感分析的分類

1.情感分類的具體任務

1)輸入帶有意見的文字物件;
2)輸出是一個情感標籤。兩種方式實現:

  • 極性分析,分為兩面正面和負面。例如:數值形式的評分(5為最正面情感,1為最負面情感)。
  • 情緒分析,類別化的任務。例如:驚喜,悲傷,恐懼,生氣。可用之前的分類器加以改進。

考慮次序:例如可以使用順序迴歸

這裡寫圖片描述

2.常用的文字特徵

1)一系類字元作為一個單元,n的長度可以不一樣。出現拼寫和識別錯誤時依然很穩健(因為他們有相同的子串)但是字元的判別能力沒有詞彙高。
2)詞串,長的詞串表達更準確但是可能出現過擬合。
3)詞性標記構建詞串。例如:形容詞和名詞成對。
這裡寫圖片描述


拓展:
4)詞類

  • 單詞:代表詞庫或本體中的概念,可用來做額外特徵擴充。
  • 詞叢集:哪些位置上這些詞更有可能接連出現
    缺點:在特徵複雜情況下,可能出現輸入過度的情況。
  • 分析樹分析特徵:頻繁出現的子樹或路徑,或是那些有強辨別能力的特徵,也可能出現過度擬合的情況。
  • 模式發現演算法比單詞更為有用也更為複雜。

這裡寫圖片描述
5)自然語言處理
能提供更為複雜的特徵以及豐富的文體表述。
利用詞性標註、分析樹、或是實體、行為語言生成其他的特徵,更為複雜的特徵,就像一個混合型的詞串、詞性標註或是分析樹的一部分。
這裡寫圖片描述

小結:

特徵設計會顯著影響分類精度。
有效方法是:組合機器學習、誤差分析、領域知識。
首先:利用領域知識,對於問題的理解設計種子的特徵。
然後:定義一個基本的特徵空間,涵蓋許多最有效的特徵,或是構建新的特徵。這些特徵可以利用誤差分析進一步分析。可以進一步瞭解哪些特徵,修正誤差。或哪些誤差引起過度擬合,導致誤差,就進入特徵檢驗過程。
自然語言處理豐富了文字識別,改善了特徵空間。但要注意使用過多的類別特徵,可能導致過擬合,所以訓練時要注意防止外溢。權衡特異性和完備性。(完備性:指需要挑選合適的特徵,覆蓋大量文字內容,所以需要這些特徵頻繁出現,多以不常出現的特徵,往往會有更強的判別能力。)
這裡寫圖片描述

3.有序邏輯迴歸在情感分析中的使用

1.順序邏輯的目的

以含有評價的文字d作為輸入,想得到從1到k的評分
不考慮分類的順序和依賴性
解決方法有序邏輯迴歸。
這裡寫圖片描述

2.二元情感分析

B為引數,最下面的式子為直接線性函式。
這裡寫圖片描述

3.多元情感分析

引入多個二元類檔案,每種情況都讓類檔案去預測,評分比j高還是低
Yj=1時,表示評分高於或等於j.
Yj=0時,表示評分低於j.

想要在1到k區間裡預測評分,首先有個分類來區分K和其他值,以此類推,所以一共有k-1個區分器。

這裡的式子有更多的引數,用j作為指數來區分分類,用Aj來代替B0
這裡寫圖片描述
判斷評分過程:從高往低逐級遞減判斷評分的過程
存在問題:引數太多:(K-1)*(M+1);K-1個分類器並不彼此獨立。
這裡寫圖片描述

有序迴歸

解決上面的第二個問題,即k-1個分類器非獨立問題。
假設B引數是這些權重推斷的引數
正面文字更有可能得到高分:作用:
1)分享資料,B引數的區分只會對應到每一個特徵,不再擁有其他指標值。即所有分類器裡只有一組更好的值,然而每個分類依舊有各自的a值.不同而j會有不同的a值
2)減少引數:K-1個a值,M個B值
這裡寫圖片描述

評分

預測概率:得分函式只需要利用B值,看他落在哪個區間,簡單做出評分規定。
這裡寫圖片描述