文字挖掘與分析第五週學習筆記3--意見挖掘和情感分析

阿新 • • 發佈：2019-01-10

知識圖譜定位：

這裡寫圖片描述

1.情感分析的動機

1.主觀與客觀的情緒

兩種方式：攝影記錄，文字採集。
文字比攝影更具有資訊優勢，由於可以藉助辦公機會。
這裡寫圖片描述

2.觀點是什麼？

觀點：常等同於主觀宣告，代表一個人所相信的，對某件事的想法。
1）觀點的主觀性與客觀存在對立面：主觀性是無法證明對錯的，而客觀是可以證明對錯的。例如：電腦有一個螢幕和一個電池，這是可以檢查是否正確的；而你說電腦有一個好螢幕，這是無法判斷正確與錯誤的，這存在主觀性。
2）觀點與文化，背景，等因素相關，不同的人對同一件事物會有不同的觀點，同一個人對不同事物也會有不同的觀點。
這裡寫圖片描述

3.觀點的表示

觀點的三個基本組成：人，事物，觀點內容。
觀點的其他組成：1）所處文化、背景（時間地點）；2）人的觀點情緒。例如：積極、消極。
這時觀點的內容使得方便挖掘和分析。
這裡寫圖片描述

新聞中的觀點：

例子中的成分提取需要用到：自然RAM程式技術
分析和組裝新聞仍然很困難，比起產生評論的觀點。
這裡寫圖片描述

各種各樣的觀點：

6:00

文字資料中的不同種類的觀點：

觀點分為直接觀點和間接觀點
直接觀點指作者自己的觀點；
客觀觀點指其他人對作者的觀點。例如：我認為他喜歡那植物。
挖掘潛在觀點：例如：從”蘋果手機電池只能用一個小時”挖掘出潛在觀點”他希望電池有更長的使用時間”。
這裡寫圖片描述

4.挖掘觀點的任務：

將觀點陳述的各要素作為輸入挖掘分析觀點
這裡寫圖片描述

5.觀點挖掘的重要性：

1）幫助決策：選擇產品和服務；預測投票結構；制定新政策
2）理解人：理解人的需求從而更好服務；
3）自願的調查：商業情報；市場調查；資料驅動社會科學調查；基於文字的預測獲得利益。
這裡寫圖片描述

2.情感分析的分類

1.情感分類的具體任務

1）輸入帶有意見的文字物件；
2）輸出是一個情感標籤。兩種方式實現：

極性分析，分為兩面正面和負面。例如：數值形式的評分（5為最正面情感，1為最負面情感）。
情緒分析，類別化的任務。例如:驚喜，悲傷，恐懼，生氣。可用之前的分類器加以改進。

考慮次序：例如可以使用順序迴歸

這裡寫圖片描述

2.常用的文字特徵

1）一系類字元作為一個單元，n的長度可以不一樣。出現拼寫和識別錯誤時依然很穩健（因為他們有相同的子串）但是字元的判別能力沒有詞彙高。
2）詞串，長的詞串表達更準確但是可能出現過擬合。
3）詞性標記構建詞串。例如：形容詞和名詞成對。
這裡寫圖片描述

拓展：
4）詞類

單詞：代表詞庫或本體中的概念，可用來做額外特徵擴充。
詞叢集：哪些位置上這些詞更有可能接連出現
缺點：在特徵複雜情況下，可能出現輸入過度的情況。
分析樹分析特徵：頻繁出現的子樹或路徑，或是那些有強辨別能力的特徵，也可能出現過度擬合的情況。
模式發現演算法比單詞更為有用也更為複雜。

這裡寫圖片描述
5）自然語言處理
能提供更為複雜的特徵以及豐富的文體表述。
利用詞性標註、分析樹、或是實體、行為語言生成其他的特徵，更為複雜的特徵，就像一個混合型的詞串、詞性標註或是分析樹的一部分。

小結：

特徵設計會顯著影響分類精度。
有效方法是：組合機器學習、誤差分析、領域知識。
首先：利用領域知識，對於問題的理解設計種子的特徵。
然後：定義一個基本的特徵空間，涵蓋許多最有效的特徵，或是構建新的特徵。這些特徵可以利用誤差分析進一步分析。可以進一步瞭解哪些特徵，修正誤差。或哪些誤差引起過度擬合，導致誤差，就進入特徵檢驗過程。
自然語言處理豐富了文字識別，改善了特徵空間。但要注意使用過多的類別特徵，可能導致過擬合，所以訓練時要注意防止外溢。權衡特異性和完備性。（完備性：指需要挑選合適的特徵，覆蓋大量文字內容，所以需要這些特徵頻繁出現，多以不常出現的特徵，往往會有更強的判別能力。）
這裡寫圖片描述

3.有序邏輯迴歸在情感分析中的使用

1.順序邏輯的目的

以含有評價的文字d作為輸入，想得到從1到k的評分
不考慮分類的順序和依賴性
解決方法有序邏輯迴歸。
這裡寫圖片描述

2.二元情感分析

B為引數，最下面的式子為直接線性函式。
這裡寫圖片描述

3.多元情感分析

引入多個二元類檔案，每種情況都讓類檔案去預測，評分比j高還是低
當Yj=1時，表示評分高於或等於j.
當Yj=0時，表示評分低於j.

想要在1到k區間裡預測評分，首先有個分類來區分K和其他值，以此類推，所以一共有k-1個區分器。

這裡的式子有更多的引數，用j作為指數來區分分類，用Aj來代替B0
這裡寫圖片描述
判斷評分過程：從高往低逐級遞減判斷評分的過程
存在問題：引數太多：（K-1）*（M+1）；K-1個分類器並不彼此獨立。

有序迴歸

解決上面的第二個問題，即k-1個分類器非獨立問題。
假設B引數是這些權重推斷的引數
正面文字更有可能得到高分:作用：
1）分享資料，B引數的區分只會對應到每一個特徵，不再擁有其他指標值。即所有分類器裡只有一組更好的值，然而每個分類依舊有各自的a值.不同而j會有不同的a值
2）減少引數：K-1個a值，M個B值
這裡寫圖片描述

評分

預測概率：得分函式只需要利用B值，看他落在哪個區間，簡單做出評分規定。
這裡寫圖片描述