機器學習基於語義特徵的情感分析
阿新 • • 發佈:2019-01-26
基於語義特徵的情感分析先人已有研究,可以通過情感詞典匹配來做,但是應用機器學習在這方面會使精確度更高些。
以本人蔘與的一個專案為主,總結下相關技術點。
背景是:分析使用者評論感情色彩是積極還是消極,即是褒還是貶。
具體步驟為:
1.有監督的人工給文字標註類標籤。如有5000條評論資料,我們給其中的1000條標為積極的,再選1000條標為消極的,積極和消極就是所謂的類標籤。
2.選擇特徵。從積極的評論資料中按詞來選擇積極的所有特徵。同理,從消極的評論資料中按詞來選擇消極的所有特徵。如“這款遊戲非常好玩”->”這款”->“遊戲”->”非常”->”好玩”,分為四個特徵詞,也可以採用雙詞搭配,“這個遊戲”和“非常好玩”作為特徵。
3.特徵降維,減少特徵的數量。如上“這個遊戲非常好玩”中的“這個遊戲”沒有必要作為特徵,因為“好玩”或“非常好玩”已經決定了評論是積極的。
4.將語料文字變成使用特徵表示。
5.統計所有特徵出現的次數,並按倒序排序。
6.從以上結果中選出排序最靠前的一些特徵作為最終的評判特徵。
7.使用訓練資料根據特徵訓練分類演算法,得到分類器。
8.用測試資料檢測分類器的準確度。
我們將資料分為兩部分:開發集、測試集。用開發集的資料訓練分類演算法得到分類器;再用分類器對測試集裡的資料進行分類,給出分類預測得到的標籤;對比分類標籤和人工標註得到的標籤的差異,計算出準確度。