1. 程式人生 > >情感分析思想(基於各種詞典)

情感分析思想(基於各種詞典)

之前在實習時,Boss想利用情感分析實現“公司績效考核”問題,即從Boss對員工的評語中判斷該員工該月的績效值,屬情感分析領域。

當時使用最簡單的基於情感詞典的方法解決,借鑑了這篇文章,在此基礎上對其進行修改,先講思路描述如下。

1  詞典準備

  • 情感詞典(BosonNLP情感詞典)
  • 停用詞典
  • 否定詞典
  • 程度副詞詞典

注:情感詞典內包含詞語以及對應的情感值;停用詞典只包含停用詞語;否定詞典只包含否定詞語;程度副詞詞典內包含詞語及對應的程度值。

2  實施步驟

整體步驟如下:

  1. 分詞(jieba),去停用詞;
  2. 構建詞語序列;
  3. 對詞語序列結果分類,找出情感詞、否定詞、程度副詞;
  4. 計算得分。

其中計算得分的具體步驟如下:

  1. 找出所有情感詞的下標,構建新片語;
  2. 新片語構建方法:該情感詞與前一情感詞之間的否定詞及程度副詞 + 該情感詞(第一個情感詞前至句首);
  3. 計算:程度副詞的程度值 × 情感詞的情感值,每有一個否定詞,使該式 × -1;
  4. 句子累加。

缺點:

  1. 沒有考慮詞義,特別對於“標題黨”來講,結果差距巨大。但這種情況都需要使用深度學習的方法才能有效解決,普通機器學習方法也是很難的。
  2. 對於正負向文字的判斷,該演算法忽略了很多其他的否定詞、程度副詞和情感詞搭配的情況;用於判斷情感強弱也過於簡單。