中文文章情感分析-開源工具分享
阿新 • • 發佈:2019-01-27
最近研究了一陣子中文情感分析的一些paper,很感興趣,於是最終決定寫一箇中文情感分析的工具。作為開源思想的忠實粉絲,我也獻醜一次,把自己拙劣的程式碼呈現給大家,歡迎大家拍板磚。希望這個工具能給大家帶來一些實際的用處。
目前,這個工具只實現了使用一種基本演算法來預測文章的情感。經過本人測試,基本滿足對中文句子的情感傾向分析,而且準確度可以信賴。大家如果有這個需求,想簡單分析一下某個漢語評論集合的情感傾向,可以直接把這個工具拿去使用。
下面是這個工具的效能和準確度量化指標:
效能: 每秒處理約10萬漢字
準確度: 約90%
本人會長期維護這個工具,並會逐步新增更多的預測演算法,增加更多演算法的選擇。
Bitbucket庫地址:https://bitbucket.org/shichaoqu/semantic-analysis-tool/overview
工具提供的功能:
1. 基於python-jieba中文分詞包,對文章和句子進行分詞;
2. 使用大連理工大學情感分析詞庫,對文章分詞結果進行詞語的情感預測;
3. 使用bsa_agorithm作為基本情感分析演算法,基於詞語的情感預測來聚合整個文章的情感傾向和情感強度。
TODO list:
1. 擴充套件情感詞典,未來會新增hownet和ntsu情感詞詞庫的支援,並新增響應的情感詞定位介面;
2. 擴充套件情感分析演算法,支援更多常見演算法的選擇,提供更精確的情感分析演算法;
3. 情感資訊抽取,提取觀點持有者,主語和情感陳述,以及他們之間的關係。