1. 程式人生 > >Vivian Liu的專欄

Vivian Liu的專欄

      近年來,文字情感分析技術在網路營銷、企業輿情監控、政府輿論監控等扮演越來越重要的角色。鑑於主題模型在文字挖掘領域的優勢,基於主題的文字情感分析技術也成為人們關注的熱點,其主要任務是通過挖掘使用者評論所蘊含的主題、以及對這些主題的情感偏好,來提高文字情感分析的效能。例如,對於數碼產品網購評論,主題可能是“電池續航能力”、“主屏尺寸”、“售後服務”或者“價效比”。
從技術實現的角度,PLSA和LDA及其擴充套件模型可以直接應用於使用者評論文字挖掘中。但是,工業界發現,直接抽取主題的方式效果往往並不理想。以網上購物評論為例,原始的主題模型主要針對篇幅較大的文件或者評論句子的集合,學習到的主題主要針對整個產品品牌;而現實情形是,使用者評論大多針圍繞產品的某些特徵或內容主題展開(如口味、服務、環境、價效比、交通、快遞、記憶體、電池續航能力、原料、保質期等等,這說明相比於對產品的整體評分, 使用者往往更關心產品特徵),而且評論文字往往較短。基於此,有些研究人員提出從“詞-句子-段落-文件”多粒度劃分的角度抽取評論主題。

例如,Yohan Jo等人在WSDM2011會議上提出ASUM方法:將句子看作文件,句子中每個詞都是隱含主題的分佈,然後利用LDA進行主題挖掘;在此基礎上,融合主題特徵和情感資訊來分析使用者對這些主題的偏好,並以<主題,情感詞>序對作為輸出。以本文開頭的評論句“比較了多個智慧手機後選擇了8150,價效比還可以。另外,就是考慮到它是3.7的螢幕,大小比較合適,否則攜帶很不方便。”為例,它主要隱含了智慧手機三星8150的兩個主題“價效比”和“主屏尺寸”,而與主屏尺寸相關的詞語包含“3.7”、“螢幕”、“大小”、“攜帶”(同義詞為“便攜”);情感詞為“還可以”、“合適”、“否則xx不方便”。與此類似的是,Moghaddam等人在SIGIR2011會議上提出ILDA方法,通過增加相關引數來改進LDA,應用於抽取評論主題、計算對主題的數字量化評分。再來考慮一個餐館評價系統,與“價格”主題相關的詞語可能包括:“價格”、“價錢”、“價效比”、“貴”、“便宜”、“人均”、“元”、“免費”、“x折”、“消費”等等;此外,也可能包含“車位”、“熱情”、“生日”這樣的詞(或者與價格存在某些關聯,或者是噪音)。