ConceptVector: Text Visual Analytics via Interactive Lexicon Building using Word Embedding

阿新 • • 發佈：2019-01-08

論文簡介

　　本文是對詞嵌入的一種應用，使用者可以自己建立自己所需要的concept,系統根據使用者提供的seed可以實現推薦其他詞彙，以幫助使用者更高的構建自己的concept。同時使用者可以利用自己建立的concept對文字進行分析，通過作者提出的一種演算法來實現對文字排序，以此來篩選出對使用者更有價值的資訊。

　　首先明確concept的基本概念，原文的解釋是一組語義相關的關鍵字，用來描述特定的物件、現象或主題。事實上就相當於一個集合的名字;例如，有一個名為clothing的concept,那麼它可能就包含{T-shirt,dress,underwear,put}等等，本文所做的工作就是幫助使用者建立使用者想要的concept。

　　同時也要知道詞嵌入概念:詞嵌入其實就是把每個單詞對映成一個向量，這樣可以方便機器計算，以此來找到單詞之間的相似性。目前詞嵌入演算法大致分為三類1.Embedding layer、2.Word2Vec/Doc2Vec 3.Glove 本文采用的是Glove演算法。

現有研究

　　LIWC（Linguistic Inquiry and Word Count）:人類手工構建的一個concept集，它速度快、解釋性強且具有很強的有效性。但另一方面，它耗時耗力，同時它也很小，只有40多個情感concept,每個concept只包含了不到100個詞彙。

　　Empath(該文章發表在CHI 2016):Empath選擇了18億字的現代小說資料集，通過深度學習來尋找這些單詞和短語之間的潛在聯絡。但同樣的，它不支援互動，concept都是預先構建好的，使用者並不能對他進行自定義更改。

　　下面用兩個例子來說明empath的侷限性

example-1:Tweets by U.S. 2016 Presidential Candidates

　　利用Empath預先構建好的197個concept來分析希拉里和特朗普的兩組推文，每組推文包含大概3000條資訊，統計結果如圖

　　　　由圖可以清晰地看到兩組之間存在明顯差異（p<0.01）

　　基於此作者提出了一種互動式構建concept的視覺化系統conceptVector，特朗普的集中在醜陋，咒罵，驚喜。而希拉里則集中在性、飲食和家庭的concept。進一步研究發現存在許多假陽性資訊，如suprise中的wow,意義較低，只是表示語氣而已。而在plant這個concept中佔比最大的bush,系統將他識別為灌木叢，

　　而實際上特朗普指的是Jeff Bush.等等。

example-2：Tweets from NASDAQ 100 Companies

　　利用斯柯達100家公司的tweets,對於屬於每個公司的一組tweet，我們通過計算計算在預先構建的194個concept中包含的單詞出現的次數來形成一個194維的特徵向量，然後通過k-means聚類和主成分分析法進行2維展示。以此來發現有意義的叢集。

　　發現名字對於叢集效果影響較大，名字中含有{cook、dish}的被叢集到一起，同樣的含有technology的也被劃到了一起。當我們刪除這些關鍵詞後，發現叢集效果更好。並發現了更有意義的叢集。例如，萬豪酒店和TripAdvisor因為涉及旅遊、度假和睡眠概念的詞彙(橄欖綠加黑色邊框)而形成了一個叢集。帶有負面情緒的公司，如嘲弄、忽視、殺戮和仇恨，也被聚集在一起(紅點和紅邊)。

　　由此本文作者研發了conceptVector系統。

系統設計

　整體系統介面如圖

　　　　簡單介紹一下系統：作者將concept化分為兩種：單極性和雙極性，雙極性包括的比如{happy ,unhappy},單極性比如work-related。使用者給自己的concept起好名字後，通過新增種子關鍵字，系統就會給出推薦詞，旁邊還可以看到推薦詞的叢集效果以更好的幫助使用者進行構建。構建完成後，使用者可以用自己的concept來對評論集進行排名，如果發現結果不如人意，使用者可以立即對concept進行更改，即：概念細化階段。通過不斷地迭代來篩選出最符合使用者需求的資訊。同時旁邊也有輔助檢視幫助使用者進行判斷。

　　　　整個系統設計理念如上圖（概念構架+文字分析）

主要演算法

　　Glove: 參考 https://blog.csdn.net/coderTC/article/details/73864097

　　　文章中提出的評分演算法

　　　　這裡只拿雙極性詞作為舉例，單極性大同小異，對於每個concept對應三個集合{positive、negative、and the irrelevant set}分別用L_p，L_n,L_i表示

　　　　q:待查詢的詞向量 l：集合L中包含的關鍵詞向量

　　　　p（q|L）表示q屬於L的概率 k（q,l）用來計算q和l之間的相似度

　　　　本文用高斯密度核函式來計算向量之間的相似性。

　　　　假定先驗概率表示式和後驗概率表示式為

　　　　由此可根據下面這個式子計算出單詞q屬於concept C 的得分

評估

　　1.選取15名大學生讓他們構建“family”“body”“money”三個concept 用LIWC中的詞彙作為標準，在這個字典中，family包含了65個單詞，body包含了180個單詞，money包含了173個單詞,通過準確率，查全率，查到單詞的數量三個方面進行比較，結果如圖

　　　2.為了驗證雙極性概念模型好不好，採用Hedonometer project中的10200個關鍵字組成的對幸福概念相關的排名列表，然後利用自己的KDE演算法來對單詞進行排序，然後算得與標準集之間的斯皮爾曼相關係數，實驗結果如圖

　　　　顯然GloVe+KDE的組合是最好的。

　　　　3.為了說明比Emapth好，還找了兩個專家來對兩個系統進行審評，來說明ConceptVector確實是好的。

文章貢獻

一個名為ConceptVector的視覺化分析系統，使用者可以在其中互動式地為定製概念構建和細化詞彙表，並無縫地使用它們分析文件語料庫
為使用者提供字和詞的相似性建模，幫助使用者構建concept
定量結果比較了我們的詞與概念的能力類似於人類標記的能力

論文pdf下載

ConceptVector: Text Visual Analytics via Interactive Lexicon Building using Word Embedding

現有研究

系統設計

主要演算法

評估

ConceptVector: Text Visual Analytics via Interactive Lexicon Building using Word Embedding

DeepEyes: 用於深度神經網絡設計的遞進式可視分析系統 (DeepEyes: Progressive Visual Analytics for Designing Deep Neural Networks)

VITAL: Visual Tracking via Adversarial Learning 閱讀筆記

VITAL: VIsual Tracking via Adversarial Learning論文筆記

從邊際投影中重構類別型聯合分佈的可視分析方法（A Visual Analytics Approach for Categorical Joint Distribution Reconstruction

《CSS3實戰》筆記--溢位文字省略：text-overflow和文字換行顯示：word-wrop

理解《Deblurring Text Images via L0-Regularized Intensity and Gradient Prior》

Learning Structured Representation for Text Classification via Reinforcement Learning 學習筆記

Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation

Text Mining and Analytics(2)

Text Mining and Analytics（1）

安裝scrapy 出錯 building 'twisted.test.raiser' extension error: Microsoft Visual C++ 14.0 is required.

image caption解讀系列（二）：《Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Capt》

【論文速讀】Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation[2018-CPVR]

Building OpenCascade on Windows with Visual Studio

How VICE mastered Google Analytics Troubleshooting by building our own chrome extension

Text and Rich Media Analytics Powered by Machine Learning

Building a Text Editor for a Digital

Building Databases from unstructured text using…

Pushing RPA and AI Convergence. Text Analytics Leads the Way

ConceptVector: Text Visual Analytics via Interactive Lexicon Building using Word Embedding

現有研究

系統設計

主要演算法

評估

相關推薦