重磅︱R+NLP：text2vec包——New 文字分析生態系統 No.1（一,簡介）

阿新 • • 發佈：2019-01-24

每每以為攀得眾山小，可、每每又切實來到起點，大牛們，緩緩腳步來俺筆記葩分享一下吧，please~

———————————————————————————

詞向量的表示主流的有兩種方式，一種當然是耳熟能詳的google的word2vec，還有一類就是GloVe。那麼前面一類有三個開源的包，後面這一類我倒是看到得不多，恰好是在我關注了許久的一個包裡面有，它就是text2vec啦。該包提供了一個強大API介面，能夠很好地處理文字資訊。

本包是由C++寫的，流處理器可以讓記憶體得到更好的利用，一些地方是用RcppParallel包進行並行化加乘，同時相容各個系統的伺服器。如果沒有並行的地方，大家也可以自己用foreach包來自己加速。

這個生態系統也是筆者見到過的，R語言裡面最好、最全面的包了，包含了很多型別的演算法以及成熟的應用。而且包的介紹十分詳盡，很棒！！

系列文章：

————————————————————————————————

該包的四大功能：

1、快速文字表達方式。文件可以以多種方式表達，單獨片語、n-grams、特徵hashing化的方法等。

2、GloVe詞向量表達

3、LDA主題模型，LDA（latent dirichlet allocation）、LSA(latent sematic analysis)，那麼這個就是繼lda、topicmodels兩大包之後，第三個有主題模型功能的包啦~前面兩個包可以參考我的另外部落格：

4、距離計算。cosine距離、jaccard距離、Relaxed word mover's distance（在最近的Kaggle比賽中很有效）、Euclidean距離。

————————————————————————————————————

一、快速文字表達

文件可以以多種方式表達，單獨片語、n-grams、特徵hashing化的方法等。
一般來說文字分析的步驟有以下三個步驟：
1、第一步：把內容表達成為文件-片語矩陣（document-term矩陣，DTM）或者片語共現矩陣（term-co-occurrence矩陣，TCM），換言之第一步就是在文件之上創造一個詞條地圖。
2、第二步：找個模型在DTM上進行擬合，有LDA、文字分類等
3、第三步：在驗證集上進行驗證

————————————————————————————————

二、GloVe詞向量表達

在Tomas Mikolov等人開發了word2vec詞向量表達工具之後，一大批衍生方法由此崛起與發展，其中一種斯坦福大學的GloVe（Global Vectors for word representation）就是一篇非常好的文獻。
主要是在詞語共現矩陣下因式分解。經過程式碼優化GloVe效能提高了2-3倍，是通過單精度浮點運算。

————————————————————————————————————————

三、LDA主題模型

LDA主題模型是基於lda包開發的（Jonathan Chang）,在下次釋出的時候該主題模型的引擎就會嵌入到lda包之中，目前text2vec開發模型要比lda快2倍，比topicmodels包快10倍。LSA模型是基於irlab包。

——————————————————————————————————————

四、距離計算

Cosine
Jaccard
Relaxed Word Mover's Distance
Euclidean

還在研究中，後續加更...

——————————————————————————————————————

參考文獻：

重磅︱R+NLP：text2vec包——New 文字分析生態系統 No.1（一,簡介）

重磅︱R+NLP：text2vec包——New 文字分析生態系統 No.1（一,簡介）

android開發 -- 複製文字內容到系統剪貼簿（自由複製）

R語言：用簡單的文字處理方法優化我們的讀書體驗

R語言：提取路徑中的文件名字符串（basename函數）

sklearn庫：分類、迴歸、聚類、降維、模型優化、文字預處理實現用例（趕緊收藏）

小程序初體驗：手把手教你寫出第一個小程序（一）

Pro Android學習筆記（一三七）：Home Screen Widgets（3）：配置Activity

[Golang] 從零開始寫Socket Server（3）：對長、短連接的處理策略（模擬心跳）

聚類：層次聚類、基於劃分的聚類（k-means）、基於密度的聚類、基於模型的聚類

恐懼：中年程序員會害怕丟掉工作嗎？（很多評論）

dvajs的一個大坑：使用BrowserHistory路由模式後仍然會出現hash（哈希）

ArcGIS Engine 系統開發設計（一）：簡單的地圖讀取、展示

case5：繼承和派生的作用舉例_2.0版本（使用繼承）

問題：git處理中文名稱時候顯示為編碼形式（已解決）

Java併發程式設計（8）：多執行緒環境中安全使用集合API（含程式碼）

研究生畢業前一日三題：第一題，立方體上面存留雨水問題（Water Problem）

zcmu——1128: 第四章：誰先愛了，誰就輸了（細節題）

作業系統（程序間共享儲存區的通訊）：建立一個共享儲存區，大小4個位元組（int大小）。建立一個子程序，然後子父程序獨自執行。父程序寫入一個數字到共享儲存區，子程序在共享儲存區把該數字讀出

python資料分析新手入門課程學習——（一）資料獲取（來源：慕課網）

百度面試總結：spark比MapReduce快的原因是什麼？（比較完整）

重磅︱R+NLP：text2vec包——New 文字分析生態系統 No.1（一,簡介）

相關推薦