1. 程式人生 > >Familia:百度NLP開源的中文主題模型應用工具包

Familia:百度NLP開源的中文主題模型應用工具包

ica 用戶 font 文本內容分析 adb 文本相似度 表示 2.0 wiki

參考:Familia的Github項目地址、百度NLP專欄介紹

Familia 開源項目包含文檔主題推斷工具、語義匹配計算工具以及基於工業級語料訓練的三種主題模型:Latent Dirichlet Allocation(LDA)、SentenceLDA 和Topical Word Embedding(TWE)。 支持用戶以“拿來即用”的方式進行文本分類、文本聚類、個性化推薦等多種場景的調研和應用。考慮到主題模型訓練成本較高以及開源主題模型資源有限的現狀,我們會陸續開放基於工業級語料訓練的多個垂直領域的主題模型,以及這些模型在工業界的典型應用方式,助力主題模型技術的科研和落地。(English)

應用介紹
Familia目前包含的主題模型的對應論文介紹可以參考相關論文。

主題模型在工業界的應用範式可以抽象為兩大類: 語義表示和語義匹配。

  * 語義表示 (Semantic Representation) 對文檔進行主題降維,獲得文檔的語義表示,這些語義表示可以應用於文本分類、文本內容分析、CTR預估等下遊應用。

  * 語義匹配 (Semantic Matching) 計算文本間的語義匹配度,我們提供兩種文本類型的相似度計算方式:

    ` 短文本-長文本相似度計算,使用場景包括文檔關鍵詞抽取、計算搜索引擎查詢和網頁的相似度等等。
    ` 長文本-長文本相似度計算,使用場景包括計算兩篇文檔的相似度、計算用戶畫像和新聞的相似度等等。

更詳細的內容及工業界應用案例可以參考Familia Wiki

代碼編譯
第三方依賴包括gflags-2.0,glogs-0.3.4,protobuf-2.5.0, 同時要求編譯器支持C++11, g++ >= 4.8, 兼容Linux和Mac操作系統。 默認情況下執行以下腳本會自動獲取依賴並安裝。

$ sh build.sh # 包含獲取並安裝第三方依賴的過程

模型下載

$ cd model
$ sh download_model.sh
關於模型的詳細配置說明可以參考模型說明
我們會陸續開放不同領域的多種主題模型,來滿足更多不同的場景需求。

Demo
Familia自帶的Demo包含以下功能:

語義表示計算 利用主題模型對輸入文檔進行主題推斷,以得到文檔的主題降維表示。

語義匹配計算 計算文本之間的相似度,包括短文本-長文本、長文本-長文本間的相似度計算。

模型內容展現 對模型的主題詞,近鄰詞進行展現,方便用戶對模型的主題有直觀的理解。

具體的Demo使用說明可以參考使用文檔

Familia:百度NLP開源的中文主題模型應用工具包