1. 程式人生 > >人機文字分類特徵構造——主題分佈

人機文字分類特徵構造——主題分佈

上一篇部落格是關於發現機器所寫內容中語序調換的問題,這一篇部落格主要講如何發現文字內容中是否存在多個主題。對於模型的構建普遍使用的是gensim的LDA模型,而在這裡我們使用了百度的開源工具Familia,下面將進行介紹~

關於Familia

Familia 開源專案包含文件主題推斷工具語義匹配計算工具以及基於工業級語料訓練的三種主題模型Latent Dirichlet Allocation(LDA)、SentenceLDA 和Topical Word Embedding(TWE)。 支援使用者以“拿來即用”的方式進行文字分類文字聚類個性化推薦等多種場景的調研和應用。其中已經訓練好了四大模型:新聞主題模型

網頁主題模型小說主題模型微博主題模型
具體連結:https://github.com/baidu/Familia

程式碼編譯

下載整個專案之後,按如下步驟:

# 包含獲取並安裝第三方依賴的過程
sh build.sh 
# 模型下載
cd model
sh download_model.sh

實驗過程

該demo檔案在終端下是能正常執行,不過在呼叫python介面時總會出現以下錯誤

若出現找不到libglog.so, libgflags.so等動態庫錯誤,請新增third_party至環境變數的LD_LIBRARY_PATH中。

按照官方提示新增環境變數

export
LD_LIBRARY_PATH=./third_party/lib:$LD_LIBRARY_PATH

錯誤依舊存在【希望解決了這個問題的朋友能分享下】,因此按照需求修改了其demo檔案並在終端執行

#!/bin/bash
export LD_LIBRARY_PATH=../third_party/lib:$LD_LIBRARY_PATH

cd ../model
sh download_model.sh
cd ../python

python ./demo/lda_infer_demo.py ../model/news lda.conf 
# 模型可以按照需求修改

最後可以得到每個文件的主題分佈情況
此處輸入圖片的描述