人機文字分類特徵構造——主題分佈
阿新 • • 發佈:2018-12-02
上一篇部落格是關於發現機器所寫內容中語序調換的問題,這一篇部落格主要講如何發現文字內容中是否存在多個主題。對於模型的構建普遍使用的是gensim的LDA模型,而在這裡我們使用了百度的開源工具Familia,下面將進行介紹~
關於Familia
Familia 開源專案包含文件主題推斷工具、語義匹配計算工具以及基於工業級語料訓練的三種主題模型:Latent Dirichlet Allocation(LDA)、SentenceLDA 和Topical Word Embedding(TWE)。 支援使用者以“拿來即用”的方式進行文字分類、文字聚類、個性化推薦等多種場景的調研和應用。其中已經訓練好了四大模型:新聞主題模型
具體連結:https://github.com/baidu/Familia
程式碼編譯
下載整個專案之後,按如下步驟:
# 包含獲取並安裝第三方依賴的過程
sh build.sh
# 模型下載
cd model
sh download_model.sh
實驗過程
該demo檔案在終端下是能正常執行,不過在呼叫python介面時總會出現以下錯誤
若出現找不到libglog.so, libgflags.so等動態庫錯誤,請新增third_party至環境變數的LD_LIBRARY_PATH中。
按照官方提示新增環境變數
export LD_LIBRARY_PATH=./third_party/lib:$LD_LIBRARY_PATH
錯誤依舊存在【希望解決了這個問題的朋友能分享下】,因此按照需求修改了其demo檔案並在終端執行
#!/bin/bash
export LD_LIBRARY_PATH=../third_party/lib:$LD_LIBRARY_PATH
cd ../model
sh download_model.sh
cd ../python
python ./demo/lda_infer_demo.py ../model/news lda.conf
# 模型可以按照需求修改
最後可以得到每個文件的主題分佈情況