“IT術語詞典”開發流程Day3
阿新 • • 發佈:2018-12-30
今天,我們在實驗室三個人整整做了一天,心理感受有點蒙,遇到的全是問題啊。主要有以下問題:
1.使用IDEA搭建好了伺服器端,正在逐步整合小程式端。原本打算髮布小程式,但是域名沒有備案僅支援伺服器IP地址訪問(IP地址訪問僅可用於除錯),多種嘗試最終沒能釋出。
2.我們始終糾結於從哪爬取關鍵詞?怎麼劃分關鍵詞?這兩個問題中,目前使用的jieba分詞庫對於政策性文章劃分出來的關鍵詞始終是:指導意見、規劃這種檔案詞彙。
對於解決分詞庫的問題,我們大致經過以下三步解決:
(1)爬取新聞網站和人民政府網站的文章,進行爬取。===》劃分太籠統,資料噪音太大
(2)為了解決第一個問題,我們想到能否僅僅對文章和政策的標題
(3)熬到晚上,實在無奈,開始懷疑自己的詞庫。於是突發奇想換成計算機相關的詞庫,參考了開源中國的中文分詞庫,目前暫定是清華大學開源的高質量中文詞庫 THUOCL(簡介:THUOCL(THU Open Chinese Lexicon)是由清華大學自然語言處理與社會人文計算實驗室整理推出的一套高質量的中文詞庫,詞表來自主流網站的社會標籤、搜尋熱詞、輸入法詞庫等。),現在已經晚上十點半,剛想到的辦法,正在測試中,明日即可見分曉。
3.對於樸素貝葉斯等演算法很不熟悉,使用起來難度有點大。
現場圖: