1. 程式人生 > >如何打造自己的coreseek/sphinx分詞詞庫

如何打造自己的coreseek/sphinx分詞詞庫

下面給大家介紹一下如何打造自己的coreseek分詞詞庫。 coreseek自身帶的詞庫不是很大,直接使用它分詞可能會返回大量沒用結果。要想搜尋結果準確打造一個專門的分詞 詞庫必不可少。

i. 首先到搜狗http://pinyin#sogou#com/dict/下載你要的詞庫

ii. 因為下載回來的詞庫不是文字檔案我們不能直接使用,所以要先轉換成文字檔案。網上找一個搜狗轉 google的小工具,用它把你下載的全部詞庫轉成文字檔案。合併為一個檔案命名為words.txt。檔案要用utf8編碼 儲存,如果想直接使用我下面的工具進行轉換的話檔名一定要是words.txt。如果你想自己轉換請參考官網上的方 法http://www#coreseek#cn/opensource/mmseg/

iii. 現在我們有了一個初步的詞庫,但這個詞庫還不能直接使用,要再整理並轉換coreseek使用的格式才行。 這裡我提供一個自己編寫的小程式方便轉換。 源程式如下:

使用方法如下:

1. 把words.txt,轉換工具words_format.php及c:\coreseek\etc\unigram.txt三個檔案放到能執行php的 伺服器同一個目錄下.

2. 然後訪問words_format.php .

3. 等待程式執行完,時間長短要看你詞的多少,太多的話中間可能假死。執行完後會在相同目錄下生產 words_new.txt把這個檔案加到原unigram.txt的後面,儲存備用.

4. 把上面得到的檔案unigram.txt複製到C:\coreseek\bin然後在命令列下進入目錄C:\coreseek\bin 執行 mmseg -u unigram.txt 該命令執行後,將會在unigram.txt所在目錄中產生一個名為unigram.txt.uni的檔案 ,將該檔案改名為uni.lib,完成詞典的構造。

5. 測試新詞庫能否正解分詞。在C:\coreseek\bin下新建文字檔案test.txt。輸入要測試的關鍵詞。 例如:四季服裝網中大面料輔料,然後儲存。當中一定要包含你新加進詞庫的某個關鍵詞。例如四季服裝網是我新加的 關鍵詞。然後在剛才的命令列下執行mmseg -d C:\coreseek\bin test.txt>result.txt .執行完後開啟新生產 的結果檔案result.txt .如果看到分詞結果類似四季服裝網/x 中大/x 面料/x 輔料/x 的話證明詞庫已正確生成, 如果看到新關鍵詞被分切開如: 四/x 季/x 服/x 裝/x網/x 中大/x 面料/x 輔料/x的話就說明新的詞庫並不正確。 要檢查一下哪裡出錯了,重新生產。

6. 再把得到的uni.lib複製到C:\coreseek\etc覆蓋原檔案就大功告成了

參考連結:http://blog.zhanjz.cn/31.html

相關推薦

如何打造自己coreseek/sphinx

下面給大家介紹一下如何打造自己的coreseek分詞詞庫。 coreseek自身帶的詞庫不是很大,直接使用它分詞可能會返回大量沒用結果。要想搜尋結果準確打造一個專門的分詞 詞庫必不可少。 i. 首先到搜狗http://pinyin#sogou#com/dict/下載你要的詞

優秀的中文jieba

不存在 分詞 png 搜索引擎 函數 inf alt TP eba jieba庫的簡介 jieba是優秀的中文分詞庫,中文文本需要通過分詞來獲的單個詞語。jieba庫提供了三種分詞模式:精確模式,全模式,搜索引擎模式。精確模式是將文本精確割分,不存在冗余。全模式是將文本中所

中文彙總(一)

最近需要對招投標領域的中文詞彙進行統計和分析,首選需要分詞,分詞需要詞庫。 一、從網上找了不少詞庫,各有特點,在這裡整理一下。詞的數量有:4萬,5.7萬,9.1萬,13.3萬,15.5萬,19.6萬,21.3萬,21.7萬,21.8萬,30萬。 二、從主流的幾個分詞工具包

如何創造自己的資料字典(轉換工具的使用)

對於很多做大資料的人來說,我們需要大量的資料字典作為我們準確分析資訊的一個重要標準。而這些資訊從哪兒來?我們不可能程式設計師自己一個一個去寫吧?這樣效率太低了! 所以,今天在這兒給大家分享一款軟體。

自己動手寫引擎——逆向最大、正向最大、雙向最大演算法的實現

分詞引擎已經是NLP最成熟的部分了,經歷了:字典分詞,統計分詞等發展之後,除了應付學術中才有的各種變態歧義句之外,目前工業界的分詞引擎對於絕大多數的常見問題已經足以應對,頂多是需要不斷優化新詞字典就可以了。 但不管怎麼樣,對於一個NLPer還是要能夠手寫最簡單的分詞演算法的

JavaScript 版敏感過濾

    考慮到太多的違禁詞彙,所以縮小化顯示,縮小到讓你看不清楚。如果想看清楚一點,還是去演示地址裡面看吧。消滅敏感詞是每個公民義不容辭的責任!你不站崗我不站崗,誰保衛咱祖國誰來保衛家!讀者們你們要是敢舉報,看我不砍死你! 安裝方法 # 安裝到當前專案 np

Pythonwordcloud中文顯示問題

問題 wordcloud預設是不支援顯示中文的,中文會被顯示成方框。 解決 經過測試發現不支援顯示中文的原因是因為wordcloud的預設字型不支援中文,那就好辦了,我們設定一種支援中文的字型即可, wordlcloud.WordCloud類初始化函式有個設定字型的引數font_

如何利用Github+Appveyor+Nuget打造自己的.net core開源

1 function EnsurePsbuildInstalled{ 2 [cmdletbinding()] 3 param( 4 [string]$psbuildInstallUri = 'https://raw.githubusercontent.co

自己做過分頁功能嗎?我們一起打造自己頁控制元件

一、概述 這些日子在做一套系統,基本上告了一段落,其中包括分頁相關的功能. 主要涉及:Url分頁和Ajax 分頁.而基本上開發中所用到的就這兩種,當然有其他的方式,我們就不說了. 為什麼會談及這兩種分頁呢,原因如下 ajax 分頁使用者體驗好,效能更好. Url 分頁對於搜尋引擎友好. 而做的這套

打造自己的 JavaScript方法工具

前言 作為戰鬥在業務一線的前端,要想少加班,就要想辦法提高工作效率。這裡提一個小點,我們在業務開發過程中,經常會重複用到 日期格式化、 url引數轉物件、 瀏覽器型別判斷、 節流函式等一類函式,這些工具類函式,基本上在每個專案都會用到,為避免不同專案多次複製貼

wordcloud中文亂碼解決辦法

  詞雲是挺有意思的一個庫,但其預設不支援中文字型,一讀中文就亂碼,好在我們有強大的網友,下面分享下從根本上解決亂碼問題的方法。 1.找到你的wordcloud.py檔案並開啟 2.找到如下

打造自己的Javascript工具類

基本擴充套件、工具包 // ------------------------ 基本擴充套件, 字串,陣列等---------------------------------// function extend_base (){ if(!String.pro

打造自己的下拉重新整理(Ultra-Pull-To-Refresh)(一)

上一篇博文打造自己的圖片載入快取庫(Picasso OR Glide)發表之後,非常榮幸得到了部落格專家拭心的肯定,並被轉載到了他的公眾號“安卓進化論”,同時也得到了小組同事們的轉載,在這也非常感謝他們。其實回過頭來看看,實際上自己還是有很多不足和可以改進的地方

通過Consul Raft打造自己的分散式系統

  通用的CP系統有etcd和consul, 通用的對立面就是專用系統. 所以在某些場合是有這種需求的. 然而etcd embed的可用性極差, Windows上面跑會出現各種問題, 而且不能定製協議, 你必須得用etcd定義好的協議和客戶端來和etcd叢集通訊. 所以這時候的選擇: 1. 忍著 2

Mysql基準測試詳細解說(根據慕課網:《打造扛得住Mysql數據架構》視頻課程實時筆錄)

status imu 連接線 慕課 正在 option 並且 nod ces 什麽是基準測試 基準測試是一種測量和評估軟件性能指標的活動用於建立某個時刻的性能基準,以便當系統發生軟硬件變化時重新進行基準測試以及評估變化對性能的影響。 我們可以這樣認為:基準測試是針對

yii自己定義CLinkPager

widget col creat var 自己 首頁 turn calculate none 在components中自己定義LinkPager。並繼承CLinkPager 代碼例如以下: <?php /** * CLinkPager class file

Android網絡框架-Volley實踐 使用Volley打造自己定義ListView

str android項目 chan hive link con data net dap 這篇文章翻譯自Ravi Tamada博客中的Android Custom ListView with Image and Text using Volley 終於效果

android——使用Ijkplayer打造自己的超級電視臺播放軟件

dst sdn player tails roi 播放 axu tps get 圖就不上了。想看效果,直接前往觀看: https://www.pgyer.com/cjdst 參考帖子: http://blog.csdn.net/huaxun66/article/detail

CDlinux制作U盤啟動盤,打造自己的口袋系統

body data- osc bzimage 工具 ltr 其中 start aid 工具: 1、8G或以上U盤一枚; 2、CDlinux0.9.7.1鏡像文件,註意其他版本不一定能成功(傳送門http://pan.baidu.com/s/1o7P6Gu2)

ios swift 打造自己的http請求工具

ble capi afnetwork 處理 定義 起航 body tro ring 在ios開發中,網絡請求是不可以少的,說到網絡請求可能用的最多的就是第三方的比人比較有名的AFNetworking、Alamofire等,原生的用的少。今天就用ios提供的原生方法來打造屬於