coreseek一元切分模式中英文單詞不切分問題

阿新 • • 發佈：2019-01-20

網站搜尋使用coreseek(sphinx)，採用的一元分詞模式，但按照官方網站的文件說明，卻不支援英文單詞、數字串一元分詞，如：光華路SOHO,輸入soho中任一字母不能查找出soho；輸入soho可以查出，如標題中僅一個字母時，是可以的，如光華路h，輸入“h”，可以查出，由此推斷英文單詞沒有做一元分詞索引，仔細檢視文件：
（http://www.coreseek.cn/products-install/ngram_len_cjk/ 文件地址，此處僅列出主要部分）
#部分文件：

ngram_chars = U+4E00..U+9FBF, U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF,\
U+2F800..U+2FA1F, U+2E80..U+2EFF, U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF,\
U+3040..U+309F, U+30A0..U+30FF, U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF,\
U+3130..U+318F, U+A000..U+A48F, U+A490..U+A4CF

charset_table = U+FF10..U+FF19->0..9, 0..9, U+FF41..U+FF5A->a..z, U+FF21..U+FF3A->a..z,\
A..Z->a..z, a..z, U+0149, U+017F, U+0138, U+00DF, U+00FF, U+00C0..U+00D6->U+00E0..U+00F6,\ ......略..

# end

其中： ngram_chars 表示要進行一元字元切分模式的字符集；
charset_table 表示可被一元字元切分模式認可的有效字符集；

仔細對比字符集開頭，發現ngram_chars中沒有數字與英文字母的集合，呵呵！終於找到原因了，將charset_table字符集開頭：“U+FF10..U+FF19->0..9,0..9,U+FF41..U+FF5A->a..z,U+FF21..U+FF3A->a..z,A..Z->a..z, a..z,”部分，複製到ngram_char字符集前頭如下：
ngram_chars =U+FF10..U+FF19->0..9, 0..9, U+FF41..U+FF5A->a..z, U+FF21..U+FF3A->a..z,\
A..Z->a..z, a..z, U+4E00..U+9FBF, U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF,\
U+2F800..U+2FA1F, U+2E80..U+2EFF, U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF,\
U+3040..U+309F, U+30A0..U+30FF, U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF,\
U+3130..U+318F, U+A000..U+A48F, U+A490..U+A4CF

charset_table = U+FF10..U+FF19->0..9, 0..9, U+FF41..U+FF5A->a..z, U+FF21..U+FF3A->a..z,\
A..Z->a..z, a..z, U+0149, U+017F, U+0138, U+00DF, U+00FF, U+00C0..U+00D6->U+00E0..U+00F6,\ ......略..
重新執行索引，問題解決。

coreseek一元切分模式中英文單詞不切分問題

coreseek一元切分模式中英文單詞不切分問題

Android 當打開“開發人員模式”中的“不保留活動”後，程序應當怎麽保持正常執行

策略模式（策略不同類，場景不同策略不同）

hdu3065 病毒侵襲持續中 AC自動機入門題 N(N <= 1000)個長度不大於50的模式串(保證所有的模式串都不相同)，一個長度不大於2000000的待匹配串，求模式串在待匹配串中的出現次數。

360瀏覽器兼容模式，頁面不能正常渲染

CentOS 6.9使用Setup配置網絡（解決dhcp模式插入網線不自動獲取IP的問題）

解決chrome在ubuntu+root模式下打不開的問題

sping,springMVC @Component 註解的物件都是單例模式，變數不能全域性

spark跑YARN模式或Client模式提交任務不成功（application state: ACCEPTED）

啟動模式：singleTask 不是 Intent.FLAG_ACTIVITY_NEW_TASK！

使用者模式去掉有時不能訪問登錄檔問題

用戶模式去掉有時不能訪問註冊表問題

tomcat模式下不能成功進入debug模式，斷點不起作用

【Linux】---vmware虛擬網路配置（NAT模式）及不能ping通主機和百度

vmware Linux中 NAT模式下主機不能ping通虛擬機器的解決方法

Android Studio 在除錯模式下檢視不了區域性變數

Word中英文單詞行尾分割的有效解決辦法

【IDE】intelli idea總是進入vim模式，shift不能選擇文字

字串中英文單詞開頭字元大小寫轉換

簡單的單例模式其實也不簡單

coreseek一元切分模式中英文單詞不切分問題

相關推薦