1. 程式人生 > >coreseek一元切分模式中英文單詞不切分問題

coreseek一元切分模式中英文單詞不切分問題

網站搜尋使用coreseek(sphinx),採用的一元分詞模式,但按照官方網站的文件說明,卻不支援英文單詞、數字串一元分詞,如:光華路SOHO,輸入soho中任一字母不能查找出soho;輸入soho可以查出,如標題中僅一個字母時,是可以的,如光華路h,輸入“h”,可以查出,由此推斷英文單詞沒有做一元分詞索引,仔細檢視文件:
(http://www.coreseek.cn/products-install/ngram_len_cjk/ 文件地址,此處僅列出主要部分)
#部分文件:

ngram_chars = U+4E00..U+9FBF, U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF,\
U+2F800..U+2FA1F, U+2E80..U+2EFF, U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF,\
U+3040..U+309F, U+30A0..U+30FF, U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF,\
U+3130..U+318F, U+A000..U+A48F, U+A490..U+A4CF

charset_table = U+FF10..U+FF19->0..9, 0..9, U+FF41..U+FF5A->a..z, U+FF21..U+FF3A->a..z,\
A..Z->a..z, a..z, U+0149, U+017F, U+0138, U+00DF, U+00FF, U+00C0..U+00D6->U+00E0..U+00F6,\ ......略..


# end

其中: ngram_chars 表示要進行一元字元切分模式的字符集;
charset_table 表示可被一元字元切分模式認可的有效字符集;

仔細對比字符集開頭,發現ngram_chars中沒有數字與英文字母的集合,呵呵!終於找到原因了,將charset_table字符集開頭:“U+FF10..U+FF19->0..9,0..9,U+FF41..U+FF5A->a..z,U+FF21..U+FF3A->a..z,A..Z->a..z, a..z,”部分,複製到ngram_char字符集前頭如下:
ngram_chars =U+FF10..U+FF19->0..9, 0..9, U+FF41..U+FF5A->a..z, U+FF21..U+FF3A->a..z,\
A..Z->a..z, a..z, U+4E00..U+9FBF, U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF,\
U+2F800..U+2FA1F, U+2E80..U+2EFF, U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF,\
U+3040..U+309F, U+30A0..U+30FF, U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF,\
U+3130..U+318F, U+A000..U+A48F, U+A490..U+A4CF

charset_table = U+FF10..U+FF19->0..9, 0..9, U+FF41..U+FF5A->a..z, U+FF21..U+FF3A->a..z,\
A..Z->a..z, a..z, U+0149, U+017F, U+0138, U+00DF, U+00FF, U+00C0..U+00D6->U+00E0..U+00F6,\ ......略..
重新執行索引,問題解決。

相關推薦

coreseek一元切分模式中英文單詞切分問題

網站搜尋使用coreseek(sphinx),採用的一元分詞模式,但按照官方網站的文件說明,卻不支援英文單詞、數字串一元分詞,如:光華路SOHO,輸入soho中任一字母不能查找出soho;輸入soho可以查出,如標題中僅一個字母時,是可以的,如光華路h,輸入“h”,可以查出,

Android 當打開“開發人員模式”中的“保留活動”後,程序應當怎麽保持正常執行

京東 java 天才 以及 click get message 查看源 create Android 當打開“開發人員模式”中的“不保留活動”後,程序應當怎麽保持正常執行咧。。? 在這幾天,我一直在糾結這個問題。從發現,程序出現這個問題,是由於“開發人員模式”中的“不保

策略模式(策略同類,場景不同策略不同)

方法 rgs per 客戶 print 老婆 包含 operate 分支 背景 在軟件開發中常常遇到這種情況,實現某一個功能有多種算法或者策略,我們可以根據環境或者條件的不同選擇不同的算法或者策略來完成該功能。如查找、排序等,一種常用的方法是硬編碼(Hard Coding)

hdu3065 病毒侵襲持續中 AC自動機入門題 N(N <= 1000)個長度大於50的模式串(保證所有的模式串都相同), 一個長度大於2000000的待匹配串,求模式串在待匹配串中的出現次數。

sizeof archive 模式 emp tomat .... truct print sca /** 題目:hdu3065 病毒侵襲持續中 鏈接:http://acm.hdu.edu.cn/showproblem.php?pid=3065 題意:N(N <= 1

360瀏覽器兼容模式,頁面能正常渲染

谷歌 -s 瀏覽器中 -c http style 解決 title -h 360急速模式都可以正常的渲染,但是切換到兼容模式,頁面就不能正常的渲染了。分析原因: 因為360瀏覽器中包含了兩個瀏覽器 一個是IE(Trident內核),即兼容模式,在使用網銀時需要切換為兼容模式

CentOS 6.9使用Setup配置網絡(解決dhcp模式插入網線自動獲取IP的問題)

參考 ip地址 圖片 article 上下 防火墻 sdn 一個 con 說明:dhcp模式插入網線不自動獲取IP是因為網卡沒有激活,造成這種原因的,應該是安裝系統時沒有插入網線造成的。 解決方法: 修改網卡配置文件 vim /etc/sysconfig/netw

解決chrome在ubuntu+root模式下打開的問題

and dbo family pro 分享圖片 span -s ron 模式 chrome在ubuntu root模式下打不開 雙擊圖標,chrome打不開了: 解決辦法: 查看一下打開chrome瀏覽器的命令是什麽,右鍵properties

sping,springMVC @Component 註解的物件都是單例模式,變數能全域性

錯誤方式:      將屬性和變數定義為全域性,單例模式,所有人共享,導致所有人的資料都發生錯誤!   正確方式 一:    將變數定義到區域性,互不影響。   正確方式 二:      

spark跑YARN模式或Client模式提交任務成功(application state: ACCEPTED)

應該是yarn的記憶體資源不夠 cd $HADOOP_HOME/bin 然後檢視yarn程序 yarn application -list 然後殺死任務 yarn application -kill application_1437456051228_1725

啟動模式:singleTask 是 Intent.FLAG_ACTIVITY_NEW_TASK!

今天實驗了一下  Intent.FLAG_ACTIVITY_NEW_TASK  和singleTask 結果發現了一些問題,在這邊記錄一下: 1.現在有ActivityA ,和Activity B ,在XML中 沒有指定l

使用者模式去掉有時能訪問登錄檔問題

指令碼: .bat @echo off color 0c rem 設定"HKEY_LOCAL_MACHINE\Win10\ControlSet001\Enum\PCI"的所有者為:Administratros >>test.inf echo.[Version] >>test.in

用戶模式去掉有時能訪問註冊表問題

不能訪問 vpd pid signature 註冊 問題 RoCE cedit shadow 腳本: .bat @echo off color 0c rem 設置"HKEY_LOCAL_MACHINE\Win10\ControlSet001\Enum\PCI"的所有者為

tomcat模式能成功進入debug模式,斷點起作用

一、問題 javaSE專案進入debug模式正常啟動,而tomcat啟動web專案進入debug模式,斷點不起作用,按照網上各種方法試了個遍,都不行。 二、原因 根本原因是idea自帶的環境與tomcat帶的環境有了衝突,因為我們的idea預設啟動是catalina.bat啟動,而我的c

【Linux】---vmware虛擬網路配置(NAT模式)及能ping通主機和百度

nat模式配置 nat模式配置,虛擬機器可以訪問百度 首先本機閘道器不能喝VMNET8一個閘道器 本機的IP及閘道器   VMnet8的設定 虛擬機器編輯器設定,需要和VMnet8在同一個閘道器下 虛擬機器的設定 此

vmware Linux中 NAT模式下主機能ping通虛擬機器的解決方法

虛擬機器配置 IP:192.168.191.130 子網掩碼:255.255.255.0 預設閘道器:192.168.191.2 主機IP地址為:192.168.1.244  虛擬機器ping主機 可以ping通 主機ping虛擬機器 請求超時

Android Studio 在除錯模式下檢視了區域性變數

我在把eclipse的專案匯入到studio後進行斷電除錯,發現都檢視不了區域性變數的值,後來上網查了下,說是在gradle檔案把testCoverageEnabled設為false就可以了,試了下果然

Word中英文單詞行尾分割的有效解決辦法

一次,我朋友要我處理他英語試卷中一段閱讀文章的問題。具體是這樣的,這篇文章中有相當一部分單詞在行尾時被分割成了上下兩部分,如下第四行末“I have to say that”中的that就被分裂了,第五行末的“market research to”的“to”都是

【IDE】intelli idea總是進入vim模式,shift能選擇文字

Intellij Idea, 每次開啟檔案都進入了vim模式,必須輸入a才可編輯,shift+上下箭頭不能選中行,實在是非常困擾。 看了設定裡面的keymap是[mac os],shift+箭頭預設也是可以選擇的。最後在stack over flow上面查到了

字串中英文單詞開頭字元大小寫轉換

華為2016年實習生招聘筆試題:輸入一個英文句子的字串,修改每個英文單詞的首字母的大小寫,即大寫改為小寫,小寫改為大寫,並返回修改後的字串 package com.javaexam.test; import java.util.Scanner; public class

簡單的單例模式其實也簡單

單例模式可以說只要是一個合格的開發都會寫,但是如果要深究,小小的單例模式可以牽扯到很多東西,比如 多執行緒是否安全,是否懶載入,效能等等。還有你知道幾種單例模式的寫法呢?如何防止反射破壞單例模式?今天,我就花一章內容來說說單例模式。 關於單例模式的概念,在這裡就不在闡述了,相信每個小夥伴都瞭如指掌。 我們