IK分片語件大小寫的問題
IK分詞器在載入詞典時, 詞典中的大小寫字元載入到記憶體時一律變為小寫, 但是在分詞時大小寫是不會轉換的, 所以就有以下情況發生:
當詞典中有"HL定理", 對"HL定理的應用"分詞時是不能分出"HL定理"的,
處理辦法:在講要分詞的句子輸入分詞器前, 先將所有的大些字母轉化為小寫, 這樣分詞出來的就是 "hl定理"
工作中利用ik對 文章裡的字元做分詞 然後返回分詞後的字元 進行關鍵字替換
最後處理後的字元 發下文章裡的全形都被ik改成了半形,英文字母如果是大寫的也被ik改成了小寫 ,這是ik分詞內部類規則的一個特性一般用來做搜尋的時候用的,這個沒錯,但是在我的需求裡用不到這個特性所以我必須把它去掉
開啟ik的原始碼包org.wltea.analyzer.core.CharacterUtil類裡
有個方法 叫regularize 該方法的作用是進行字元規格化(全形轉半形,大寫轉小寫處理)
顯然把這個方法註釋就好了 ,並且去掉相關引用地方的該方法呼叫
這樣ik分詞出來的字元就保留原先的完整性了
相關推薦
IK分片語件大小寫的問題
IK分詞器在載入詞典時, 詞典中的大小寫字元載入到記憶體時一律變為小寫, 但是在分詞時大小寫是不會轉換的, 所以就有以下情況發生: 當詞典中有"HL定理", 對"HL定理的應用"分詞時是不能分出"HL定理"的, 處理辦法:在講要分詞的句子輸入分詞器前, 先將所有的大些字母轉
Java分散式中文分片語件 - word分詞(轉自 https //github com/ysc/word)
分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!  
jieba--做最好用的中文分片語件詳解【1】
寫在最前面: 今天只做基礎使用介紹,關於分詞使用的演算法、模型會在下面的部落格詳細介紹。 特點: jieba是一款中文分片語件,支援python2,3 支援三種分詞模式: 精確模式,試
jieba--做最好用的中文分片語件詳解【2】
寫在最前面: 今天有時間,再講一講jieba分詞的詞典。 載入詞典: 首先,這是原來的分詞方式及其結果: 開發者可以指定自己自定義的詞典,以便包含 jieba 詞庫裡沒有的詞。雖然 jieba 有新詞識別能力,但是自行新增新詞可以保證更高的正確率 import
jieba--做最好用的中文分片語件詳解【3】
寫在最前面: null 基於TF-IDF演算法的關鍵詞抽取 import jieba.analyse jieba.analyse.extract_tags(句子,topK = 20,
中文分片語件:thulac及jieba試用手記
一、THULAC THULAC由《清華大學自然語言處理與社會人文計算實驗室》研製推出的一套中文詞法分析工具包。官網地址:http://thulac.thunlp.org,該專案提供了多種語言,本文以java版為例,先下載以下二個元件:1、THULAC_lite_v1_2分詞java版可執行的jar包:THU
Java分散式中文分片語件word分詞v1.2釋出
word分詞是一個Java實現的分散式的中文分片語件,提供了多種基於詞典的分詞演算法,並利用ngram模型來消除歧義。能準確識別英文、數字,以及日期、時間等數量詞,能識別人名、地名、組織機構名等未登入詞。同時提供了Lucene、Solr、ElasticSearch、Luke外掛。 自1.0之後,在1.1和
詳解如何使用SQL中文分片語件查詢表記錄
CREATEPROCEDURE [dbo].[Search_Test]@Keywordnvarchar(50)=''ASBEGINSET NOCOUNT ONDECLARE@ConditionNVARCHAR(1000) SET@Condition='1 = 1'DECLARE@TablesV
海量的中文分片語件使用
海量的中文分片語件(HLSSplit.dll),是用C++寫的.在java下呼叫,就要用JNI技術. 前段時間做了一個.希望和大家分享一下.關於JNI技術,網上有很多的介紹,還不太瞭解的朋友,可以去網上看看,很簡單,看看就明白. 首先在寫一個類,這個是在JAVA下的呼叫類.
Python中文分片語件jieba
jieba "結巴"中文分詞:做最好的Python中文分片語件 "Jieba" Feature 支援三種分詞模式: 精確模式,試圖將句子最精確地切開,適合文字分析;全模式,把句子中所有的可以成詞的詞語都掃描出來, 速度非常快,但是不能解決歧義;搜尋引擎模式,在精確模式的基礎上,對長詞再次切分,提
基於Python3.6編寫的jieba分片語件+Scikit-Learn庫+樸素貝葉斯演算法小型中文自動分類程式
實驗主題:大規模數字化(中文)資訊資源資訊組織所包含的基本流程以及各個環節執行的任務。本文所採用的分類及程式框架主要參考了這篇部落格基本流程:如下圖所示,和資訊資源資訊組織的基本流程類似,大規模數字化(中文)資訊資源組織的基本流程也如下:1資訊資源的預處理、2資訊外部特徵描述
elasticsearch安裝IK分詞插件
last 打開網頁 med get plugins 文件 zip 插件 技術 一 打開網頁:https://github.com/medcl/elasticsearch-analysis-ik/releases 這個是ik相關的包,找到你想下載的版本,下載對應的zip包 二
當git上只做文件大小寫重命名的修改時,如何躲坑
function http ner ips %20 error: ace mbed lips 一、 提交時 假設修改ABC.java為Abc.java。 1.1 如果使用git命令進行僅涉及大小寫的重命名 1.1.1 設置git庫為大小寫敏感(不建議) $
13.solr學習速成之IK分詞器
更新 api 一個 廣泛 針對 -i 處理器 多個 -1 IKAnalyzer簡介 IKAnalyzer是一個開源的,基於java語言開發的輕量級的中文分詞工具包。 IKAnalyzer特性 a. 算法采用“正向叠代最細粒度切分算法”,支持細粒度和最大詞
IK分詞器安裝
ik分詞器安裝簡介:當前講解的 IK分詞器 包的 version 為1.8。一、下載zip包。 下面有附件鏈接【ik-安裝包.zip】,下載即可。二、上傳zip包。 下載後解壓縮,如下圖。 打開修改修改好後打成zip包。# ‘elasticsearch.version‘ version o
ElasticSearch 用ik分詞器建立索引(java API)
tle creat analyzer undefined 全文搜索 () map 多用戶 tcl ElasticSearch是一個基於Lucene的搜索服務器。它提供了一個分布式多用戶能力的全文搜索引擎,基於RESTful web接口。Elasticsearch是用Ja
如何開發自己的搜索帝國之安裝ik分詞器
style utf-8 編碼 ref 文本 需要 shell pack 用戶 you Elasticsearch默認提供的分詞器,會把每個漢字分開,而不是我們想要的根據關鍵詞來分詞,我是中國人 不能簡單的分成一個個字,我們更希望 “中國人”,&
solr的IK分詞搭建
solr ik下載IK分詞的包:IKAnalyzer2012FF_hf1.zip然後進行解壓1、/usr/local/services/solr/solr-4/usr/local/services/solr/solr-4.10.3/example/solr/collection1/conf中添加 <!-
Elasticsearch入門之從零開始安裝ik分詞器
gpo article terms n) rm -rf 從零開始 系列 pack 默認 起因 需要在ES中使用聚合進行統計分析,但是聚合字段值為中文,ES的默認分詞器對於中文支持非常不友好:會把完整的中文詞語拆分為一系列獨立的漢字進行聚合,顯然這並不是我的初衷。我們來看個
lucene_07_solr使用IK分詞器
分詞 ext rfi 使用 gpo 自定義 中文 web pre 使用IKAnalyzer 中文分析器。. 第一步: 把,IKAnalyzer2012FF_u1j 添加到sol/WEB-INF/lib 目錄下。 第二步: 復制IKAnalyzer 的配置文件和自定義詞典