ansj分詞方式詳細解析

阿新 • • 發佈：2019-02-12

ToAnalysis 精準分詞

精準分詞是Ansj分詞的店長推薦款

它在易用性,穩定性.準確性.以及分詞效率上.都取得了一個不錯的平衡.如果你初次嘗試Ansj如果你想開箱即用.那麼就用這個分詞方式是不會錯的.

DicAnalysis 使用者自定義詞典優先策略的分詞

使用者自定義詞典優先策略的分詞,如果你的使用者自定義詞典足夠好,或者你的需求對使用者自定義詞典的要求比較高,那麼強烈建議你使用DicAnalysis的分詞方式.

可以說在很多方面Dic優於ToAnalysis的結果

NlpAnalysis 帶有新詞發現功能的分詞

nlp分詞是總能給你驚喜的一種分詞方式.

它可以識別出未登入詞.但是它也有它的缺點.速度比較慢.穩定性差.ps:我這裡說的慢僅僅是和自己的其他方式比較.應該是40w字每秒的速度吧.

個人覺得nlp的適用方式.1.語法實體名抽取.未登入詞整理.只要是對文字進行發現分析等工作

IndexAnalysis 面向索引的分詞

面向索引的分詞。顧名思義就是適合在lucene等文字檢索中用到的分詞。主要考慮以下兩點

召回率
召回率是對分詞結果儘可能的涵蓋。比如對“上海虹橋機場南路” 召回結果是[上海/ns, 上海虹橋機場/nt, 虹橋/ns, 虹橋機場/nz, 機場/n, 南路/nr]
準確率
其實這和召回本身是具有一定矛盾性的Ansj的強大之處是很巧妙的避開了這兩個的衝突。比如我們常見的歧義句“旅遊和服務”->對於一般保證召回。大家會給出的結果是“旅遊和服服務” 對於ansj不存在跨term的分詞。意思就是。召回的詞只是針對精準分詞之後的結果的一個細分。比較好的解決了這個問題

BaseAnalysis 最小顆粒度的分詞

基本就是保證了最基本的分詞.詞語顆粒度最非常小的..所涉及到的詞大約是10萬左右.

基本分詞速度非常快.在macAir上.能到每秒300w字每秒.同時準確率也很高.但是對於新詞他的功能十分有限.

功能統計

名稱	使用者自定義詞典	數字識別	人名識別	機構名識別	新詞發現
BaseAnalysis	X	X	X	X	X
ToAnalysis	√	√	√	X	X
DicAnalysis	√	√	√	X	X
IndexAnalysis	√	√	√	X	X
NlpAnalysis	√	√	√	√	√

ansj分詞方式詳細解析

ToAnalysis 精準分詞精準分詞是Ansj分詞的店長推薦款它在易用性,穩定性.準確性.以及分詞效率上.都取得了一個不錯的平衡.如果你初次嘗試Ansj如果你想開箱即用.那麼就用這個分詞方式是不會錯的. DicAnalysis 使用者自定義詞典優先策略的分詞

ansj分詞史上最詳細教程

最近的專案需要使用到分詞技術。本著不重複造輪子的原則，使用了ansj_seg來進行分詞。本文結合博主使用經過，教大家用最快的速度上手使用ansj分詞。 1.給ansj來個硬廣 2.配置maven 在maven專案的pom中配置ansj的depend

Lucene筆記16-Lucene的分詞-通過TokenStream顯示分詞的詳細資訊

一、通過TokenStream檢視分詞的詳細資訊 package com.wsy; import org.apache.lucene.analysis.*; import org.apache.lucene.analysis.standard.StandardAnalyzer; impor

ansj分詞原理

ansj第一步會進行原子切分和全切分，並且是在同時進行的。所謂原子,是指短句中不可分割的最小語素單位。例如，一個漢字就是一個原子。全切分，就是把一句話中的所有詞都找出來，只要是字典中有的就找出來。例如，“提高中國人生活水平”包含的詞有：提高、高中、中國、國人、人生、生活、活水、水平

網站中用lucene全文搜尋引擎和ansj分詞外掛之ansj配置檔案的正確寫法

不介紹：怎麼下載？怎麼使用？下載後都有demo的。這裡只說關鍵的： 1.把lucene的lucene-analyzers-common-7.4.0.jar、lucene-core-7.4.0.jar和lucene-queryparser-7.4.0.jar匯

Ansj分詞教程步驟

摘要： ansj是一個基於n-Gram+CRF+HMM的中文分詞的java實現. ansj分詞速度達到每秒鐘大約200萬字左右（mac air下測試），準確率能達到96%以上 Ansj目前實現了.中文分詞.詞性識別. 中文姓名識別 . 使用者自定義詞典,關鍵字提

solr7.2.1整合ansj分詞器

最近剛離職，為了儘快找到好的工作，不敢不好好學習，查漏補缺。之前的工作滿打滿算做了11個月，主要內容是搜尋業務介面的開發，主要使用的是solr引擎，工作期間由於忙於業務並沒有對solr的基礎進行過仔細的學習，這兩天先從solr

Quartz任務排程(4)JobListener分版本超詳細解析

在《spring學習筆記(15)趣談spring 事件：實現業務邏輯解耦，非同步呼叫提升使用者體驗》我們通過例項分析講解了spring的事件機制，或許你會覺得其中的配置略顯繁瑣，而在Quartz框架中，它為我們集成了強大的事件機制，輕鬆地幫助我們在任務排程中完成各類輔佐操

用於solr5的ansj分詞外掛擴充套件

原始碼： https://github.com/NLPchina/ansj_seg jar包： http://maven.nlpcn.org/org/ansj/ http://maven.nlpcn.org/org/nlpcn/nlp-lang http://maven.

ansj 分詞系統的詞性

最近做nlp，需要詞性，特地查了下保留下i下來漢語文字詞性標註標記集 # 1. 名詞 (1個一類，7個二類，5個三類) 名詞分為以下子類： n 名詞 nr 人名 nr1 漢語姓氏 nr2 漢語名字 nrj 日語人名 nrf 音譯人名 ns 地名 nsf 音譯地名 nt

ansj分詞器的配置

總共有兩種方式： 1.可以採用POM.XML自動配置安裝，在eclipse需要在marketplace 安裝maven外掛. 2.自行配置: 新建一個工程ansjtest,工程名自行定義匯入tr

IK分詞原理深度解析

導讀：IK分詞是一款國人開發的相對簡單的中文分詞器，但自2012年之後開發者就不在維護了，但在工程應用中IK算是比較流行的一款！ 1、IK分詞器也是基於正向匹配的分詞演算法。 2、IK分詞器，基本可分為兩種模式，一種為smart模式，一種為非smart模式 3、非s

使用Spark、Ansj分詞進行詞頻統計

使用Spark進行詞頻統計最近在做一個專案，要對大量的文字進行詞頻統計，發現常規的方法處理比較慢，所以嘗試使用Spark進行計算。思路大致是這樣：爬蟲爬取京東的評論資料到mongodb,然後我從mongodb拉資料上傳到HDFS,從HDFS拉資料然後用Spa

Scala使用Ansj分詞

導包  <dependency> <groupId>org.ansj</group

solr的ansj分詞使用

從https://github.com/mlcsdev/mlcsseg下載版本參照http://mlcsdev.iteye.com/blog/2037109編譯，注意點是當編譯ansj模組時，需要修改maven配置檔案，指定所需的common的jar包位置，否則會提示找不

SCWS中文分詞PHP擴展詳細安裝說明

server 文檔 .so 小姐 lang down http 寶塔面板代碼因最近寫的一段代碼，需要用到中文分詞，在網上找了一下，發現了scws這個不錯的插件，故根據文檔安裝使用，下面記錄下安裝的全過程系統:centos 安裝scws wget http://www.

轉載：Spark 使用ansj進行中文分詞

轉載：https://www.cnblogs.com/JustIsQiGe/p/8006734.html 在Spark中使用ansj分詞先要將ansj_seg-5.1.1.jar和nlp-lang-1.7.2.jar加入工程 ansj原始碼github：https://github.com/

hanlp原始碼解析之中文分詞演算法詳解

詞圖詞圖指的是句子中所有詞可能構成的圖。如果一個詞A的下一個詞可能是B的話，那麼A和B之間具有一條路徑E(A,B)。一個詞可能有多個後續，同時也可能有多個前驅，它們構成的圖我稱作詞圖。需要稀疏2維矩陣模型，以一個詞的起始位置作為行，終止位置作為列，可以得到一個二維矩陣。例如：“他說的確實

詳細解析js中的混合方式構造物件（構造加屬性，原型加方法）

詳細解析混合方式構造物件 js程式碼如下 function CreatePerson(name, qq) //用建構函式加屬性 { //原料 +new 系統偷偷替咱們做 //var obj=ne

ansj分詞方式詳細解析

ToAnalysis 精準分詞

DicAnalysis 使用者自定義詞典優先策略的分詞

NlpAnalysis 帶有新詞發現功能的分詞

IndexAnalysis 面向索引的分詞

BaseAnalysis 最小顆粒度的分詞

功能統計

相關推薦