1. 程式人生 > >MMseg進行機械分詞

MMseg進行機械分詞

MMseg下載地址

https://github.com/chenlb/mmseg4j-core

在myEclipse下面建立一個Java工程
然後把

D:\工\mmseg4j-core-master\mmseg4j-core-master\src\main\java

下面的檔案和資料夾拷貝到src下面
然後把lib下面新增junit.jar並且BuildPath
拷入資料

D:\工\mmseg4j-core-master\mmseg4j-core-master\src\main\resources

下面的data資料夾拷貝到Java工程。
這樣一個MMseg分詞的系統就搭建好了。
執行例子下面的Complex.java測試是否成功。
理論基礎:

http://technology.chtsai.org/mmseg/

詳細介紹:

http://blog.csdn.net/pwlazy/article/details/17562927

相關推薦

MMseg進行機械

MMseg下載地址 https://github.com/chenlb/mmseg4j-core 在myEclipse下面建立一個Java工程 然後把 D:\工作\mmseg4j-core-master\mmseg4j-core-master\s

python 讀寫txt文件並用jieba庫進行中文

mage 亂碼 技術分享 流行 ictclas 函數 結果 class 配置 python用來批量處理一些數據的第一步吧。 對於我這樣的的萌新。這是第一步。 #encoding=utf-8 file=‘test.txt‘ fn=open(file,"r") print f

Java機械

一段 .get for tac adl oid label 位置 equal 這是我們做的一個小作業,不多說 直接附上我寫的代碼:   public void Zheng() { try { BufferedReader b

轉載:Spark 使用ansj進行中文

轉載:https://www.cnblogs.com/JustIsQiGe/p/8006734.html 在Spark中使用ansj分詞先要將ansj_seg-5.1.1.jar和nlp-lang-1.7.2.jar加入工程 ansj原始碼github:https://github.com/

使用Java呼叫Stanford CoreNLP 進行中文

Stanford CoreNLP 進行中文分詞 中文分詞的工具有很多,使用斯坦福的CoreNLP進行分詞的教程網上也不少,本篇部落格是記錄自己在使用Stanford CoreNLP進行中文分詞的學習筆記。 1. 工具準備 1.1 下載NLP相關包: 網址: https://stanfordn

spark叢集環境下使用hanlp進行中文

標籤:zab table import shel – java standard mas tokenizer 1、將下載的hanlp-portable-1.6.2.jar複製到叢集spark/jar資料夾下面 2、啟動spark叢集 spark/bin/spark-shel

spark叢集使用hanlp進行分散式操作

分兩步: 第一步:實現hankcs.hanlp/corpus.io.IIOAdapter public class HadoopFileIoAdapter implements IIOAdapter { @Override public InputStream ope

使用jieba和wordcloud進行中文並生成《悲傷逆流成河》

因為詞雲有利於體現文字資訊,所以我就將那天無聊時爬取的《悲傷逆流成河》的評論處理了一下,生成了詞雲。 關於爬取影評的爬蟲大概長這個樣子(實際上是沒有爬完的): #!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/10/15 16:3

使用IKAnalyzer進行中文

                一個完整的結構如下:其中ext.dic和chinese_stopword.dic都是自定義的,這裡ext.dic用的是百度百科的詞條【496萬個詞條】,需要在xml裡面新增dic的位置。<?xml version="1.0" encoding="UTF-8"?>&l

使用python jieba庫進行中文

jieba “結巴”中文分詞:做最好的 Python 中文分片語件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word

使用Python+jieba和java+庖丁在Spark叢集上進行中文統計

寫在前邊的話:        本篇部落格也是在做豆瓣電影資料的分析過程中,需要對影評資訊和劇情摘要資訊進行分析而寫的一篇部落格        以前學習hadoop時,感覺做中文分詞也沒那麼麻煩,但是到了

python中使用jieba進行中文

原始碼下載的地址:https://github.com/fxsjy/jieba演示地址:http://jiebademo.ap01.aws.af.cm/ 一   “結巴”中文分詞:做最好的 Python 中文分片語件  。支援三種分詞模式:精確模式,試圖將句子最精確地切開,適

python讀寫txt檔案,並用jieba庫進行中文

在虎撲上隨便找了一段文字,貼上到word.txt檔案中,然後對這段文字進行處理。其中用到的matplotlib庫,主要是用來繪圖;jieba庫,對文字進行分詞;wordcloud庫,構建詞雲。一、引用庫

利用NLTK進行分句

1.輸入一個段落,分成句子(Punkt句子分割器)import nltk import nltk.data def splitSentence(paragraph): tokenizer = nltk.data.load('tokenizers/punkt/eng

用正向和逆向最大匹配演算法進行中文(續)

一、結果分析:         1.程式執行結果,如下圖所示:         2.總體分析。         (1)正向和逆向匹配都正確的句子數目為 1731,佔句子總數的39.0%         (2)正向最大匹配完全正確的句子數目為 1917,佔句子總數的43

python3進行中文和詞性標註

配置python環境(win10) 雙擊安裝,我安裝在了D:\python 中。 新增環境變數。 在我的電腦處右鍵 -> 高階系統設定 -> 環境變數 -> 系統變數 ->

自然語言處理--中文機械

說到自然語言處理,對於中文首當其衝的就是分詞。     和西方語言不同,中文句子中不像英語,每個單詞間有空格隔開,而是全部連在一起,詞間沒有明顯的界限。這就為我們的翻譯、檢索等等更高階的資訊處理帶來了不小的麻煩,怎樣將一句話中的關鍵詞提取出來,便成為了中文資訊處理首先要

Python呼叫PYNIPIR(ICTCLAS)進行中文

NLPIR漢語分詞系統,主要功能包括中文分詞;詞性標註;命名實體識別;使用者詞典功能;支援GBK編碼、UTF8編碼、BIG5編碼。新增微博分詞、新詞發現與關鍵詞提取;張華平博士先後傾力打造十餘年,核心升級10次。(http://ictclas.nlpir.org

使用R語言進行中文

1.準備包     ①rJava包     ② Rwordseg包     ③java環境     ④搜狗詞庫(此為擴充套件詞庫)    Rwordseg包依賴於rJava包。由於Rwordseg包並沒有託管在CRAN上面,而是在R-Forge上面,因此在在R軟體上面直接

Python利用結巴進行中文

利用結巴分詞進行中文分詞,選擇全模式,建立詞倒排索引,並實現一般多詞查詢和短語查詢 # -*- coding: utf-8 -*- import jieba ''' Created on 2015-11-23 ''' def word_split(text): "