利用庖丁解牛工具進行中文分詞

阿新 • • 發佈：2019-02-11

關於如何使用庖丁解牛分詞工具可參考：http://www.letiantian.me/2014-11-26-word-segmentation-paoding-analysis/

該工具可實現自定義詞典，對於有些特殊的詞，比如明星名字林心如霍建華等，可構建詞典以.dic為字尾，放入paoding-analysis-2.0.4-beta\dic目錄下，然後新建Java工程即可~

對於一些停用詞，也可以處理~

主要程式碼如下：

</pre><pre class="java" name="code">import java.io.IOException;
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.util.*;

public class fenciMain3 {
	//停用詞詞表
    public static final String stopWordTable = "." + File.separator + "srcFile" + File.separator + "StopWordTable_all.txt";

    public static void main(String[] args) throws IOException {
        String srcFile = "." + File.separator + "srcFile" + File.separator + "user_tag_query.txt";
       //String srcFile = "." + File.separator + "srcFile" + File.separator + "test.txt";
        String destFile = "." + File.separator + "destFile" + File.separator + "fileExcludeStopWord2.0.txt";
        //String destFile = "." + File.separator + "destFile" + File.separator + "output.txt";
        
        new fenciMain3().fenciMain3(srcFile, destFile);
        System.out.println("OVER DONE!!!!!!!!!!"); 
        
       // String text = "秋刀魚的滋味，貓跟你都想了解";
        //System.out.println(pd.fenci01(text));
    }
    
    public void fenciMain3(String srcFile, String destFile){
        try {
            //讀取原檔案和停用詞表
            BufferedReader srcFileBr = new BufferedReader(new InputStreamReader(new FileInputStream(new File(srcFile))));
            BufferedReader StopWordFileBr = new BufferedReader(new InputStreamReader(new FileInputStream(stopWordTable), "UTF-8"));
            //將分詞好的文字資訊存入輸出檔案
            BufferedWriter destFileBw = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(new File(destFile))));
            
          //用來存放停用詞的集合
            Set<String> stopWordSet = new HashSet<String>();
            
            //初始化停用詞集
            String stopWord = null;
            for(; (stopWord = StopWordFileBr.readLine()) != null;){
            //	System.out.println(stopWord);
                stopWordSet.add(stopWord);        
            } 
            
            String paragraph = null;
            paodingfenci pd = new paodingfenci();
            for(; (paragraph = srcFileBr.readLine()) != null; ){
                //對讀入的文字進行分詞
            	//顯示結果
                //System.out.println(pd.fenci01(paragraph));
                
                String spiltResultStr = pd.fenci01(paragraph);
                String[] resultArray = spiltResultStr.split(" ");
                                
                //過濾停用詞            
                for(int i = 4; i< resultArray.length; i++){
                    if(stopWordSet.contains(resultArray[i])){
                        resultArray[i] = null;
                    }
                    else{
                    	for(int j = resultArray[i].length(); --j >= 0;){
                    		char c = resultArray[i].charAt(j);
                        	if(Character.isDigit(c)){
                        		resultArray[i] = null;
                        		break;
                        	}
                        	if((c >= 'a' && c <= 'z') || (c >= 'A' && c <= 'Z')){
                        		resultArray[i] = null;
                        		break;
                        	}
                        	
                        }
                    }
          
                }
                
                //把過濾後的字串陣列存入到一個字串中
                StringBuffer finalStr = new StringBuffer();
                for(int i = 0; i< resultArray.length; i++){
                    if(resultArray[i] != null){
                        finalStr = finalStr.append(resultArray[i]).append(" ");
                    }
                }
                
                //輸出結果到指定檔案
                destFileBw.write(finalStr.toString());
                destFileBw.newLine();
            }            
            
            //關閉輸入流
            destFileBw.close();
            srcFileBr.close();            
            
        } catch (FileNotFoundException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch(Exception e){
            e.printStackTrace();
        }
    }
}

利用庖丁解牛工具進行中文分詞

關於如何使用庖丁解牛分詞工具可參考：http://www.letiantian.me/2014-11-26-word-segmentation-paoding-analysis/ 該工具可實現自定義詞典，對於有些特殊的詞，比如明星名字林心如霍建華等，可構建詞典以.dic為

Python利用結巴分詞進行中文分詞

利用結巴分詞進行中文分詞，選擇全模式，建立詞倒排索引，並實現一般多詞查詢和短語查詢 # -*- coding: utf-8 -*- import jieba ''' Created on 2015-11-23 ''' def word_split(text): "

利用jieba進行中文分詞並進行詞頻統計

1.安裝jieba庫在windows的Anaconda環境下如果沒有設定環境變數，則從Dos命令先進入...\Anaconda3\Scripts 目錄中，然後執行以下命令即可： pip install jieba 2.分詞示例我們先用一段文字來進

python 讀寫txt文件並用jieba庫進行中文分詞

mage 亂碼技術分享流行 ictclas 函數結果 class 配置 python用來批量處理一些數據的第一步吧。對於我這樣的的萌新。這是第一步。 #encoding=utf-8 file=‘test.txt‘ fn=open(file,"r") print f

轉載：Spark 使用ansj進行中文分詞

轉載：https://www.cnblogs.com/JustIsQiGe/p/8006734.html 在Spark中使用ansj分詞先要將ansj_seg-5.1.1.jar和nlp-lang-1.7.2.jar加入工程 ansj原始碼github：https://github.com/

使用Java呼叫Stanford CoreNLP 進行中文分詞

Stanford CoreNLP 進行中文分詞中文分詞的工具有很多，使用斯坦福的CoreNLP進行分詞的教程網上也不少，本篇部落格是記錄自己在使用Stanford CoreNLP進行中文分詞的學習筆記。 1. 工具準備 1.1 下載NLP相關包：網址： https://stanfordn

spark叢集環境下使用hanlp進行中文分詞

標籤：zab table import shel – java standard mas tokenizer 1、將下載的hanlp-portable-1.6.2.jar複製到叢集spark/jar資料夾下面 2、啟動spark叢集 spark/bin/spark-shel

使用jieba和wordcloud進行中文分詞並生成《悲傷逆流成河》詞雲

因為詞雲有利於體現文字資訊，所以我就將那天無聊時爬取的《悲傷逆流成河》的評論處理了一下，生成了詞雲。關於爬取影評的爬蟲大概長這個樣子(實際上是沒有爬完的): #!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/10/15 16:3

使用IKAnalyzer進行中文分詞

一個完整的結構如下：其中ext.dic和chinese_stopword.dic都是自定義的，這裡ext.dic用的是百度百科的詞條【496萬個詞條】，需要在xml裡面新增dic的位置。<?xml version="1.0" encoding="UTF-8"?>&l

使用python jieba庫進行中文分詞

jieba “結巴”中文分詞：做最好的 Python 中文分片語件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word

使用Python+jieba和java+庖丁分詞在Spark叢集上進行中文分詞統計

寫在前邊的話：本篇部落格也是在做豆瓣電影資料的分析過程中，需要對影評資訊和劇情摘要資訊進行分析而寫的一篇部落格以前學習hadoop時，感覺做中文分詞也沒那麼麻煩，但是到了

python中使用jieba進行中文分詞

原始碼下載的地址：https://github.com/fxsjy/jieba演示地址：http://jiebademo.ap01.aws.af.cm/ 一 “結巴”中文分詞：做最好的 Python 中文分片語件。支援三種分詞模式：精確模式，試圖將句子最精確地切開，適

python讀寫txt檔案，並用jieba庫進行中文分詞

在虎撲上隨便找了一段文字，貼上到word.txt檔案中，然後對這段文字進行處理。其中用到的matplotlib庫，主要是用來繪圖；jieba庫，對文字進行分詞；wordcloud庫，構建詞雲。一、引用庫

用正向和逆向最大匹配演算法進行中文分詞（續）

一、結果分析： 1.程式執行結果，如下圖所示： 2.總體分析。（1）正向和逆向匹配都正確的句子數目為 1731，佔句子總數的39.0% （2）正向最大匹配完全正確的句子數目為 1917，佔句子總數的43

python3進行中文分詞和詞性標註

配置python環境(win10) 雙擊安裝，我安裝在了D:\python 中。新增環境變數。在我的電腦處右鍵 -> 高階系統設定 -> 環境變數 -> 系統變數 ->

Python呼叫PYNIPIR(ICTCLAS)進行中文分詞

NLPIR漢語分詞系統,主要功能包括中文分詞；詞性標註；命名實體識別；使用者詞典功能；支援GBK編碼、UTF8編碼、BIG5編碼。新增微博分詞、新詞發現與關鍵詞提取；張華平博士先後傾力打造十餘年，核心升級10次。（http://ictclas.nlpir.org

使用R語言進行中文分詞

1.準備包 ①rJava包 ② Rwordseg包 ③java環境 ④搜狗詞庫（此為擴充套件詞庫） Rwordseg包依賴於rJava包。由於Rwordseg包並沒有託管在CRAN上面，而是在R-Forge上面，因此在在R軟體上面直接

最大熵模型進行中文分詞

本文運用字標註法進行中文分詞，最大熵模型方面使用開源的張樂博士的最大熵模型工具包(Maximum Entropy Modeling Toolkit for Python and C++)。使用的中文語料資源是SIGHAN提供的backoff 2005語料，

在C++中呼叫Jieba進行中文分詞

背景之前有個小專案用到了中文分詞，但當時使用的ICTCLAS需要每個月下載證書，很不方便。後來在網上找到了一個開源的python實現的中文分詞器Jieba，可以使用pip直接安裝本地。但之前的專案是c++實現的，所以需要考慮跨語言的呼叫問題。 Python

詳解庖丁解牛中文分詞器工具的使用

今天在網上看了一篇關於中文分詞的文章,有一類是關於基於字串匹配的中文分詞，裡面談到了一個“庖丁解牛分詞器”，於是本人就想嘗試跑跑這個分詞工具。下面是具體的使用步驟： 1. 從網上下載了一個庖丁解牛中文分詞工具壓縮包，放入D:\SoftwarePackage中。解壓D:\

利用庖丁解牛工具進行中文分詞

相關推薦