[Python工具]FoolNLTK 中文處理工具包使用教程

阿新 • • 發佈：2018-11-26

FoolNLTK

中文處理工具包

近日 GitHub 使用者 wu.zheng 開源了一個使用雙向 LSTM 構建的中文處理工具包，該工具不僅可以實現分詞、詞性標註和命名實體識別，同時還能使用使用者自定義字典加強分詞的效果。

特點

可能不是最快的開源中文分詞，但很可能是最準的開源中文分詞
基於BiLSTM模型訓練而成
包含分詞，詞性標註，實體識別,　都有比較高的準確率
使用者自定義詞典
可訓練自己的模型
批量處理

定製自己的模型

get clone https://github.com/rockyzhengwu/FoolNLTK.git
cd 
 FoolNLTK/train

詳細訓練步驟可參考文件

僅在linux Python3　環境測試通過

Install

pip install foolnltk

使用說明

分詞

import fool

text = "一個傻子在北京"
print(fool.cut(text))
# ['一個', '傻子', '在', '北京']

命令列分詞, 可指定-b引數，每次切割的行數能加快分詞速度

python -m fool [filename]

使用者自定義詞典

詞典格式格式如下，詞的權重越高，詞的長度越長就越越可能出現,　權重值請大於1

難受香菇 10
什麼鬼 10
分詞工具 10
北京 10
北京天安門 10

載入詞典

import fool
fool.load_userdict(path)
text = ["我在北京天安門看你難受香菇", "我在北京晒太陽你在非洲看雪"]
print(fool.cut(text))
#[['我', '在', '北京', '天安門', '看', '你', '難受', '香菇'],
# ['我', '在', '北京', '晒太陽', '你', '在', '非洲', '看', '雪']]

刪除詞典

fool.delete_userdict();

開源地址：
https://github.com/rockyzhengwu/FoolNLTK

[Python工具]FoolNLTK 中文處理工具包使用教程

FoolNLTK 中文處理工具包近日 GitHub 使用者 wu.zheng 開源了一個使用雙向 LSTM 構建的中文處理工具包，該工具不僅可以實現分詞、詞性標註和命名實體識別，同時還能使用使用者自定義字典加強分詞的效果。特點可能不是最快的開源中文分詞，但很可能

Python學習：時間處理工具--dateutil兩個簡單用法

想從Blog的RSS中讀取日誌內容，再根據日期來確定哪些內容是自己所需要的，這裡需要用到兩個東西，一個是不同格式日期的解析，一個就是日期的比較了。Google一翻後，找到了dateutil這個庫: 需要注意的是，如果自己的系統裡所用的是Python 3.0以下版本的話，

使用python指令碼執行地理處理工具

桌面ArcGIS包含800多種可在Python指令碼中執行的地理處理工具。通過Python指令碼來執行地理處理工具，可以處理複雜的工作和執行批處理任務。案例一：使用指令碼執行地理處理工具（以裁剪為例）檢視幫助文件模仿的程式碼： 1 #

深入理解_JVM內存管理JDK監控工具與故障處理工具07

最大 jhat hotspot interval 統計信息傳遞啟動令行相同 1、jps： JVM process Status Tool，顯示系統所有的HotSpot虛擬機進程以及進程的本地虛擬機的唯一ID（LVMID，Local Virtual Mac

【Python】Tcp Socket處理粘包與分包問題

測試環境 win10 python3.6 粘包和分包粘包：傳送方傳送兩個字串”hello”+”world”，接收方卻一次性接收到了”helloworld” 分包：傳送方傳送字串”hel

自然語言處理工具包MALLET教程-中文版安裝使用指南

Mallet：自然語言處理工具包 MALLET是基於java的自然語言處理工具箱，包括分檔得分類、句類、主題模型、資訊抽取等其他機器學習在文字方面的應用，雖然是文字的應用，但是完全可以拿到多媒體方面來，例如機器視覺。 MALLET包含了足夠的文字分類的演算法，還有特徵提

【NLP】乾貨！Python NLTK結合stanford NLP工具包進行文字處理

Python 3.5.2 (v3.5.2:4def2a2901a5, Jun 25 2016, 22:01:18) [MSC v.1900 32 bit (Intel)] on win32 Type "copyright", "credits" or "license()" for more infor

python資料處理工具 pandas包常用方法總結（持續更新）

======================== INTRODUCTION TO PANDAS ======================== 圓括號是函式，方括號是索引 #Series data can be numpy array,or a python dict

Python 2.7下下載並安裝nltk （自然語言處理工具包）

>>>import nltk >>>nltk.download() 下載器上的Collection選項卡顯示軟體包如何被打包分組。選擇book標記所在行，然後選擇下載路徑（注意不要安裝到二級或三級目錄下，最好安裝到D盤或C盤的根目錄下，否則會報錯，我這裡地址就是不

自然語言處理工具包HanLP的Python介面

pyhanlp: Python interfaces for HanLP HanLP的Python介面，支援自動下載與升級HanLP，相容py2、py3。安裝 pip install pyhanlp 使用命令hanlp來驗證安裝，如因網路等原因自動安裝HanL

python django -6 常用的第三方包或工具

正常接口多行 print 定義 turn 內容 height tar 常用的第三方包或工具富文本編輯器緩存全文檢索 celery 布署富文本編輯器借助富文本編輯器，管理員能夠編輯出來一個包含html的頁面，從而頁面的顯示效果，可以由管理員定義，而不用完全

Python數據處理工具使用方法整理

min 似的 csv文件 app dia cor 追加 print bsp # 從csv文件創建DataFrame類型的數據結構 >>>df=pd.read_csv("xxx.csv") # DataFrame類型的形狀和長度 >>&g

自然語言處理工具包 HanLP在 Spring Boot中的應用

本文共 782字，閱讀大約需要 2分鐘！概述 HanLP 是基於 Java開發的 NLP工具包，由一系列模型與演算法組成，目標是普及自然語言處理在生產環境中的應用。而且 HanLP具備功能完善、效能高效、架構清晰、語料時新、可自定義的特點，因此十分好上手，本文就結合 Spring Bo

8種Python文字處理工具集

文字處理一般包括詞性標註，句法分析，關鍵詞提取，文字分類，情感分析等等，這是針對中文的，如果是對於英文來說，只需要基本的tokenize。本文為大家提供了以下這些工具包。 1.Jieba 【結巴中文分詞】做最好的 Python 中文分片語件其功能包括支援三種分詞模式（精確模式、全模式、搜尋

Python 簡單的模擬wireshark抓包工具

混雜模式是指路過目標機器的資料包也包含在內 0埠指系統自動分配 #coding=utf-8 import socket import os #The host be listended host = "192.168.1.100" #it means

[Python工具]pdf表格提取camelot安裝教程

pdf表格提取camelot安裝教程經過測試，macos 與win10 均可以用一下方式安裝 Camelot: 一個友好的PDF表格資料抽取工具一個python命令列工具，使任何人都能很輕鬆的從PDF檔案中抽取表格資料。怎樣使用Camelot 使用Camelot從P

Spring Boot中對自然語言處理工具包hanlp的呼叫詳解

概述 HanLP 是基於 Java開發的 NLP工具包，由一系列模型與演算法組成，目標是普及自然語言處理在生產環境中的應用。而且 HanLP具備功能完善、效能高效、架構清晰、語料時新、可自定義的特點，因此十分好上手，本文就結合 Spring Boot來將 HanLP用起來！

Python中呼叫自然語言處理工具HanLP手記

HanLP方法封裝類： 1. # -*- coding:utf-8 -*- 2. # Filename: main.py 3. 4.from jpype import * 5. 5.startJVM(getDefaultJVMPath(), "-Djava.class.path=C:\h

python pip配置以及安裝工具包的一些方法

還需 www. get .html 基本網址管理工具 targe 安裝工具包 pip是python的一個工具包管理工具，可以下載安裝需要的工具包，想要使用它來管理工具包首先要安裝pip，安裝方法可以參照下面這個網址來進行： https://www.cnblogs.com

吳裕雄資料探勘與分析案例實戰（4）——python資料處理工具：Pandas

# 匯入模組import pandas as pdimport numpy as np # 構造序列gdp1 = pd.Series([2.8,3.01,8.99,8.59,5.18])print(gdp1)# 取出gdp1中的第一、第四和第五個元素print('行號風格的序列：\n',gdp1[[0,3,

[Python工具]FoolNLTK 中文處理工具包使用教程

FoolNLTK

特點

定製自己的模型

Install

使用說明

分詞

使用者自定義詞典

相關推薦