一對好兄弟：NLTK與jieba淺析

阿新 • • 發佈：2018-12-17

小圈長話短說，讓我們開始吧！

首先來看，jieba和NLTK都是python中的庫，只不過有不同的用途而已。可能大家都聽說過：中文分詞用jieba ，英文分詞用NLTK。那麼，我們就從這裡展開。

NLTK

主要用於英文的文字處理：

1）可用來分詞

tokens= nltk.word_tokenize("hello,world")
print(tokens);

輸出結果如下：

[‘hellow’, ‘,’ , ‘world’]

2）可進行歸一化 通過Stemming 實現詞幹提取：即去掉單詞的小尾巴比如：去ed,s,es,ing 通過Lemmatization實現詞形歸一：各類詞變形為一個形式比如：went>>go; are>>be; is>>be 3）可以進行停用詞過濾

通過filter進行停用詞過濾

典型案例：

情感分析，文字分類，文字相似度處理等

英文文字一般的處理流程：

jieba

一般我們都會用作中文分詞，在這裡我們要理解一下全分詞（cut_all=True）和精準分詞（cut_all=False）的使用。

開啟全模式分詞(列出所有分詞情況)：

j_list=jieba.cut("我來到河北師範大學了"，cut_all=True)
print(j_list);

輸出結果如下：

[‘我’, '來到‘ , ‘河北師範大學’，’河北‘，’師範‘，’大學‘，’了‘]

開啟精準模式分詞（精而不羅嗦）：

j_list=jieba.cut("我來到河北師範大學了"，cut_all=False)
print(j_list);

輸出結果如下：

[‘我’, '來到‘ , ‘河北師範大學’，’了‘]

歡迎大家補充和批評！！

一對好兄弟：NLTK與jieba淺析

小圈長話短說，讓我們開始吧！首先來看，jieba和NLTK都是python中的庫，只不過有不同的用途而已。可能大家都聽說過：中文分詞用jieba ，英文分詞用NLTK。那麼，我們就從這裡展開。 NLTK 主要用於英文的文字處理： 1）可用來分詞 tokens

分詞：淺談中文分詞與jieba原始碼

一、前言1、什麼是中文分詞？中文文字，從形式上看是由漢字、標點符號等組成的一個字串。由字組成詞，再組成句子、文章等。那麼分詞，就是按照一定的規則把字串重新組合成詞序列的過程。2、為什麼要分詞？（1）在中文裡面，詞是最小的能夠獨立活動的有意義的語言成分（2）英文中單詞以空格作為

SpringBoot魔法堂：應用熱部署實踐與原理淺析

# 前言後端開發的同學想必每天都在重複經歷著修改程式碼、執行程式碼編譯，等待……重啟Tomcat服務，等待……最後測試發現還是有bug，然後上述流程再來一遍（我聽不見）:( 能不能像前端開發的同學那樣，修改程式碼儲存檔案後自動編譯、重新載入應用呢？Spring Boot給了我們一個大大的Yes！本文

菜鳥運維筆記：安裝與配置Apacheserver

str .cn apach tps 官網壓縮 ron entos 本地前幾天在在阿裏花了49.5買了一個月的主機。試著好用再續費吧。地域：青島可用區：青島可用區ACPU：1核內存：512MB帶寬：1Mbps操作系統：CentOS 6.5 64位雲盾：是

《大數據日知錄：架構與算法》讀書筆記（多圖）

打通導論 ges wid 技術分享二次思維知識點很好第二次讀這本書，這次是精讀，畫了思維導圖。書很好，完整的知識結構和由淺入深的介紹，非常全面以至於知識點都梳理了三天。作為導論式的總覽，對大數據領域有了個總體的認識，接下來可以更針對性地加強和實踐。總體上

51nod 1307：繩子與重物

http fin cst iostream name 復雜度總量 union namespace 51nod 1307：繩子與重物題目鏈接：http://www.51nod.com/onlineJudge/questionCode.html#!problemId=13

【extjs6學習筆記】0.4 準備：書籍與文檔

學習筆記翻譯 example nbsp detail started ext js 6 art ear Ext JS 6 By Example Ext JS Essentials Learning Ext JS - Fourth Edition Ext JS 6:

單點登錄SSO：概述與示例

splay 擴展性 manage nag 終端連接痛點 dcs size h1,h2 { padding-left: 2rem; color: rgb(71, 91, 204) } h1.title { font-size: 22px !important } h2.t

Quartz之Job與JobDetail淺析

本地 etx tex per iteye 任務 jobs down ext.get Quartz可以用來做什麽？ Quartz是一個任務調度框架。比如你遇到這樣的問題想每月25號，信用卡自動還款想每年4月1日自己給當年暗戀女神發一封匿名賀卡想每隔1小時，備份一下自己

「七天自制PHP框架」第二天：模型與數據庫

數據庫 truct sprintf 和數 int connect 類的定義框架調用往期回顧：「七天自制PHP框架」第一天：路由與控制器，點擊此處什麽是模型？我們的WEB系統一定會和各種數據打交道，實際開發過程中，往往一個類對應了關系數據庫的一張或多張數據表，這

史上最全: svn與git的對照(二)：svn與git的相關概念

fill 來看 out avi head clas 相關 iss b2c 如圖1是svnserver端數據的文件夾結構以下是gitserver端的文件夾結構縱觀svn和git服務端的文件夾結構我們非常easy發現 1.有些目錄還是蠻像的。甚

MongoDB初探系列之四：MongoDB與Java共舞

ever 文件 basic query find man mongodb next() 入學因為版本號不同，可能API也有所不同。本次學習用的是3.0版本號。 1、使用的mongodb的jdbc驅動版本號為：mongo-java-driver-3.0.0.jar

轉：MySQL與Oracle的區別

最大單引號創建表空間數據長度訪問量 class 定義 1. Oracle是大型數據庫而Mysql是中小型數據庫，Oracle市場占有率達40%，Mysql只有20%左右，同時Mysql是開源的而Oracle價格非常高。 2. Oracle支持大並發，大訪問量，

H5新特性：video與audio的使用

一個 ace mil lin pro 地址 mp4 epg 屬性方法 HTML5 DOM 為 <audio> 和 <video> 元素提供了方法、屬性和事件。這些方法、屬性和事件允許您使用 JavaScript 來操作 &l

雜記整理二：linux與程序安裝

。。 for virtual cse nbsp rep 無法 device ebo ---恢復內容開始---debian下 Mysql手動刪除不幹凈，有殘留，無法更新安裝先sudo apt-get purge mysql-server-5.5 卸載再用 rm -rf /

拾遺：Git 與 Svn hook 不執行問題

環境變量環境 git epo mit 重新 ron 不執行 str 要點： GIT 或 SVN 的 hook 執行之前，會將所有環境變量清空，因此在其中執行命令時，必須指定絕對路徑或重新設置必要的環境變量，如：$HOME 等修改為正確的名稱，如：post-commit

mysql如何選擇合適的數據類型1：CHAR與VARCHAR

-a 類型 pan table enter 字節保存如何 spa 　　CHAR和VARCHAR類型類似，都用來存儲字符串，但它們“保存”和“檢索”的方式不同。CHAR屬於“固定長度”的字符串，而VARCHAR屬於“可變長度”的字符類型。　　下表顯示了將各種字符串值保存

Java踩坑筆記：ObjectIOStream與IOStream的各種裝飾器（先挖個坑，以後再來詳細填）

ted objects lose val read thread 環境 valid 序列化對象 Java的序列化和ObjectStream真是一個大坑。。先不說多線程環境下的問題，在單線程裏，一個Socket只能保持一個ObjectOutputStream，原因好像是

初識vue 2.0（2）：路由與組件

組件化 script -128 watch css image 暫時效果默認 1，在上一篇的創建工程中，使用的的模版 webpack-simple 只是創建了一個簡單的demo，並沒有組件和路由功能，此次采用了webpack模版，自動生成組件和路由。^_^ 在模版初始

排高低：冒泡與插入排序。不要管別人，自己設計的才是自己的。

算法算法問題的一個分類：排高低。背景：有一系列的值，有大有小，由於某個目的（比如兩兩分組讓最小者的和最大、比如容納最多和不超過某個值的元素、等等），需要先把它們排一下高低。一個數值數組，怎麽給裏面的元素排出高低（比如由小到大地排序）？兩兩比較不是問題，要解決的是這兩個問題：* 誰跟誰比，怎麽安排？* 比後怎麽

一對好兄弟：NLTK與jieba淺析

NLTK

主要用於英文的文字處理：

典型案例：

英文文字一般的處理流程：

jieba

相關推薦