NLTK相關知識介紹

阿新 • • 發佈：2018-12-12

什麼是NLTK

NLTK，全稱Natural Language Toolkit，自然語言處理工具包，是NLP研究領域常用的一個Python庫，由賓夕法尼亞大學的Steven Bird和Edward Loper在Python的基礎上開發的一個模組，至今已有超過十萬行的程式碼。這是一個開源專案，包含資料集、Python模組、教程等；

怎樣安裝

詳情可以參見我的另一篇部落格NLP的開發環境搭建，通過這篇部落格，你將學會Python環境的安裝以及NLTK模組的下載；

常見模組及用途

NLTK能幹啥？

搜尋文字
- 單詞搜尋：
- 相似詞搜尋；
- 相似關鍵詞識別；
- 詞彙分佈圖；
- 生成文字；
計數詞彙

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2018-9-28 22:21
# @Author  : Manu
# @Site    : 
# @File    : python_base.py
# @Software: PyCharm

from __future__ import division
import nltk
import matplotlib
from nltk.book import *
from nltk.util import bigrams

# 單詞搜尋
print('單詞搜尋' 
)
text1.concordance('boy')
text2.concordance('friends')

# 相似詞搜尋
print('相似詞搜尋')
text3.similar('time')

#共同上下文搜尋
print('共同上下文搜尋')
text2.common_contexts(['monstrous','very'])

# 詞彙分佈表
print('詞彙分佈表')
text4.dispersion_plot(['citizens', 'American', 'freedom', 'duties'])

# 詞彙計數
print('詞彙計數')
print(len(text5) 
)
sorted(set(text5))
print(len(set(text5)))

# 重複詞密度
print('重複詞密度')
print(len(text8) / len(set(text8)))

# 關鍵詞密度
print('關鍵詞密度')
print(text9.count('girl'))
print(text9.count('girl') * 100 / len(text9))

# 頻率分佈
fdist = FreqDist(text1)

vocabulary = fdist.keys()
for i in vocabulary:
    print(i)

# 高頻前20
fdist.plot(20, cumulative = True)

# 低頻詞
print('低頻詞：')
print(fdist.hapaxes())

# 詞語搭配
print('詞語搭配')
words = list(bigrams(['louder', 'words', 'speak']))
print(words)

NLTK設計目標

簡易性；
一致性；
可擴充套件性；
模組化；

NLTK相關知識介紹

什麼是NLTK NLTK，全稱Natural Language Toolkit，自然語言處理工具包，是NLP研究領域常用的一個Python庫，由賓夕法尼亞大學的Steven Bird和Edward

大數據的一些相關知識介紹

data 文件存儲大數一個 yarn rdd .html 非結構化數據代碼什麽是大數據大數據（big data），指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合，是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長

訊普電子對於SIM卡座基礎效能的相關知識介紹

每一款產品生產出來，用途都是大不相同的。產品的效能決定了運用於不同領域。熟悉產品基礎的效能知識，可以方便根據自己的需要對商品進行選擇，挑選到合適的產品。在生活中，比如手機，膝上型電腦，移動衛星終端等很多地方，都有SIM卡座的身影存在。那麼它有哪些效能呢? SIM卡座是專門為SIM 卡量身定

運維入門的相關知識介紹

1 裝置網線的線序接法，百兆和千兆網線，光纖線，思科路由，華為路由，交換機什麼的，包括一些VLAN組建，交換機和路由器之間的學習，一般我建議學習到CCNP就夠了，計算機硬體瞭解，一般你自己DIY過電腦，一般都清楚明白。瞭解伺服器和普通PC的區別，伺

Ajax的JSP示例以及相關知識介紹，適合於入門者

這是學習AJAX的第一篇文章，我把自己學習一些心得寫出來，因為是從初學者的腳度出發，可能會寫得比較詳細，因為我就是一個初學者，也知道作為一個初學者，隨隨便便的拿一個例子就看看，是隻知道要這樣，但為什麼要這樣卻不清楚，我這裡就盡我自己的語言，讓初學者和

數字影象處理筆記——影象處理綜述與相關知識介紹

影象獲取方式伽馬光伽馬光成像原理是給人體注入同位素，然後用檢測器來檢測同位素的放射量來成像 X光 X光成像原理是利用人體不同部位密度不同，X光透過性不同，使得成像的灰度值不同 CT CT成像是一組X光不停旋轉以後得到不同角度的成像，從而可以實現

Mina SSL Filter安全加密過濾器相關知識介紹

SslFilter過濾器是負責管理資料的加密和解密通過安全連線。每當你需要建立一個安全連線,或將現有的連線使它安全,你必須新增SslFilter過濾器鏈。任何會話可以修改它的資訊過濾器鏈,它允許使用協議像startTLS開啟連線。請注意,雖然這個名字包括SSL,Ssl

屏相關知識介紹和屏幕適配

應用屬性 2.0 屏幕適配 org inf ets 半透明 com 屏比例介紹手機廠商追求高用戶體驗，屏幕寬高比越做越高。經常聽見什麽16：9，18：9之類的，這個怎麽來的呢？ 1920*1080 傳統手機 ratio_float = 16/9 = 1.778

滾塗機——相關知識介紹

國家效率 vpd html type jpg 生產比較 ext 滾塗機在我們國家的塗裝行業是一種重要的設備的，在使用的時候，有很多的好處，所以備受大家的歡迎的，但是很多人對於滾塗機的相關知識還不是很了解的，在這裏就開始關於滾塗機的相關知識介紹。首先，為大家介紹的是滾塗機

elasticsearch搜尋引擎知識介紹和相關框架

簡介：介紹搜尋的基本概念，市面上主流的搜尋框架elasticSearch和solr等對比什麼是搜尋：在海量資訊中獲取我們想要的資訊

http協議的相關知識

per art title uri 方法能夠 head 版本號網絡資源因為如今的工作設計的Web開發，因此了解了一下Http協議。在閱讀了這篇文章HTTP協議具體解釋（真的非常經典）後，總結了相關經常使用知識並列在此處以方便以後的查詢。 HTTP協議的主要

H3 BPM循環子表相關方法介紹

前臺 bpm 在表單中，控件類型為子表的數據項，其對於的前臺代碼其實就是Table下面簡單介紹遍歷子表的方法循環子表取、賦值方法：//此方法的功能是將子表TravelExpensesList復制到子表FinancialAudit中//步驟解析：//1、取到子表FinancialAudit的總行數//2

JavaScript 相關知識

start gif coo 獲取時間對象繼續 decimal auto input 一、數組 var a = [1,2,3,4]; console.log(a.length); // 4 a.push(5); cons

利用結構類型的相關知識計算兩點之間的距離

oat scanf distance 原型 turn 之間函數 sqrt 聲明 #include<stdio.h>#include<stdlib.h>#include<math.h> struct point{ /*點的結構類型名*/

過濾器的相關知識

客戶端頁面全局根據完全什麽是順序自動登錄響應【Cookie技術】 * 利用Cookie記住用戶的用戶名和密碼. 【Filter:過濾器的概述】什麽是過濾器Filter: 　　　　可以過濾從客戶端向服務器發送的請求. 過濾器的使用: 　　　　*

跨域問題相關知識詳解（原生js和jquery兩種方法實現jsonp跨域）

syn con 加載 developer 兩種方法 ray exe 編寫分組 1、同源策略同源策略（Same origin policy），它是由Netscape提出的一個著名的安全策略。同源策略是一種約定，它是瀏覽器最核心也最基本的安全功能，如果缺少了同源策略，則瀏覽

Oracle 相關知識

用戶 acl blank navi 下載地址 create target -1 user 一.Navicat 連接Oracle 報錯：解決辦法： 1.先下載oracle客戶端，win64_11gR2_client.zip，下載地址：http://www.oracl

HTML相關知識

正常隱藏元素加粗密碼 bmi 十六進制 for 1.5 hid 1 Day01HTML HTML5聲明：<!doctype html> <html> 1.1 HTML基本結構： <head> <title>題目&l

accp8.0轉換教材第9章JQuery相關知識理解與練習

ntb 驗證單詞手機號碼 sdn load .com read 要求自定義動畫一.單詞部分： ①animate動畫②remove移除③validity有效性 ④required匹配⑤pattern模式二.預習部分 1.簡述JavaScript事件和jquery事件

sqlite 數據庫相關知識

嵌入式 nts column 分隔 val any 需求 mark 結合一基本簡單介紹 SQLite 是一個自持的（self-contained）、無server的、零配置的、事務型的關系型數據庫引擎。由於他非常小，所以也能夠作為嵌入式數據庫內建在你的應

NLTK相關知識介紹

什麼是NLTK

怎樣安裝

常見模組及用途

NLTK設計目標

相關推薦