NLTK學習筆記(三):NLTK的一些工具

阿新 • • 發佈：2017-06-13

ast 關註 code 值範圍通過自動 ive 叠代器 emma

主要總結一下簡單的工具：條件頻率分布、正則表達式、詞幹提取器和歸並器。

條件分布頻率

《自然語言學習》很多地方都用到了條件分布頻率，nltk提供了兩種常用的接口：FreqDist 和 ConditionalFreqDist 。後面很多都會用到這兩種方法，特別是第二個。因為第二個更符合定義，會智能的找到條件。
然後根據繪圖的庫，可以做出來很漂亮的圖形。

簡單的`FreqDist`

函數接收list類型的參數後，會自動創建字典，生成對應的值為鍵值，而value就是元素的次數。

from nltk import *
tem = [‘hello‘,‘world‘,‘hello‘,‘dear‘]
print(FreqDist(tem))

out:
FreqDist({‘dear‘: 1, ‘hello‘: 2, ‘world‘: 1})

通過 plot(TopK,cumulative=True) 和 tabulate() 可以繪制對應的折線圖和表格（必須安裝matplotlib庫）

條件分布`ConditionalFreqDist`

以一個配對鏈表作為輸入，需要給分配的每個事件關聯一個條件，輸入時類似於 (條件,事件) 的元組。之後的工作交給nltk就可以了，更多的精力可以用來關註上層邏輯。

import nltk
from nltk.corpus import brown
cfd = nltk.ConditionalFreqDist((genre,word) for genre in brown.categories() for word in brown.words(categories=genre))
print("conditions are:",cfd.conditions()) #查看conditions
print(cfd[‘news‘])
print(cfd[‘news‘][‘could‘])#類似字典查詢

out:
conditions are: [‘adventure‘, ‘belles_lettres‘, ‘editorial‘, ‘fiction‘, ‘government‘, ‘hobbies‘, ‘humor‘, ‘learned‘, ‘lore‘, ‘mystery‘, ‘news‘, ‘religion‘, ‘reviews‘, ‘romance‘, ‘science_fiction‘]
<FreqDist with 14394 samples and 100554 outcomes>
86

尤其對於plot() 和 tabulate() 有了更多參數選擇：

conditions：指定條件

samples：叠代器類型，指定取值範圍
cumulative：設置為True可以查看累積值

cfd.tabulate(conditions=[‘news‘,‘romance‘],samples=[‘could‘,‘can‘])
cfd.tabulate(conditions=[‘news‘,‘romance‘],samples=[‘could‘,‘can‘],cumulative=True)

        could   can 
news    86    93 
romance   193    74 

        could   can 
news    86   179 
romance   193   267

正則表達式及其應用

記錄正則表達式在自然語言中的應用。

輸入法聯想提示（9宮格輸入法）

查找類似於hole和golf序列（4653）的單詞。

import re
from nltk.corpus import words
wordlist = [w for w in words.words(‘en-basic‘) if w.islower()]
same = [w for w in wordlist if re.search(r‘^[ghi][mno][jlk][def]$‘,w)]
print(same)

只用鍵盤的一部分搜索就是手指繞口令。例如：^[ghijklmno]+$等。像[^aeiouAEIOU]就是匹配除元音外的所有字母。

尋找字符塊

查找兩個或兩個以上的元音序列，並且確定相對頻率。

import nltk
wsj = sorted(set(nltk.corpus.treebank.words()))
fd = nltk.FreqDist(vs for word in wsj for vs in re.findall(r‘[aeiou]{2,}‘,word))
fd.items()

而且，我們也可以輔音元音序列。

查找詞幹

apples和apple對比中，apple就是詞幹。寫一個簡單腳本來查詢詞幹。

def stem(word):
    for suffix in [‘ing‘,‘ly‘,‘ed‘,‘ious‘,‘ies‘,‘ive‘,‘es‘,‘s‘,‘ment‘]:
        if word.endswith(suffix):
            return word[:-len(suffix)]
    return None

而使用正則表達式，只需要一行：

re.findall(r‘^(.*?)(ing|ly|ed|ious|ies|ive|es|s|ment)$‘,word)

詞幹提取器和歸並器

nltk提供了PorterStemmer 和 LancasterStemmer兩個詞幹提取器，Porter比較好，可以處理lying這樣的單詞。

porter = nltk.PorterStemmer()
print(porter.stem(‘lying‘))

如果需要處理women這樣的詞，需要詞性歸並器：WordNetLemmatizer

wnl = nltk.WordNetLemmatizer()
print(wnl.lemmatize(‘women‘))

利用詞幹提取器實現索引文本(concordance)

利用到nltk.Index這個函數，nltk.Index((word , i) for (i,word) in enumerate([‘a‘,‘b‘,‘a‘]))

class IndexText:
    def __init__(self,stemmer,text):
        self._text = text
        self._stemmer = stemmer
        self._index = nltk.Index((self._stem(word),i) for (i,word) in enumerate(text))
    def _stem(self,word):
        return self._stemmer.stem(word).lower()
    def concordance(self,word,width =40):
        key = self._stem(word)
        wc = width/4 #words of context
        for i in self._index[key]:
            lcontext = ‘ ‘.join(self._text[int(i-wc):int(i)])
            rcontext = ‘ ‘.join(self._text[int(i):int(i+wc)])
            ldisplay = ‘%*s‘ % (width,lcontext[-width:])
            rdisplay = ‘%-*s‘ % (width,rcontext[:width])
            print(ldisplay,rdisplay)
porter = nltk.PorterStemmer()
grail = nltk.corpus.webtext.words(‘grail.txt‘)
text = IndexText(porter,grail)
text.concordance(‘lie‘)

NLTK學習筆記(三):NLTK的一些工具

ast 關註 code 值範圍通過自動 ive 叠代器 emma 主要總結一下簡單的工具：條件頻率分布、正則表達式、詞幹提取器和歸並器。條件分布頻率《自然語言學習》很多地方都用到了條件分布頻率，nltk提供了兩種常用的接口：FreqDist 和 Condit

NLTK學習筆記(五):分類和標註詞匯

推廣默認註意 max() 上下 efault val 存儲 n-n [TOC] 詞性標註器之後的很多工作都需要標註完的詞匯。nltk自帶英文標註器pos_tag import nltk text = nltk.word_tokenize("And now for

NLTK學習（三）

學習記錄所用，如有侵權，立即刪除。一、有監督的分類 1、分類分類時為給定輸入選擇正確的類標籤的任務。比如判斷一封Email是否是垃圾郵件，確定一篇新聞的主題。如果分類的時候需要人工標註的標籤進行訓練，則稱為有監督的分類。分類器需要決定選擇什麼樣的特徵，並

NLTK學習筆記(七):文字資訊提取

目錄如何構建一個系統，用於從非結構化的文字中提取結構化的資訊和資料？哪些方法使用這類行為？哪些語料庫適合這項工作？是否可以訓練和評估模型？資訊提取，特別是結構化資訊提取，可以類比資料庫的記錄。對應的關係綁定了對應的資料資訊。針對自然語言這類非結構化的資料，為了獲取

NLTK學習筆記(一):語言處理和Python

1. 列表內容 nltk資料下載** import nltk nltk.download() 其中,download() 引數預設是all,可以在腳本里面加上nltk.download(需要的資料庫) 來進行下載 2. 文字和詞彙首先，通過from

NLTK學習筆記(二):文字、語料資源和WordNet彙總

目錄語料庫基本函式表示例描述 fileids() 語料庫中的檔案 fileids([categories]) 對應分類中的語料庫檔案 categories() 語料庫的分類 categories([fileids]) 檔

SQLite學習筆記三：SQLite視覺化管理工具彙總

蒐集了一些SQLite工具，在這裡做個總結，有的工具用的多一些，有的只是簡單試用，甚至未試用，所以有描述不當的還請回復指正，也歡迎補充完善！ 2015-03-11 更新情況： SQLiteSpy最新版本1.9.8，重大改變，支援db拖拽 SQLiteStudio

Linux學習筆記(三)：系統執行級與執行級的切換

查看用戶操作回車 water hat ntsysv tde 文件表 config 1.Linux系統與其它的操作系統不同，它設有執行級別。該執行級指定操作系統所處的狀態。Linux系統在不論什麽時候都執行於某個執行級上，且在不同的執行級上執行的程序和服務都不同，所要

【Unity 3D】學習筆記三十：遊戲元素——遊戲地形

nbsp 3d遊戲 strong 直觀分辨率 == 摩擦力 fill 世界遊戲地形在遊戲的世界中，必然會有非常多豐富多彩的遊戲元素融合當中。它們種類繁多。作用也不大同樣。一般對於遊戲元素可分為兩種：經經常使用。不經經常使用。經常使用的元素是遊戲中比較重要的元素。一

MYSQL學習筆記三：日期和時間函數

div content minute name top fonts table hmm 指定 MYSQL學習筆記三：日期和時間函數 1. 獲取當前日期的函數和獲取當前時間的函數 /*獲取當前日期的函數和獲取當前時間的函數。將日期以‘YYYY-MM-DD‘或者’YYYYM

Hadoop權威指南學習筆記三

支持第三方 handle line src factory 模式多個重要 HDFS簡單介紹聲明：本文是本人基於Hadoop權威指南學習的一些個人理解和筆記，僅供學習參考。有什麽不到之處還望指出，一起學習一起進步。轉載請註明：http://blog.cs

Tomcat學習筆記(三)

containe 請求 container connect 技術 http 簡單 img 容器 Tomcat連接器 tomcat連接器是tomcat的一個核心組件，在tomcat4中的實現原理如下 1.實現Connector接口 2.創建Reques

mybatis學習筆記(三）-- 優化數據庫連接配置

bsp pro 新建數據配置信息 onf ron XML oca 原來直接把數據庫連接配置信息寫在conf.xml配置中，如下 <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE configura

Odoo10學習筆記三：模型（結構化的應用數據）、視圖（用戶界面設計）

其他描述用戶界面列表支持字段界面設計允許學習一：模型 1：創建模型模型屬性：模型類可以使用一些屬性來控制它們的一些行為： _name ：創建odoo模型的內部標識符，必含項。 _description ：當用戶界面顯示模型時，一個方便用戶的模型記錄標題。

Java程序猿的JavaScript學習筆記（9—— jQuery工具方法）

article 順序還要並且 defined this ont property plain 計劃按例如以下順序完畢這篇筆記： Java程序猿的JavaScript學習筆記（1——理念） Java程序猿的JavaScript學習筆記（2——屬性

tensorflow學習筆記(三)：實現自編碼器

sea start ear var logs cos soft 編碼 red 黃文堅的tensorflow實戰一書中的第四章，講述了tensorflow實現多層感知機。Hiton早年提出過自編碼器的非監督學習算法，書中的代碼給出了一個隱藏層的神經網絡，本人擴展到了多層，改進

CSS學習筆記三：自定義單選框，復選框，開關

sla checked 移動 transform 第一個 16px 位移 block back 一點一點學習CCS，這次學習了如何自定義單選框，復選框以及開關。一、單選框 1、先寫好body裏面的樣式，先寫幾個框 1 <body> 2 <d

git 學習筆記三（windows環境）

clas 環境 check pre div nbsp windows name cnblogs 分支管理查看分支 git branch 創建dev分支 git branch <name> 切換到dev分支 git checkout <name&

遊戲開發學習筆記三

nor scrip 筆記 nsrunloop posit ppr 遊戲開發 tor http sdk%E6%9B%B4%E6%96%B0%E4%B8%8D%E6%88%90%E5%8A%9F%E6%B1%82%E5%A4%A7%E7%A5%9E%E5%B8%AE%E5%BF

學習筆記(三）

type 指向 des 函數句柄釋放內存服務類 pat play OpenSCManager：function OpenSCManager(lpMachineName, lpDatabaseName: PChar;dwDesiredAccess: DWORD): SC

NLTK學習筆記(三):NLTK的一些工具

條件分布頻率

簡單的FreqDist

條件分布ConditionalFreqDist

正則表達式及其應用

輸入法聯想提示（9宮格輸入法）

尋找字符塊

查找詞幹

詞幹提取器和歸並器

利用詞幹提取器實現索引文本(concordance)

相關推薦

簡單的`FreqDist`

條件分布`ConditionalFreqDist`