獲得文字語料和詞彙資源(一)

阿新 • • 發佈：2019-02-11

#python3
import nltk
nltk.corpus.gutenberg.fileids()#古騰堡專案
emma=nltk.corpus.gutenberg.words('austen-emma.txt')#《艾瑪》

另一種匯入方式：
from nltk.corpus import gutenberg
gutenberg.fileids()
emma=gutenberg.words('austen-emma.txt')

語料庫訪問方法之間區別：
raw('a.txt')能求出文字中語料庫的原始內容
sent()函式把文字劃分為句子，每一個句子是一個詞連結串列

raw=gutenberg.raw("burgess-busterbrown.txt" 
)
raw[1:20]
#'The Adventures of B'

words=gutenberg.words("burgess-busterbrown.txt")
words[1:20]
# ['The','Adventures', 'of','Buster','Bear','by','Thornton','W','.','Burgess','1920',']','I','BUSTER','BEAR','GOES','FISHING','Buster','Bear']

sents=gutenberg.sents("burgess-busterbrown.txt")
sents[1:20]
# [['I'], ['BUSTER', 'BEAR', 'GOES', 'FISHING'], 

['Buster'...]]

#載入自己的語料庫（這樣的感覺很不錯）
from nltk.corpus import PlaintextCorpusReader 
address=r"F:\good"#需要載入的檔案的具體目錄
wordlist=PlaintextCorpusReader(address,'.*')#這裡用到了正則表示式進行匹配
wordlist.fileids()
#['a.txt']
wordlist.words('a.txt')
#['sfajl', ',', 'sfsdlkfw', ',', 'wef', ',', 'wefwko', ...]
wordlist.raw('a.txt' 
)
#'sfajl,sfsdlkfw ,wef,wefwko,wefkl,'  原始內容

bigrams()函式接受一個詞彙連結串列，並建立起一個連續的詞對連結串列

cfdist=ConditionalFreqDist(pairs)#從配對連結串列中建立條件頻率分佈，就是說pairs應為經過bigrams()函式處理過的
cfdist[condition]#此條件下的頻率分佈
cfdist[condition][sample]#此條件下給定樣本的頻率分佈
cfdist.tabulate()#為條件概率繪製分佈製表
cfdist[word].max上下文中最有可能的識別符號

#過濾文字函式：計算文字的詞彙表，刪除所有與現有的詞彙表中出現的元素，只留下罕見或者拼寫錯誤的詞彙。
def unusual_words(text):
    text_vocab=set(w.lower() for w in text if w.isalpha())
    english_vocab=set(w.lower() for w in nltk.corpus.words.words())
    unusual=text_vocab.difference(english_vocab)
    return sorted(unusual)

停用詞語料庫，進一步進行處理之前需要將它們從文件中過濾
from nltk.corpus import stopwords
stopwords.words('english')
包括高頻詞彙：the,to,and等，使得區分文字變得簡單。

FreqDist()比較法可以檢測候選詞中每個單詞的頻率

獲得文字語料和詞彙資源(一)

#python3 import nltk nltk.corpus.gutenberg.fileids()#古騰堡專案 emma=nltk.corpus.gutenberg.words('austen-e

【NLP】Python NLTK獲取文字語料和詞彙資源

作者：白寧超 2016年11月7日13:15:24 摘要：NLTK是由賓夕法尼亞大學計算機和資訊科學使用python語言實現的一種自然語言工具包，其收集的大量公開資料集、模型上提供了全面、易用的介面，涵蓋了分詞、詞性標註(Part-Of-Speech tag, POS-tag)、命名實體識別(Name

奮戰聊天機器人（二）語料和詞彙資源

當代自然語言處理都是基於統計的，統計自然需要很多樣本，因此語料和詞彙資源是必不可少的 1. NLTK語料庫 NLTK包含多種語料庫，比如：Gutenberg語料庫 nltk.corpus.gutenberg.fileids() nltk.cor

1 自然語言處理中文語料與詞彙資源從哪裡獲取

按照網上大神的自己動手做聊天機器人教材來一步步學習，在邊學的時候，一邊總結，一邊思考提問，對後續自己做機器學習人應該會有幫助。自己動手做聊天機器人三-語料與詞彙資源這裡面介紹的英文的語料庫，我們中

獲得文本語料和詞匯資源

mil 數值簡單的 style 序列沒有數據劃分方法語料庫的訪問方法： raw( ) 沒有經過任何語言學處理之前把文件內容分析出來 words( ) 把文本處理成一個個單詞 sents( ) 把文本劃分成語句，其中每一個句子

如何生成自定義的逆向檔案頻率（IDF）文字語料庫（一）

在基於TF-IDF進行特徵提取時，因為文字背景是某一具體行業，不適合使用通用的IDF語料庫，我覺得應該使用自定義的基於該行業背景的IDF語料庫。請問如何生成自定義IDF語料庫呢？我現在有的資料是幾十萬個該行業的文件，初步想法是：對每個文件分詞去重，把所有文件分詞結果彙集去重後

資源一：計算機視覺，機器學習方面的論文和演算法程式碼

注：下面有project網站的大部分都有paper和相應的code。Code一般是C/C++或者Matlab程式碼。最近一次更新：2013-1-29 一、特徵提取Feature Extraction： PCA-SIFT [2] [Project] Affine-SIFT [3] [Proje

在js(jquery)中獲得文字框焦點和失去焦點的方法

$(function() { $('#searchKey').focus(function() { $('#lbSearch').text(''); }); $('#searchKey').blur(function() { var str = $(this).val(); str = $.t

構建語言模型（一）：文字語料處理

關於語言模型的訓練，網上搜索到的基本是理論為主，尤其訓練文字的獲取和處理，往往一筆帶過。通過專案中的實踐經驗，整理成文，可能存在疏漏乃至錯誤。 1. 語言模型概述與流程 1.1 LM概述　　　　語言模型(Language Model, LM)

地址映象和變換（一）之主存虛存

規則根據 pan 命中率實現 -s tro 分享使用地址映象：是將每一個虛存單元按某種規則裝入實存，即建立多用戶虛地址與實存地址之間的相應關系。地址變換：是程序依照這樣的映象關系裝入實存後。在運行時，多用戶虛地址怎樣變換成相應的實存地址。頁面爭用（實頁沖突

基於rhel7.2的Zabbix平臺搭建和部署（一）

linux 監控軟件 zabbix nginx mysql php lnmp基於rhel7.2的zabbix平臺搭建和部署（一）一、實驗環境：（1）虛擬機：rhel7.2 x86_64（2）數據庫：mysql5.7.13（3）nginx1.10.2（4）PHP5.6.27（5）zabbix二、安裝編譯工具及

修飾符和關鍵字和繼承（一）

ati 構造 pub 常用另一個修飾 tro pri 修飾符一、靜態修飾符----static 　　static可以修飾內部類、塊、屬性、方法，經static修飾過的元素儲存地址唯一，不會改變 1 public class Test{ 2 static

2015年終總結，忙碌和無所事事的一年

adding style article 技術書籍 radi 失望 con 繼續轉載請註明出處：http://blog.csdn.net/guolin_blog/article/details/49805231猶豫了非常久。今年的年終總結究竟要不要寫。我是非常想把

怎樣獲得安卓app的資源包

mage spa font 程序 logs 得到獲得入門 tro 　　對於安卓剛入門的人來說經常模仿項目是最快的進步方法，實戰才能提升水平。模仿別人軟件的時候我們需要有那個軟件的圖片，這樣才可以寫出和這個軟件一樣的界面效果，接下來我要記錄下我剛剛嘗試的怎麽獲取安卓軟件資

hibernate之初學一對多和多對一配置及使用

外鍵 ble dtd nat util gin doc 一對多 dialect 按查詢及存取速率來說的一對多用的相對多對一少一些，這裏只寫主要配置文件的代碼首先是hibernate的配置文件 <!DOCTYPE hibernate-configuration PU

使用SLF4J和LOGBACK （一：基本使用）

asi 個人 fig 接口實現 pac 再次 intro 級別多說 1.SLF4J是什麽？ slf4j是一個日誌門面，它不是具體的日誌實現框架，而是提供了通用的日誌接口，按個人理解來說，是通過接口實現多態，來滿足應用在不同日誌框架間切換的需求。例如在程序中我們需要記錄

2014年8月25日，收藏家和殺手——面向對象的C++和C（一）

creat os x tracking -m end gin 知識數據我們近期事情特別多，睡眠也都非常晚，有點精神和身體混亂的感覺，所以想寫寫技術分析文章。讓兩者的我都調整一下。這篇技術分析文章是一直想寫的，當前僅僅是開篇，有感覺的時候就寫寫，屬於拼湊而成，興

js jq 實現鼠標經過div背景以進度條方式變寬，鼠標離開變小，同時文字顏色和原來不一樣

最大 java hidden pan absolute 顏色 tin http center 1 <!DOCTYPE html> 2 <html> 3 <head> 4 5 <title></tit

python 使用socket 獲得主機名和IP

python 使用socket 獲得主機名和ipWindows 10 平臺代碼：socket hostname socket.gethostname() ( hostname) sysinfo socket.gethostbyname_ex(hostname) ip_addr sysinfo[] ip_add

修改狀態欄的文字顏色和背景色

res view red plist log cnblogs barh resp shared 一.修改狀態欄文字顏色這裏修改文字顏色分兩種情況 (1)導航欄是隱藏狀態如果導航欄為隱藏狀態可以直接在控制器中重寫如下方法 // 重寫方法狀態欄白色 - (UISta

獲得文字語料和詞彙資源(一)

相關推薦