奮戰聊天機器人（二）語料和詞彙資源

阿新 • • 發佈：2019-02-13

當代自然語言處理都是基於統計的，統計自然需要很多樣本，因此語料和詞彙資源是必不可少的

1. NLTK語料庫

NLTK包含多種語料庫，比如：Gutenberg語料庫

nltk.corpus.gutenberg.fileids()

nltk.corpus.gutenberg：語料庫的閱讀器
nltk.corpus.gutenberg.raw(‘chesterton-brown.txt’)：輸出chesterton-brown.txt文章的原始內容
nltk.corpus.gutenberg.words(‘chesterton-brown.txt’)：輸出chesterton-brown.txt文章的單詞列表

nltk.corpus.gutenberg.sents(‘chesterton-brown.txt’)：輸出chesterton-brown.txt文章的句子列表

類似的語料庫還有：

from nltk.corpus import webtext：網路文字語料庫，網路和聊天文字
from nltk.corpus import brown：布朗語料庫，按照文字分類好的500個不同來源的文
from nltk.corpus import reuters：路透社語料庫，1萬多個新聞文件
from nltk.corpus import inaugural：就職演說語料庫，55個總統的演說

1.1 語料庫的一般結構

語料庫的幾種組織結構：
- 散養式（孤立的多篇文章）
- 分類式（按照類別組織、相互之間沒有交集）
- 交叉式（一篇文章可能屬於多個類）
- 漸變式（語法隨時間發生變化）

1.2 語料庫的通用介面

fileids()：返回語料庫中的檔案
categories()：返回語料庫中的分類
raw()：返回語料庫的原始內容
words()：返回語料庫中的詞彙
sents()：返回語料庫句子
abspath()：指定檔案在磁碟上的位置
open()：開啟語料庫的檔案流

1.3 載入自己的語料庫

收集自己的語料庫（文字檔案）到某路徑下（比如/tmp），然後執行：

from 
 nltk.corpus import PlaintextCorpusReader
corpus_root = '/tmp'
wordlists = PlaintextCorpusReader(corpus_root, '.*')
wordlists.fileids()

就可以列出自己語料庫的各個檔案了，也可以使用如wordlists.sents(‘a.txt’)和wordlists.words(‘a.txt’)等方法來獲取句子和詞資訊

1.4 條件頻率分佈

自然語言的條件頻率分佈就是指定條件下某個事件的頻率分佈

比如要輸出在布朗語料庫中每個類別條件下每個詞的頻率

# encoding:utf-8

import nltk
from nltk.corpus import brown

# 連結串列推導式，genre是brown語料庫裡的所有類別列表，word是這個類別中的詞彙列表
# (genre, word)就是類別加詞彙對
genre_word = [(genre, word)
              for genre in brown.categories()
              for word in brown.words(categories=genre)]

# 建立條件頻率分佈
cfd = nltk.ConditionalFreqDist(genre_word)
# 指定條件和樣本作圖
cfd.plot(conditions=['news', 'adventure'], samples=[u'stock', u'sunbonnet'])
# 自定條件和樣本作表格
cfd.tabulate(conditions=['news', 'adventure'], samples=[u'stock', u'sunbonnet'])

我們還可以利用條件頻率分佈，按照最大條件概率生成雙連詞，最終生成一個隨機文字

這可以直接使用bigrams()函式，它的功能是生成詞對連結串列。

# encoding:utf-8

import nltk


# 迴圈10次，從cddist中取當前單詞最大概率的連詞，並打印出來
def generate_model(cfdist, word, num=10):
    for i in range(num):
        print(word)
        word = cfdist[word].max()

# 載入語料庫
text = nltk.corpus.genesis.words('english-kjv.txt')
# 生成雙連詞
bigrams = nltk.bigrams(text)
# 生成條件頻率分佈
cfd = nltk.ConditionalFreqDist(bigrams)

# 以 the 開頭，生成隨機串
generate_model(cfd, 'the')

其他詞典資源

有一些僅是詞或短語以及一些相關資訊的集合，叫做詞典資源。

詞彙列表語料庫：nltk.corpus.words.words()，所有英文單詞，這個可以用來識別語法錯誤
停用詞語料庫：nltk.corpus.stopwords.words，用來識別那些最頻繁出現的沒有意義的詞
發音詞典：nltk.corpus.cmudict.dict()，用來輸出每個英文單詞的發音
比較詞表：nltk.corpus.swadesh，多種語言核心200多個詞的對照，可以作為語言翻譯的基礎
同義詞集：WordNet，面向語義的英語詞典，由同義詞集組成，並組織成一個網路

奮戰聊天機器人（二）語料和詞彙資源

當代自然語言處理都是基於統計的，統計自然需要很多樣本，因此語料和詞彙資源是必不可少的 1. NLTK語料庫 NLTK包含多種語料庫，比如：Gutenberg語料庫 nltk.corpus.gutenberg.fileids() nltk.cor

#java 聊天室（二）—— 給聊天室增加選單和私聊功能

#java 聊天室（二）—— 給聊天室增加選單和私聊功能在上一篇部落格裡，我們實現了用java寫了一個telnet聊天伺服器，實現了群聊功能。今天我們就來給這個聊天室新增選單，並且實現私聊功能。 1.實現目標在使用者登入後顯示選單：當用

聊天機器人（chatbot）終極指南：自然語言處理（NLP）和深度機器學習（Deep Machine Learning）

為了這份愛在過去的幾個月中，我一直在收集自然語言處理（NLP）以及如何將NLP和深度學習（Deep Learning）應用到聊天機器人（Chatbots）方面的最好的資料。時不時地我會發現一個出色的資源，因此我很快就開始把這些資源編製成列表。不久，我就

mybatis強化（二）Parameters和Result

pan har java onf 關系 throws efault type throw 本文通過一個簡單例子簡單記錄下參數的映射。轉載註明出處：http://www.cnblogs.com/wdfwolf3/p/6804243.html，謝謝。文件目錄如下， 1.配置文

SSM項目搭建（二）mybatis和spring的集成

刪除 internal code odi 自動獲取 over 初級 character upload 上一篇文章大概搭建了一下ssm的框架，其實還是不完整，我們往項目中添加了spring和mybatis的配置文件，還差一個spring mvc的配置文件，在resource中

node.js後臺快速搭建在阿裏雲（二）(pm2和nginx篇)

logs down key version c-c 6.2 文檔實例 gin 前期準備阿裏雲服務器 node.js pm2 express nginx linux(推薦教程：鳥哥的私房菜) 簡介嗯……我只是

【計算機網絡】詳解網絡層（二）ARP和RARP

博文拆分 detail 動態再次 tcp 將在 ont 關於 ARP ARP（Address Resolution Protocol，地址解析協議）是將IP地址解析為以太網MAC地址（物理地址）的協議。在局域網中，當主機或其他網絡設備有數據要發送給另一個主機或設備時，它

C# Stream篇（二） -- TextReader 和StreamReader

ros 開頭設置 block 哪些 {0} 實例 adt 一點 TextReader 和StreamReader 目錄：為什麽要介紹 TextReader？ TextReader的常用屬性和方法 TextReader 示例從StreamReader想到多態簡單介紹下

Socket封裝之聊天程序（二）

tle begin erase ctc 基類 sock eat printf reply 今天，學習一下socket的封裝。類圖 ??首先，我們把需要封裝的各個類初步的設計如下： ??接下來，我們建立類與類之間的關系：??其中，CStream類可有可無，這個類是用來封裝各

線性代數基礎知識（二）——運算和性質【轉載】

這樣的寫作 9.png 改變通過內容你會列空間根據 3 運算和性質在這一節中，我們將介紹幾種矩陣/向量的運算和性質。很希望這些內容可以幫助你回顧以前知識，這些筆記僅僅是作為上述問題的一個參考。 3.1 單位矩陣與對角矩陣單位矩陣，記作I ∈ Rn×n，

Java SpringMVC框架學習（二）httpServeltRequest和Model傳值的區別

urn ont ppi mode array style att 區別 () 為什麽大多程序在controller中給jsp傳值時使用model.addAttribute()而不使用httpServeletRequest.setAttribute()？事實上model數

js的基本類型有哪些?引用類型有哪些?（二）------null和undefined的區別

參考 pan 原型 Language any strong 代碼 pre nan null和undefined的區別 1.類型的區別 console.log(typeof(undefined));//undefinedconsole.log(typeof(null));//

c#多線程（二）——同步和異步

沒有之前什麽 adk 返回 con bsp cti csu 1、什麽是異步　　如果一個程序調用某個方法，等待其執行所有處理後才繼續執行，我們稱這樣的方法是同步的。　　如果一個程序調用某個方法，在該方法處理完成之前就返回到調用方法，則這個方法是異步的。異步的好處在於

Thrift源碼分析（二）-- 協議和編解碼

如果 dst begin TBase this 方法的參數復雜 params OS 協議和編解碼是一個網絡應用程序的核心問題之一，客戶端和服務器通過約定的協議來傳輸消息(數據)，通過特定的格式來編解碼字節流，並轉化成業務消息，提供給上層框架調用。 Thrift的協議比較簡

從零開始學 Web 之 jQuery（二）獲取和操作元素的屬性

eight images idt 隱藏 lis 屬性 ner master lin 大家好，這裏是「從零開始學 Web 系列教程」，並在下列地址同步更新...... github：https://github.com/Daotin/Web 微信公眾號：Web前端之巔

從零搭建java後臺管理系統（二）mysql和redis安裝

docker 權限 req 安全性分享圖片登錄 red 解析 append 接上篇開始安裝mysql和redis 註意了，如果用阿裏雲服務器，外網訪問的端口必須在安全組開啟，否則外網訪問不通三、服務器安裝redis和mysql 本次環境搭建將所有第三方服務會安

網路程式設計（二）——伺服器和客戶端資訊的獲取

目錄 1、字串IP地址和二進位制IP地址結構的轉換 2.套接字檔案描述符的判定 3、IP地址與域名之間的相互轉換 4、協議名稱處理函式 1、字串IP地址和二進位制IP地址結構的轉換 #include <sys/socket.h> #inclu

Thrift原理分析（二）協議和編解碼

協議和編解碼是一個網路應用程式的核心問題之一，客戶端和伺服器通過約定的協議來傳輸訊息(資料)，通過特定的格式來編解碼位元組流，並轉化成業務訊息，提供給上層框架呼叫。 Thrift的協議比較簡單，它把協議和編解碼整合在了一起。抽象類TProtocol定義了協議和編解碼的頂層介面。個人感

java學習筆記（二）parseInt和valueOf 以及字串+和StringBuilder的區別

parseInt和valueOf 我們平時應該都用過或者見過parseInt和valueOf這兩個方法。一般我們是想把String型別的字元數字轉成int型別。從這個功能層面來說，這兩個方法都一樣，都可以勝任這個功能。但是，我們進入原始碼，看下Integer類下這兩個方法 pars

手遊客戶端的效能篇（二）----Unity和C#版之字串拼接，Struct和Class的區別與應用

接著上篇文章： 2、字串拼接（簡單，直接結論）使用“a” + “b”在幾次（10次以內吧）連線是不會產生gc的但是大量連線就會產生；連線多的用StringBuilder，內部

奮戰聊天機器人（二）語料和詞彙資源

1. NLTK語料庫

類似的語料庫還有：

1.1 語料庫的一般結構

1.2 語料庫的通用介面

1.3 載入自己的語料庫

1.4 條件頻率分佈

其他詞典資源

相關推薦