python自然語言處理-讀書筆記3

阿新 • • 發佈：2018-11-11

# -*- coding:utf-8 -*-
# __author__ = 'lipzhang'
import nltk
from nltk.corpus import gutenberg #古騰堡語料庫
from nltk.corpus import webtext #w網路聊天文字
from nltk.corpus import nps_chat
from nltk.corpus import brown #布朗語料庫
from nltk.corpus import reuters #路透社語料庫
print(gutenberg.fileids())
emma = gutenberg.words('austen-emma.txt')
for fileid in gutenberg.fileids():
    num_chars = len(gutenberg.raw(fileid))# raw() 函式給我們沒有進行過任何語言學處理的檔案的內容。因此，例如：len(gutenberg.raw(' blake-poems.txt')告訴我們文字中出現的詞彙個數，包括詞之間的空格。
    num_words = len(gutenberg.words(fileid))
    num_sents = len(gutenberg.sents(fileid))#sents()函式把 文字劃分成句子，其中每一個句子是一個詞連結串列。
    num_vocab = len(set([w.lower() for w in gutenberg.words(fileid)]))
    print(int(num_chars / num_words), int(num_words / num_sents), int(num_words / num_vocab), fileid)#三個統計量：平均詞長、平均句子長度和本文中每個詞出現的平均次數
for fileid in webtext.fileids():
    print(fileid, webtext.raw(fileid)[:65])
chatroom = nps_chat.posts('10-19-20s_706posts.xml')#
print(chatroom[123])

print(brown.categories())
print(brown.words(categories='news'))
print(brown.words(fileids=['cg22']))
print(brown.sents(categories=['news', 'editorial', 'reviews']))

news_text = brown.words(categories='news')
fdist = nltk.FreqDist([w.lower() for w in news_text])#統計情態動詞分別出現的次數;
modals = ['can', 'could', 'may', 'might', 'must', 'will']
for m in modals:
    print(m + ':', fdist[m])

cfd = nltk.ConditionalFreqDist((genre, word) for genre in brown.categories() for word in brown.words(categories=genre))#統計情態動詞分別出現的次數;
genres = ['news', 'religion', 'hobbies', 'science_fiction', 'romance', 'humor']
modals = ['can', 'could', 'may', 'might', 'must', 'will']
cfd.tabulate(conditions=genres, samples=modals)

# print(reuters.fileids())
# print(reuters.categories())
# print(reuters.categories('training/9865'))
# print(reuters.fileids(['barley', 'corn']))
# print(reuters.words('training/9865')[:14])

from nltk.corpus import inaugural#就職演說語料庫
print(inaugural.fileids())
print([fileid[:4] for fileid in inaugural.fileids()])
cfd = nltk.ConditionalFreqDist((target, fileid[:4])for fileid in inaugural.fileids() for w in inaugural.words(fileid) for target in ['america', 'citizen']if w.lower().startswith(target))
cfd.plot()#條件頻率分佈圖：計數就職演說語料庫中所有以 america 或 citizen 開始的詞。每個 演講單獨計數 。這樣就能觀察出隨時間變化用法上的演變趨勢 。計數沒有與文件長度進行歸 一化處理。

from nltk.corpus import udhr #世界人權宣言語料庫
languages = ['Chickasaw', 'English', 'German_Deutsch','Greenlandic_Inuktikut', 'Hungarian_Magyar', 'Ibibio_Efik']
cfd = nltk.ConditionalFreqDist((lang, len(word))for lang in languages for word in udhr.words(lang + '-Latin1'))
cfd.plot(cumulative=True)#. 累積字長分佈：內容是 “ 世界人權宣言 ” 的 6 個翻譯版本；此圖顯示： 5 個或 5 個 以下字母組成的詞在 Ibibio 語言的文字中佔約 80 ％，在德語文字中佔 60 ％，在 Inuktitut 文 本中佔 25% 。

python自然語言處理-讀書筆記3

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' import nltk from nltk.corpus import gutenberg #古騰堡語料庫 from nltk.corpus import webtext #w網路聊天文字 from

python自然語言處理-讀書筆記5

#使用UniCode進行文書處理 #Unicode支援超過一百萬種字元。每個字元分配一個編號，稱為編碼點。在 Python中，編碼點寫作\uXXXX 的形式，其中 XXXX是四位十六進位制形式數。 #從檔案中提取已編碼文字 import codecs path = nltk.data.fin

python自然語言處理-讀書筆記4

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' import nltk, re, pprint #從網路和硬碟訪問文字 #電子書 from urllib.request import urlopen from bs4 import Beautif

python自然語言處理-讀書筆記9

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' #第六章學習分類文字 # 1. 我們怎樣才能識別語言資料中能明顯用於對其分類的特徵？ 2. 我們怎樣才能構建語言模型，用於自動執行語言處理任務？ 3. 從這些模型中我們可以學到哪些關於語言的知識？

python自然語言處理-讀書筆記8

#N-Gram Tagging N元語法標註 #一元標註（Unigram Tagging）一元標註器基於一個簡單的統計演算法：對每個識別符號分配這個獨特的識別符號最有可能的標記。例如：它將分配標記 JJ 給詞 frequent 的所有出現，因為frequent 用作一個形容詞（例如：a f

python自然語言處理-讀書筆記7

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' #分類和標註詞彙 #使用詞性標註器 import nltk # text = nltk.word_tokenize("And now for something completely diffe

python自然語言處理-讀書筆記6

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' #4.1 回到基礎 #賦值 #等式 #條件語句 #all()函式和any()函式可以應用到一個連結串列（或其他序列），來檢查是否全部或任一項目滿足一些條件： # sent = ['No',

python自然語言處理-讀書筆記

python自然語言處理 -讀書筆記1

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' import nltk from nltk.book import * # print(text1.concordance("monstrous"))#顯示一個指定單詞的每一次出現，連同一些上下文

Python自然語言處理實戰（3）：中文分詞技術

3.1、中文分詞簡介在英文中，單詞本身就是“詞”的表達，一篇英文文章就是“單詞”加分隔符（空格）來表示的，而在漢語中，詞以字為基本單位的，但是一篇文章的語義表達卻仍然是以詞來劃分的。自中文自動分詞被提出以來，歷經將近30年的探索，提出了很多方法，可

python自然語言處理-學習筆記（二）

在第二章中，主要介紹了各個預料庫的使用，這裡不再贅述，對於預料庫的操作，之前書中都提到過。這裡只說一下一個問題，在inaugural預料庫中，測試輸出條件分佈圖的時候，他的程式碼裡有個問題，我按照書中寫的方法，得到的結果如下： >>> cfd

《python自然語言處理》筆記---chap3加工原料文字

chap3中關於，NLP中的關鍵概念，包括分詞和詞幹提取。字串、檔案、正則表示式、去除HTML標籤以下所有程式，預設匯入包 import nltk,re,pprint #即，nltk包，正則表示式re包，輸出pprint包 3.1 從網路和硬碟訪問文字電子書

python自然語言處理學習筆記一

第一章語言處理與python 1 語言計算文字與詞彙 NLTK入門下載安裝nltk 下載資料 >>> import nltk >>> nltk.download() 下載完成,載入文字 >>> from n

python自然語言處理學習筆記三

第三章處理原始文字 1 從網路和硬碟訪問文字 #<<罪與罰>>的英文翻譯未作測試?? From utlib import urlopen Url=’http://www.gutenberg.org/files/2554/2554.txt’ Ra

python 自然語言處理學習筆記

一 NLTK的幾個常用函式1 concordance 這個函式就是用來搜尋單詞word在text 中出現多的情況,包括出現的那一行,重點強調上下文。從輸出來看 concordance 將要查詢的單詞,基本顯示在一列,這樣容易觀察其上下文.例如>>> text

【讀書筆記】《Python自然語言處理》第1章語言處理與Python

1.1 語言計算：文字和詞彙入門 nltk下載地址使用pip安裝 >>>import nltk 檢驗是否成功。 >>>nltk.download() 選擇語料下載使用python直譯器載入book模組中的條目 >&g

Python自然語言處理筆記【二】文本分類之監督式分類的細節問題

重要探索基於 font 產生 com 分類器保持聯合一、選擇正確的特征 1.建立分類器的工作中如何選擇相關特征，並且為其編碼來表示這些特征是首要問題。 2.特征提取，要避免過擬合或者欠擬合過擬合，是提供的特征太多，使得算法高度依賴訓練數據的特性，而對於一般化的

《Python自然語言處理》學習筆記-第二章

第二章：獲得文字語料和詞彙資源 2.1 獲取文字語料庫古滕堡語料庫（1）首先載入nltk包。（2）使用nltk.corpus.gutenberg.fileids方法能夠獲取古滕堡語料庫中所有的文字識別符號。（3）使用nltk.corpus.

用Python進行自然語言處理學習筆記一

NLTK是一個高效的Python構建的平臺，用來處理人類自然語言資料。它提供了易於使用的介面，通過這些介面可以訪問超過50個語料庫和詞彙資源（如WordNet），還有一套用於分類、標記化、詞幹標記、解析和語義推理的文字處理庫，以及工業級NLP庫的封裝器和一個活躍的討論論壇。

python自然語言處理——3.1 從網絡和硬盤訪問文本

自然語言處理 num align otto aci soup tro nltk find 微信公眾號：數據運營人本系列為博主的讀書學習筆記，如需轉載請註明出處。第三章加工原料文本 3.1 從網絡和硬盤訪問文本電子書處理的HTML處理RSS訂閱讀取本地文件 3.

python自然語言處理-讀書筆記3

相關推薦