python自然語言處理第五章習題

阿新 • • 發佈：2019-01-01

3.分詞和標註下面的句子：They wind back the clock,while we chase after the wind.句子中包含哪些不同的發音和詞類？

import nltk
s='They wind back the clock,while we chase after the wind'
s1=nltk.word_tokenize(s)
s2=nltk.pos_tag(s1) #list型別

4.字典相關練習

d={'colorless':'ADJ','idea':'N','sleep':'V'} #create a dict
del d['sleep'] #delete an item from dict d
d.update({'color':'N'}) #add new item into dict d
d2=nltk.defaultdict(list)
d2['N'].append('color') #add new word for type N

9.驗證go和went在分佈上的限制，也就是說，它們不能自由互換。

from nltk.book import *
text1.concordance('go')
text1.concordance('went')

10.訓練一個unigram標註器，在一些新的文字上執行。觀察沒有分配到標記的詞。為什麼沒有分配到標記？一元標註器的行為與查詢

from nltk.corpus import brown

brown_tagged_sents=brown.tagged_sents(categories='news')

brown_sents=brown.sents(categories='news')

unigram_tagger=nltk.UnigramTagger(brown_sents)

unigram_tagger.tag(brown_sents[2007])

unigram_tagger.evaluate(brown_tagged_sents)

11.瞭解詞綴標註器（輸入help(nltk.AffixTagger)。訓練一個詞綴標註器，在一些新的文字上執行。設定不同的詞綴長度和最小詞長。並討論結果。

import nltk

from nltk.corpus import brown

brown_sents=brown.sents(categories='news')

brown_tagged_sents=brown.tagged_sents(categories='news')

affixtagger=nltk.AffixTagger(brown_tagged_sents)

affistagger.tag(brown_sents[2007])

12.訓練一個沒有回退標註器的bigram標註器。在一些訓練資料上執行。然後，在一些新的資料上執行它。標註器的效能會發生什麼變化？為什麼？

import nltk

from nltk.corpus import brown

brown_sents=brown.sents(categories='news')

brown_tagged_sents=brown.tagged_sents(categories='news')

bigram_tagger=nltk.BigramTagger(brown_tagged_sents)

bigram_tagger.tag(brown_sents[2007])

bigram_tagger.evaluate(brown_tagged_sents)

13.我們可以使用字典指定由一個格式化字串替換的值。閱讀關於格式化字串的python文件，使用這種方法以兩種不同格式顯示今天的日期。

d={'year':2016,'month':8,'day':15}

print %s-%s-%s %( d['year'],d['month'],d['day'])

14.使用sorted（）和set（）獲得布朗語料庫使用的標記排序連結串列，刪除重複。

sorted(set(brown.word(categories='news')))

15.編寫程式處理布朗語料，找到一下答案。
a.哪些名詞經常以它們的複數形式出現而不是它們的單數形式？

python自然語言處理第五章習題

3.分詞和標註下面的句子：They wind back the clock,while we chase after the wind.句子中包含哪些不同的發音和詞類？import nltks='They wind back the clock,while we chase

斯坦福大學自然語言處理第五課“拼寫糾錯（Spelling Correction）”

今天在我愛機器學習上正好看到這篇文章，和我們現在做的中文拼寫檢查關係密切，就轉過來了，需要細細地看一遍。一、課程介紹斯坦福大學於2012年3月在Coursera啟動了線上自然語言處理課程，由NLP領域大牛Dan Jurafsky 和 Chirs Manning教授

【讀書筆記】《Python自然語言處理》第1章語言處理與Python

1.1 語言計算：文字和詞彙入門 nltk下載地址使用pip安裝 >>>import nltk 檢驗是否成功。 >>>nltk.download() 選擇語料下載使用python直譯器載入book模組中的條目 >&g

python核心程式設計第二版-第五章習題--自己寫（歡迎批改）

第二題：操作符 1/寫一個函式，計算並返回兩個數的乘積； 2/寫一段程式碼呼叫這個函式並顯示它的結果 def ji(a,b): return a*b ji(2,6) 第三題：標準型別操作符。寫

C語言第五章習題

1.編寫一個程式，輸出所有的水仙花數。若一個三位數等於其各位數字的立方和，則稱這個三位數為水仙花數。此題不難，只要能正確運用好%和/ 求出各位上的數字即可。 2.編寫一個程式，輸入兩個整數，用輾轉相除法計算其最大公約數和最小公倍數。 3.編寫一個程式，計算s

python與自然語言處理（五）：中文文字詞雲

之前一直想要做一個文字的視覺化：詞雲，然後在網上搜到的一些製作詞雲的工具，有些是線上的就沒有使用，今天偶然看到python提供的wordcloud庫，可以方便製作詞雲，中英文皆可，趕緊試試，做個筆記，

PythonNLP學習進階：第二章練習題（Python自然語言處理）

python自然語言處理.2014年7月第一版課後習題練習 1. >>> phrase=["Valentine's"] >>> phrase=["lonely"]+phrase+["day"] >>> phrase [

《Python自然語言處理》學習筆記-第二章

第二章：獲得文字語料和詞彙資源 2.1 獲取文字語料庫古滕堡語料庫（1）首先載入nltk包。（2）使用nltk.corpus.gutenberg.fileids方法能夠獲取古滕堡語料庫中所有的文字識別符號。（3）使用nltk.corpus.

MIT自然語言處理第三講：概率語言模型（第四、五、六部分）

MIT自然語言處理第三講：概率語言模型（第四部分）自然語言處理：概率語言模型 Natural Language Processing: Probabilistic Language Modeling 作者：Regina Barzilay（MIT,EECS Dep

python自然語言處理第二章（上）

古騰堡語料庫 import nltk nltk.corpus.gutenberg.fileids() Out[78]: [u'austen-emma.txt', u'austen-persuasion.txt', u'austen-sense.txt', u'bib

python 核心編程第六章習題

創建 per 列表一個 join def print 習題反轉 6-6 創建一個類似 string.strip() 函數方法一低效方法大量復制和生成子串對象 def str_strip(s): 　　while len(s)>=2: 　　

NLP-python 自然語言處理01

count ems odin 頻率分布 str sep mon location don 1 # -*- coding: utf-8 -*- 2 """ 3 Created on Wed Sep 6 22:21:09 2017 4 5 @author: A

Python自然語言處理1

cmd 輸入函數調用 down load src 選擇分享 cnblogs 首先，進入cmd 輸入pip install的路徑隨後開始下載nltk的包一、準備工作 1、下載nltk 我的之前因為是已經下載好了，我現在用的參考書是Python自然語言處理這本書，最

第五章習題答案

linux第五章練習題答案?1. 查看配置文件/etc/shadow第一行中root賬號的第三個字段（以‘:‘分隔）中的數字，請算一下這個數字是怎麽來的?距離1970年1月1日到上次更改密碼的時間的間隔天數。例如root密碼日期更改時間為2013年9月1日星期日，那麽配置文件/etc/shadow中root的

Python自然語言處理 Chapter 1

col ont otl python import 搜索 text2 div load() from __future__ import division import nltk nltk.download() from nltk.book import * #搜索文本

java編程思想第四版第五章習題

調用構造每次 override 變參對象賦值 turn AC 初始化 @override 創建一個類, 它包含一個未初始化的String引用。驗證該引用被Java初始化成了null package net.mindview.initialization; publ

Python自然語言處理筆記【二】文本分類之監督式分類的細節問題

重要探索基於 font 產生 com 分類器保持聯合一、選擇正確的特征 1.建立分類器的工作中如何選擇相關特征，並且為其編碼來表示這些特征是首要問題。 2.特征提取，要避免過擬合或者欠擬合過擬合，是提供的特征太多，使得算法高度依賴訓練數據的特性，而對於一般化的

Python | 自然語言處理 (一)

res sent 處理簡單的 *** ima examples 表示 rds 小白博主最近想參加一個關於NLP的比賽，於是入坑自然語言處理,想借博客一邊學習，一邊整理首先安裝庫nltk，直接pip install nltk即可 1 from nltk.book imp

網絡操作系統第五章習題

比較代號應用進制限制 chmod命令空間八進制文件 1.比較說明FAT文件系統和NTFS文件系統的特點？ FAT 文件系統原來使用在dos或win9x系列系統上的。有一系列 fat16、fat32等，每一代對最大分區大小有一定的限制（比如 fat16 每個分區

《精通Python自然語言處理》高清中文版PDF+高清英文版PDF+源代碼

http 自然語言下載 pdf color 語言源代碼書籍 https 下載：https://pan.baidu.com/s/1p9MgH2HDTGfUmWx8jHRsxw 《精通Python自然語言處理》高清中文版PDF+高清英文版PDF+源代碼高清中文版PDF，

python自然語言處理第五章習題

相關推薦