用Python進行自然語言處理-筆記

阿新 • • 發佈：2019-02-17

#!/usr/bin/env python
# -*- coding: utf-8 -*-
from nltk.book import *

# 查詢特定詞語上下文
text1.concordance("monstrous")

# 相關詞查詢
text1.similar("monstrous")

# 查詢多個詞語的共同上下文
text2.common_contexts(["monstrous", "very"])

# 畫出詞語的離散圖
text4.dispersion_plot(["citizens", "democracy", "freedom", "duties", "America"])

# 產生隨機文字
text3.generate()
Traceback (most recent call last):
  File "E:/nlp/eg1.py", line 25, in <module>
    text3.generate()
TypeError: generate() missing 1 required positional argument: 'words'

# 單詞數量 識別符號總數
print(len(text3))

# 詞彙的種類及數量 用集合set顯示
print(sorted(set(text3)))
print(len(set(text3)))

# 測量平均每類詞語被使用的次數
from __future__ import division #本命令必須放在檔案的開始之初
print(len(text3)/len(set(text3)))

# 統計特定單詞在文字中出現的次數，並計算其佔比
print(text3.count("smote"))
print(100*text4.count('a')/len(text4))

# # 詞的頻率分佈
fdist1 = FreqDist(text1)
# # 輸出總的詞數
print(fdist1)
# In Python 3 dict.keys() returns an iteratable but not indexable object.
vac1 = list(fdist1.keys())
# # 輸出詞數最多的前五十個詞
print(vac1[:50])
# # 輸出whale的次數
print(fdist1["whale"])
# # 輸出前五十個詞的累積頻率圖

fdist1.plot(50)

# 查詢長度超過15個字元的詞
V = set(text1)
long_words = [w for w in V if len(w)>15]
print(sorted(long_words))

# 查詢長度超過7的詞且頻率超過7
fdist5 = FreqDist(text5)
print(sorted([ w for w in set(text5) if len(w)>7 and fdist5[w]>7]))

# 雙連詞的使用
from nltk import bigrams
# # 查了一下nltk官網上的函式說明，要加list()函式，結果才是書上的情況
print(list(bigrams(['more', 'is', 'said', 'than', 'done'])))

# 文字中常用的連線詞
print(text4.collocations())

print([len(w) for w in text1])
fdist = FreqDist([len(w) for w in text1])
print(fdist)
print(fdist.keys())
print(fdist.items())
print(fdist.max())
print(fdist[3])
print(fdist.freq(3))

print(sorted([w for w in set(text1) if w.endswith('ableness')]))

print(babelize_shell())

（初學者）用Python進行自然語言處理筆記一

Python程式設計連結串列list 在Python中連結串列的表示為：[](這是一個空連結串列)，或者[‘A’,’B’].list中的元素是允許重複的！ ##########有關列表的基本操作############## #定義一個空連結串列 li

用Python進行自然語言處理-筆記

#!/usr/bin/env python # -*- coding: utf-8 -*- from nltk.book import * # 查詢特定詞語上下文 text1.concordance("monstrous") # 相關詞查詢 text1.similar(

《用Python進行自然語言處理》程式碼筆記（五）：第七章：從文字提取資訊

#!/usr/bin/env python # -*- coding: utf-8 -*- # @Author : Peidong # @Site : # @File : eg7.py # @Software: PyCharm """ 從文字提取資訊 """

用Python進行自然語言處理學習筆記一

NLTK是一個高效的Python構建的平臺，用來處理人類自然語言資料。它提供了易於使用的介面，通過這些介面可以訪問超過50個語料庫和詞彙資源（如WordNet），還有一套用於分類、標記化、詞幹標記、解析和語義推理的文字處理庫，以及工業級NLP庫的封裝器和一個活躍的討論論壇。

《用Python進行自然語言處理》下載

2018年11月01日 13:37:53 qq_43576475 閱讀數：3 標籤：程式設計資料

《用Python進行自然語言處理》第 1 章語言處理與 Python

1. 將簡單的程式與大量的文字結合起來，我們能實現什麼?2. 我們如何能自動提取概括文字風格和內容的關鍵詞和短語?3. Python 程式語言為上述工作提供了哪些工具和技術?4. 自然語言處理中的有哪些有趣的挑戰?1.1 語言計算:文字和單詞python入門NLTK 入門fr

用python進行自然語言處理第一章練習題答案

搜了一下好像沒有官方答案自己做完並且結合了網上的一版答案最終將結果貼在這裡希望朋友們來批評指正. ○嘗試使用 Python 直譯器作為一個計算器,輸入表示式,如 12/(4+1)。答: 12/(4+1) 注意/ 在python中指的是整除 ○

《使用Python進行自然語言處理》學習筆記五

第三章加工原料文字 3.1 從網路和硬碟訪問文字 1 電子書古騰堡專案的其它文字可以線上獲得，整個過程大概需要幾十秒（實驗室網路不行是硬傷）使用raw（）可以得到原始的字串。但是raw得到的資料絕對不是我們能直接拿去分析的，還要經過一些預處理。我們要將字串分解為詞

《使用Python進行自然語言處理（Nltk）》2

import nltk from nltk.corpus import * '''1、古騰堡語料庫''' gutenberg.fileids() #所有古騰堡語料庫中的文字 emma = nltk.corpus.gutenberg.words('austen-e

Python自然語言處理筆記【二】文本分類之監督式分類的細節問題

重要探索基於 font 產生 com 分類器保持聯合一、選擇正確的特征 1.建立分類器的工作中如何選擇相關特征，並且為其編碼來表示這些特征是首要問題。 2.特征提取，要避免過擬合或者欠擬合過擬合，是提供的特征太多，使得算法高度依賴訓練數據的特性，而對於一般化的

Python呼叫哈工大語言云（LTP）API進行自然語言處理

哈工大語言云（語言技術平臺雲）是以哈工大社會計算與資訊檢索研究中心研發的“語言技術平臺（LTP）” 為基礎，提供高效精準的中文自然語言處理雲服務。 1.註冊：免費註冊一個帳號註冊後

利用NLTK在Python下進行自然語言處理

自然語言處理是電腦科學領域與人工智慧領域中的一個重要方向。自然語言工具箱（NLTK，Natural Language Toolkit）是一個基於Python語言的類庫，它也是當前最為流行的自然語言程式設計與開發工具。在進行自然語言處理研究和應用時，恰當利用NLTK中提供的函式

Python呼叫自然語言處理包HanLP

Python呼叫自然語言處理包HanLP3.png一句話安裝pyhanlp，全自動下載安裝配置，還支援升級。 pip install pyhanlp 呼叫方法參考專案主頁：https://github.com/hankcs/pyhanlp Windows使用者如果遇到： building

《使用python進行自然語言理解（Nltk）》1.2

直接上程式碼： 1、例項測試1 # -*- coding: UTF-8 -*- # !/usr/python/bin # Filename:NltkTest42 '''一些關於文字的統計資訊的測試''' from __future__ import division im

自然語言處理筆記

NLTK 和jieba 官方網址： http://www.nltk.org/ python上著名的自然語言處理庫，自帶語料庫，詞性分類庫，自帶分類，分詞，等等功能，還有N多的簡單版wrapper 安裝NLTK和jieba: sudo pip install -U

Python與自然語言處理（一）搭建環境

參考書籍《Python自然語言處理》，書籍中的版本是Python2和NLTK2，我使用的版本是Python3和NLTK3 安裝NLTK3，Natural Language Toolkit，自然語言工

Python與自然語言處理（二）基於Gensim的Word2Vec

繼續學習摸索，看到很多部落格都在研究Word2Vec，感覺挺有意思，我也來嘗試一下。實驗環境：Python3，Java8 Word2Vec的輸入是句子序列，而每個句子又是一個單詞列表，由於沒有這樣結構的現成輸入，所以決定自己動手對原始語料進行預處理。這裡還有一個自然語

python與自然語言處理（五）：中文文字詞雲

之前一直想要做一個文字的視覺化：詞雲，然後在網上搜到的一些製作詞雲的工具，有些是線上的就沒有使用，今天偶然看到python提供的wordcloud庫，可以方便製作詞雲，中英文皆可，趕緊試試，做個筆記，

python與自然語言處理（六）：中文文字轉影象

最近使用word2vec對文字進行向量化表示，然後模仿基於CNN的影象分類實現文字分類。既然是模仿影象，那就應該可以將文字用影象視覺化一下，看看量化後的文字是什麼樣子。python處理影象的基本模組是Image庫，由於實驗中使用的是python3，需要安裝的影象處理庫為Pil

基於python的自然語言處理分類和標註詞彙之5.5N-gram標註

一元標註器unigram tagging一元標註器利用一種簡單的統計演算法，對每個識別符號分配最有可能的標記。建立一元標註器的技術稱為訓練。>>> fromnltk.corpus import brown>>> importnltk>

用Python進行自然語言處理-筆記

相關推薦