python自然語言處理-讀書筆記6

阿新 • • 發佈：2018-11-11

# -*- coding:utf-8 -*-
# __author__ = 'lipzhang'

#4.1 回到基礎
#賦值

#等式

#條件語句
#all()函式和any()函式可以應用到一個連結串列（或其他序列），來檢查是否全部或任一項 目滿足一些條件：
# sent = ['No', 'good', 'fish', 'goes', 'anywhere', 'without', 'a', 'porpoise', '.']
# print(all(len(w) > 4 for w in sent))
# print(any(len(w)> 4 for w in sent))

#4.2 序列
#for item in s          遍歷 s 中的元素
#for item in sorted(s)  按順序遍歷 s 中的元素
#for item in set(s)     遍歷 s 中的無重複的元素
#for item in reversed(s)            按逆序遍歷 s 中的元素
#for item in set(s).difference(t)   遍歷在集合s 中不在集合t的元素
#for item in random.shuffle(s)      按隨機順序遍歷 s 中的元素
#我們可以在這些序列型別之間相互轉換。例如：tuple(s)將任何種類的序列轉換成一個 元組，list(s)將任何種類的序列轉換成一個連結串列。我們可以使用 join()函式將一個字串鏈 錶轉換成單獨的字串，例如：':'.join(words)。
# words = 'I turned off the spectroroute'.split()
# wordlens = [(len(word), word) for word in words]
# wordlens.sort()
# print(wordlens)
# print(' '.join(w for (_, w) in wordlens))
# import nltk
# #產生器表示式
# text = '''"When I use a word," Humpty Dumpty said in rather a scornful tone,"it means just what I choose it to mean - neither more nor less."'''
# print(max(w.lower() for w in nltk.word_tokenize(text)))

#風格的問題
#函式：結構化程式設計的基礎
# import re
# def get_text(file):
#     """Read text from a file, normalizing whitespace and stripping HTML markup."""
#     text = open(file).read()
#     text = re.sub('\s+', ' ', text)
#     text = re.sub(r'<.*?>', ' ', text)
#     return text

#函式的輸入和輸出
#變數的作用域：名稱解析的LGB 規則：本地 （local），全域性（global），然後內建（built-in）

#引數型別檢查
# def tag(word):
#     assert isinstance(word, str), "argument to tag() must be a string" #使用 assert 語句和 Python的 basestring 的型別一起，它是 uni code和 str的產生型別。 如果assert 語句失敗，它會產生一個不可忽視的錯誤而停止程式執行。
#     if word in ['a', 'the', 'all']:
#         return 'det'
#     else:
#         return 'noun'


#python庫的樣例
#Matplotlib 繪圖工具
#NetworkX
# import networkx as nx
# import matplotlib
# from nltk.corpus import wordnet as wn
# def traverse(graph, start, node):
#     graph.depth[node.name] = node.shortest_path_distance(start)
#     for child in node.hyponyms():
#         graph.add_edge(node.name, child.name)
#         traverse(graph, start, child)
# def hyponym_graph(start):
#     G = nx.Graph()
#     G.depth = {}
#     traverse(G, start, start)
#     return G
# def graph_draw(graph):
#     nx.draw(graph, node_size=[16 * graph.degree(n) for n in graph], node_color=[graph.depth[n] for n in graph],
#                      with_labels=False)
#     matplotlib.pyplot.show()
# dog = wn.synset('dog.n.01')
# graph = hyponym_graph(dog)
# graph_draw(graph)
from numpy import array
cube = array([ [[0,0,0], [1,1,1], [2,2,2]],[[3,3,3], [4,4,4], [5,5,5]],[[6,6,6], [7,7,7], [8,8,8]] ])
print(cube[1,1,1])
from numpy import linalg

a = array([[4, 0], [3, -5]])
u,s,vt = linalg.svd(a)#矩陣的svd分解
print(u)
print(s)
print(vt)

python自然語言處理-讀書筆記6

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' #4.1 回到基礎 #賦值 #等式 #條件語句 #all()函式和any()函式可以應用到一個連結串列（或其他序列），來檢查是否全部或任一項目滿足一些條件： # sent = ['No',

python自然語言處理-讀書筆記5

#使用UniCode進行文書處理 #Unicode支援超過一百萬種字元。每個字元分配一個編號，稱為編碼點。在 Python中，編碼點寫作\uXXXX 的形式，其中 XXXX是四位十六進位制形式數。 #從檔案中提取已編碼文字 import codecs path = nltk.data.fin

python自然語言處理-讀書筆記4

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' import nltk, re, pprint #從網路和硬碟訪問文字 #電子書 from urllib.request import urlopen from bs4 import Beautif

python自然語言處理-讀書筆記3

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' import nltk from nltk.corpus import gutenberg #古騰堡語料庫 from nltk.corpus import webtext #w網路聊天文字 from

python自然語言處理-讀書筆記9

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' #第六章學習分類文字 # 1. 我們怎樣才能識別語言資料中能明顯用於對其分類的特徵？ 2. 我們怎樣才能構建語言模型，用於自動執行語言處理任務？ 3. 從這些模型中我們可以學到哪些關於語言的知識？

python自然語言處理-讀書筆記8

#N-Gram Tagging N元語法標註 #一元標註（Unigram Tagging）一元標註器基於一個簡單的統計演算法：對每個識別符號分配這個獨特的識別符號最有可能的標記。例如：它將分配標記 JJ 給詞 frequent 的所有出現，因為frequent 用作一個形容詞（例如：a f

python自然語言處理-讀書筆記7

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' #分類和標註詞彙 #使用詞性標註器 import nltk # text = nltk.word_tokenize("And now for something completely diffe

python自然語言處理-讀書筆記

python自然語言處理 -讀書筆記1

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' import nltk from nltk.book import * # print(text1.concordance("monstrous"))#顯示一個指定單詞的每一次出現，連同一些上下文

python自然語言處理-學習筆記（二）

在第二章中，主要介紹了各個預料庫的使用，這裡不再贅述，對於預料庫的操作，之前書中都提到過。這裡只說一下一個問題，在inaugural預料庫中，測試輸出條件分佈圖的時候，他的程式碼裡有個問題，我按照書中寫的方法，得到的結果如下： >>> cfd

《python自然語言處理》筆記---chap3加工原料文字

chap3中關於，NLP中的關鍵概念，包括分詞和詞幹提取。字串、檔案、正則表示式、去除HTML標籤以下所有程式，預設匯入包 import nltk,re,pprint #即，nltk包，正則表示式re包，輸出pprint包 3.1 從網路和硬碟訪問文字電子書

python自然語言處理學習筆記一

第一章語言處理與python 1 語言計算文字與詞彙 NLTK入門下載安裝nltk 下載資料 >>> import nltk >>> nltk.download() 下載完成,載入文字 >>> from n

python自然語言處理學習筆記三

第三章處理原始文字 1 從網路和硬碟訪問文字 #<<罪與罰>>的英文翻譯未作測試?? From utlib import urlopen Url=’http://www.gutenberg.org/files/2554/2554.txt’ Ra

python 自然語言處理學習筆記

一 NLTK的幾個常用函式1 concordance 這個函式就是用來搜尋單詞word在text 中出現多的情況,包括出現的那一行,重點強調上下文。從輸出來看 concordance 將要查詢的單詞,基本顯示在一列,這樣容易觀察其上下文.例如>>> text

【讀書筆記】《Python自然語言處理》第1章語言處理與Python

1.1 語言計算：文字和詞彙入門 nltk下載地址使用pip安裝 >>>import nltk 檢驗是否成功。 >>>nltk.download() 選擇語料下載使用python直譯器載入book模組中的條目 >&g

Python自然語言處理筆記【二】文本分類之監督式分類的細節問題

重要探索基於 font 產生 com 分類器保持聯合一、選擇正確的特征 1.建立分類器的工作中如何選擇相關特征，並且為其編碼來表示這些特征是首要問題。 2.特征提取，要避免過擬合或者欠擬合過擬合，是提供的特征太多，使得算法高度依賴訓練數據的特性，而對於一般化的

《Python自然語言處理》學習筆記-第二章

第二章：獲得文字語料和詞彙資源 2.1 獲取文字語料庫古滕堡語料庫（1）首先載入nltk包。（2）使用nltk.corpus.gutenberg.fileids方法能夠獲取古滕堡語料庫中所有的文字識別符號。（3）使用nltk.corpus.

用Python進行自然語言處理學習筆記一

NLTK是一個高效的Python構建的平臺，用來處理人類自然語言資料。它提供了易於使用的介面，通過這些介面可以訪問超過50個語料庫和詞彙資源（如WordNet），還有一套用於分類、標記化、詞幹標記、解析和語義推理的文字處理庫，以及工業級NLP庫的封裝器和一個活躍的討論論壇。

NLP-python 自然語言處理01

count ems odin 頻率分布 str sep mon location don 1 # -*- coding: utf-8 -*- 2 """ 3 Created on Wed Sep 6 22:21:09 2017 4 5 @author: A

Python自然語言處理1

cmd 輸入函數調用 down load src 選擇分享 cnblogs 首先，進入cmd 輸入pip install的路徑隨後開始下載nltk的包一、準備工作 1、下載nltk 我的之前因為是已經下載好了，我現在用的參考書是Python自然語言處理這本書，最

python自然語言處理-讀書筆記6

相關推薦