python 之計算詞典和詞頻矩陣

阿新 • • 發佈：2018-12-18

詞典構造：每個單詞對應一個數字ID 。words列表裡的單詞排序，不知道以何原理。

詞頻矩陣：col 數為單詞的個數，列數為文字的個數。

from collections import Counter
from itertools import chain
import numpy as np
documents = ["Human machine interface for lab abc computer applications",
             "A survey of user opinion of computer system response time",
             "The EPS user interface management system",
             "System and human system engineering testing of EPS",
             "Relation of user perceived response time to error measurement",
             "The generation of random binary unordered trees",
             "The intersection graph of paths in trees",
             "Graph minors IV Widths of trees and well quasi ordering",
             "Graph minors A survey"]
def word_matrix(documents):
    '''計算詞頻矩陣'''
    # 所有字母轉換位小寫
    docs = [d.lower() for d in documents]
    # 分詞
    docs = [d.split() for d in docs]
    # 獲取所有詞
    words = list(set(chain(*docs)))
    #print(words)
    # 詞到ID的對映, 使得每個詞有一個ID
    dictionary = dict(zip(words, range(len(words))))
    #print(dictionary)
    # 建立一個空的矩陣, 行數等於詞數, 列數等於文件數
    matrix = np.zeros((len(words), len(docs)))
    # 逐個文件統計詞頻
    for col, d in enumerate(docs):  # col 表示矩陣第幾列，d表示第幾個文件。
        # 統計詞頻
        count = Counter(d)#其實是個詞典，詞典元素為：{單詞：次數}。
        for word in count:
            # 用word的id表示word在矩陣中的行數，該文件表示列數。
            id = dictionary[word]
            # 把詞頻賦值給矩陣
            matrix[id, col] = count[word]
    return matrix, dictionary

matrix, dictionary = word_matrix(documents)
print(matrix,'\n',dictionary)

二、詞頻矩陣matrix構建完成之後，求得TF矩陣和IDF矩陣，兩個矩陣相乘，便得到每個單詞的tf-idf在每個文件裡面的值。之前的理解沒有大局觀。tf-idf模型中的tf和idf不是孤立存在的，由一個矩陣演化而來。

python 之計算詞典和詞頻矩陣

詞典構造：每個單詞對應一個數字ID 。words列表裡的單詞排序，不知道以何原理。詞頻矩陣：col 數為單詞的個數，列數為文字的個數。 from collections import Counter from itertools import chain import nump

Python之條件判斷和循環

height ont 腳本混合 sse 根據 pan fail width 1、if條件判斷語句 1 score = 80 2 if score >= 60: 3 print ‘Passed‘ 4 else: 5 print ‘Failed‘ 註

python之模塊和包

sys.path 不同的 oot 鏈接庫獨立 python代碼都是模塊查詢一 Python模塊簡介 Python模塊：可以將代碼量較大的程序分割成多個有組織，彼此間獨立但又能互相交互的代碼片段，這些自我包含的有組織的代碼段就是模塊模塊在物理形式上表現為以.py

Python之面向過程和面向對象的區別

用戶需求範圍不同的 and 貪婪匹配 findall family 流水線技能一、面向過程　　1、面向過程：核心是過程二字，過程指的是解決問題的步驟，好比如設計一條流水線，是一種機械式的思維方式。　　　　　就是程序從上到下一步步執行，一步步從上到下，從頭到尾的解

Python之生成器(generator)和叠代器(Iterator)

聲明創建一個數 ID 少包 int yield 列表解析 next() generator 生成器generator：一邊循環一邊計算的機制。生成器是一個特殊的程序，可以被用於控制循環的叠代行為。python中的生成器是叠代器的一種，使用yield返回值函數，每次調

Python之爬蟲-- etree和XPath實戰

下面程式碼是在網站上找到的一個例子，空閒的時候可以自己除錯。 # -*- coding:utf-8 -*- """ 爬蟲創業邦創業公司資訊爬取網頁url = 'http://www.cyzone.cn/vcompany/list-0-0-1-0-0/0' 爬取頁面中的創業公司，

跟老齊學Python之私有函式和專有方法

在任何語言中，都會規定某些物件(屬性、方法、函式、類等)只能夠在某個範圍內訪問，出了這個範圍就不能訪問了。這是“公”、“私”之分。此外，還會專門為某些特殊的東西指定一些特殊表示，比如類的名字就不能用class，def等，這就是保留字。除了保留字，python中還為類的名字做了某些特殊準備，就是“專有

python之執行緒和程序

1.建立執行緒 –執行緒 –程序 —一個程序裡面必定會有一個主執行緒 python執行緒的模組 2._thread 模組中建立多執行緒 import _thread import threading import time def job(name): print(“這是

python之絕對匯入和相對匯入

絕對匯入 import sys, os BASE_DIR = os.path.dirname(os.path.dirname(__file__)) sys.path.append(BASE_DIR) __file__是相對路徑，是因為pycharm吧之前的路徑給補上了才沒有報錯，在終端執行就會

python之資料篩選和csv操作

　　本博主要總結DaraFrame資料篩選方法（loc,iloc,ix,at,iat），並以操作csv檔案為例進行說明 1. 資料篩選 a b c 0 0 2 4 1 6 8 10 2 12 14 16 3 18 20 22 4 24 26 2

ubuntu下安裝python科學計算環境和機器學習的TensorFlow庫

一、安裝python整合環境anaconda 1，安裝ubuntu 3，開啟終端（ctrl+Alt+T） 4，轉到檔案所在路徑（cd 檔案所在路徑），我的在“/home/yan/桌面 ”，故在終

python之黏包和黏包解決方案

黏包現象主要發生在TCP連線, 基於TCP的套接字客戶端往服務端上傳檔案，傳送時檔案內容是按照一段一段的位元組流傳送的，在接收方看來，根本不知道該檔案的位元組流從何處開始，在何處結束. 兩種黏包現象: 1 連續的小包可能會被優化演算法給組合到一起進行傳送 2 第一次如果

Appium+Python之元素定位和操作

一、常用識別元素的工具 uiautomatorviewer：Android SDK自帶的一個工具，在tools目錄下二、元素定位 1.格式：find_element_by_定位方式(value) &nb

Python之私有函式和專有方法

在任何語言中，都會規定某些物件(屬性、方法、函式、類等)只能夠在某個範圍內訪問，出了這個範圍就不能訪問了。這是“公”、“私”之分。此外，還會專門為某些特殊的東西指定一些特殊表示，比如類的名字就不能用class，def等，這就是保留字。除了保留字，python中還為類的名字

Python之獲取平臺和作業系統資訊（platform模組）

#獲取作業系統的一些資訊： import platform platform.platform() #獲取作業系統名稱及版本號，'Linux-3.13.0-46-generic-i686-with-Deepin-2014.2-trusty' platform.

python 文字單詞提取和詞頻統計

這些對文字的操作經常用到，那我就總結一下。陸續補充。。。操作： strip_html(cls, text) 去除html標籤 separate_words(cls, text, min_

python之函式定義和引數隨筆

python中使用關鍵字def來表示函式的定義。如下所示： def make_shirt(size, mess): print("the shirt's size is:" + str(size) + " and message is"+mess) 定義了一個函式

python科學計算庫和繪圖庫的結合(原創)

pri ast 保存灰度 size object 科學圖像 pil # 導入繪圖庫 from PIL import Image #導入科學計算庫 import numpy as np #封裝一個圖像處理工具類 class TestNumpy(objec

Python進階之CPU計算密集型和IO密集型

在最近往伺服器部署爬蟲程式的時候，遇到了一個很奇怪的問題，就是部署上之後執行一段時間或者是直接不執行就進入休眠狀態了，開始一直懷疑是由於伺服器記憶體不足導致的程式休眠，後來廢了好大的勁，最終找到了罪魁禍首，具體分析我通過這幾篇連載的部落格來分析一下，正好也對給自己充充電。第一種任務的型別是

Python數學計算：Numpy和Scipy（矩陣相關）

Python是一種通用語言。它被解釋執行，是動態型別語言，並且非常適合互動工作和快速實現原型，然而又足夠強大用來寫大型應用。 NumPy是一個定義了數值陣列和矩陣型別和它們的基本運算的語言擴充套件。

python 之計算詞典和詞頻矩陣

相關推薦