【506】keras 讀取及處理 IMDB 資料庫

阿新 • • 發佈：2020-12-27

　　利用IMDB資料進行SentimentAnalysis。

　　通過keras.datasets裡面下載，注意下載的結構，並進行預處理。

from keras.datasets import imdb
from keras import preprocessing

# Number of words to consider as features
max_features = 10000
# Cut texts after this number of words 
# (among top max_features most common words)
maxlen = 20

# Load the data as lists of integers.
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=max_features)

　　x_train

type: numpy.ndarray
shape: (25000, )，每一個文字的長度不同，需要補充 0或者擷取，保證長度相同
都是由數字組成，數字與單詞對應

　　y_train:二分類 0和 1

　　需要對文字長度進行調節

# This turns our lists of integers
# into a 2D integer tensor of shape `(samples, maxlen)`
x_train = preprocessing.sequence.pad_sequences(x_train, maxlen=maxlen)
x_test = preprocessing.sequence.pad_sequences(x_test, maxlen=maxlen)

　　長度設定為maxlen=20。

　　得到的矩陣可以直接作為Embedding層的輸入資料。

參考：填充序列pad_sequences

語法：

keras.preprocessing.sequence.pad_sequences(sequences, maxlen=None, dtype='int32',
    padding='pre', truncating='pre', value=0.)

　　將長為nb_samples的序列（標量序列）轉化為形如(nb_samples,nb_timesteps)2D numpy array。如果提供了引數maxlen，nb_timesteps=maxlen

，否則其值為最長序列的長度。其他短於該長度的序列都會在後部填充0以達到該長度。長於nb_timesteps的序列將會被截斷，以使其匹配目標長度。padding和截斷髮生的位置分別取決於padding和truncating.

引數：

sequences：浮點數或整數構成的兩層巢狀列表
maxlen：None或整數，為序列的最大長度。大於此長度的序列將被截短，小於此長度的序列將在後部填0.
dtype：返回的numpy array的資料型別
padding：‘pre’或‘post’，確定當需要補0時，在序列的起始還是結尾補
truncating：‘pre’或‘post’，確定當需要截斷序列時，從起始還是結尾截斷
value：浮點數，此值將在填充時代替預設的填充值0

返回值：

　　返回形如(nb_samples,nb_timesteps)的2D張量

舉例：　　

>>> a = np.array([[2, 3],
		  [3, 4, 6],
		  [7, 8, 9, 10]])
>>> a
array([list([2, 3]), list([3, 4, 6]), list([7, 8, 9, 10])], dtype=object)
>>> import keras
Using TensorFlow backend.
>>> b = keras.preprocessing.sequence.pad_sequences(a, maxlen=10)
>>> b
array([[ 0,  0,  0,  0,  0,  0,  0,  0,  2,  3],
       [ 0,  0,  0,  0,  0,  0,  0,  3,  4,  6],
       [ 0,  0,  0,  0,  0,  0,  7,  8,  9, 10]])
>>> c = keras.preprocessing.sequence.pad_sequences(a, maxlen=10, padding='post')
>>> c
array([[ 2,  3,  0,  0,  0,  0,  0,  0,  0,  0],
       [ 3,  4,  6,  0,  0,  0,  0,  0,  0,  0],
       [ 7,  8,  9, 10,  0,  0,  0,  0,  0,  0]])
>>> d = keras.preprocessing.sequence.pad_sequences(a, maxlen=3, padding='post')
>>> d
array([[ 2,  3,  0],
       [ 3,  4,  6],
       [ 8,  9, 10]])
>>> e = keras.preprocessing.sequence.pad_sequences(a, maxlen=3)
>>> e
array([[ 0,  2,  3],
       [ 3,  4,  6],
       [ 8,  9, 10]])
>>> f = keras.preprocessing.sequence.pad_sequences(a, maxlen=3, padding='post', truncating='post')
>>> f
array([[2, 3, 0],
       [3, 4, 6],
       [7, 8, 9]])

【506】keras 讀取及處理 IMDB 資料庫

　　利用IMDB資料進行SentimentAnalysis。　　通過keras.datasets裡面下載，注意下載的結構，並進行預處理。

【資訊科技】【2009】音訊數字訊號處理技術及應用

本文為義大利羅馬大學（作者：Carlo Belardinelli）的博士論文，共87頁。摘要引言音訊數字水印 3.1 研究動機 3.2 主意：用於QoS評估的脆弱水印 3.3 具體實現 3.4 使用的QoS度量 3.5 結果 3.6 結論音訊恢復

深入瞭解Kafka【二】工作流程及檔案儲存機制

1、Kafka工作流程 Kafka中的訊息以Topic進行分類，生產者與消費者都是面向Topic處理資料。

【Spring】AOP實現及原理

5).Spring AOP程式設計：動態代理（1）引言(靜態代理)：現有程式碼的問題： ①事務程式碼耦合：現有的事務控制的程式碼，耦合在了service方法中,一旦資料庫訪問技術發生變化，所

【EasyUI】環境搭建及簡單實現

easyUI 外掛注意：如果一個頁面引入了一個有easyUI外掛的頁面，那麼本頁面也一定要引入相應的easyUI外掛的js，

【轉】 SpringBoot統一異常處理

【轉】 SpringBoot統一異常處理　　一：在實際開發中，當我們程式報錯時，不是直接顯示錯誤內容給使用者，一般都會統一跳轉到錯誤頁面。定義一個異常方法，如下：

【轉】【Salesforce】Apex 的異常處理

Apex 中的異常處理在 Apex 中，和其他語言類似，對於異常處理通常使用 try、catch、finally、throw 等關鍵字。

【C++】vector的記憶體處理

技術標籤：c++演算法資料結構python人工智慧先上結論，對vector的記憶體處理需要兩步：

【TIPS】JS物件及方法——Date、replace、RegExp

技術標籤：Tipsjavascript 1. Date物件 Date物件用於處理日期和時間建立Date物件的語法：var myDate = new Date() 註釋：Date物件會自動把當前日期和時間儲存為其初始值。

【轉】PHP程序及程序間通訊

轉，原文：https://www.cnblogs.com/qixidi/p/10414689.html ----------------- 一、引言程序是一個具有獨立功能的程式關於某個資料集合的一次執行活動。換句話說就是，在系統排程多個cpu的時候，一個程式的基本單元

【bat】獲取windows批處理時間戳

技術標籤：bat 參考：獲取windows批處理時間戳精簡了部分無用程式碼建立1.bat，複製黏貼以下程式碼

【512】keras 中的核心網路層

參考：Layers » 核心網路層 1. Dense 1.1語法 keras.layers.Dense(units, activation=None, use_bias=True, kernel_initializer=\'glorot_uniform\', bias_initializer=\'zeros\', kernel_regularizer=None, bias_