Keras文字預處理詳解

阿新 • • 發佈：2020-08-07

彙總

Tokenizer分詞器（類）

Tokenizer.fit_on_texts分詞器方法：實現分詞

Tokenizer.texts_to_sequences分詞器方法：輸出向量序列

pad_sequences進行padding

具體示例和程式碼分析

分詞器分詞和向量化

主要的類是Tokenizer，用到其中的一些方法將文字轉換為序列。需要注意的是這個類的一些預設方法

filters：預設會過濾一些標點符號，標點符號和單詞之間沒有空格也沒關係。內部程式碼是先把標點符號替換為空格，然後進行分詞，所以的這樣的："eat!Some"也可以正確識別
lower=True：預設會轉為小寫
split=" "：預設是空格

這些方法都已經實現，所以在可以不用自己寫，直接設定引數就行。另外兩個引數：

num_words：處理的最大單詞數量。
char_level: 預設False，如果是True，返回字元向量化結果（char embedding的時候可以用到）

還有就是注意必須先進行fit_on_texts方法，然後進行texts_to_sequences。fit_on_texts後有兩個有用的輸出：

word_counts：詞頻統計結果
word_index：詞和index的對應關係

texts_to_sequences輸出的是根據對應關係輸出的向量序列，是不定長的，跟句子的長度有關係。

from 
 keras.preprocessing.text import Tokenizer
text1='Some ThING to eat !'
text2='some thing to drink .'
texts=[text1,text2]
print(texts)
#out:['Some ThING to eat !', 'some thing to drink .']
tokenizer = Tokenizer(num_words=100) #num_words:None或整數,處理的最大單詞數量。少於此數的單詞丟掉
tokenizer.fit_on_texts(texts)
print( tokenizer.word_counts) 
 
#out:OrderedDict([('some', 2), ('thing', 2), ('to', 2), ('eat', 1), ('drink', 1)])
print( tokenizer.word_index) 
#out:{'some': 1, 'thing': 2, 'to': 3, 'eat': 4, 'drink': 5}
sequences = tokenizer.texts_to_sequences(texts)
word_index = tokenizer.word_index
print(sequences)
#out:[[1, 2, 3, 4], [1, 2, 3, 5]] 轉換為序列，注意這裡句子等長，所以輸出一樣，但是不等長句子輸出的長度是不一樣的
print('Found %s unique tokens.' % len(word_index))
#out:Found 5 unique tokens.

填充至等長

pad_sequences,對上面生成的不定長序列進行補全。可以手動設定每個句子的最大長度引數，大於這個長度截斷，小於這個長度填充。注意：預設補全和截斷都是在句子前面進行填充和截斷。這裡是用0進行填充，也就是空格，這也是為什麼上面序列index起始是1的原因。

#接上面的程式碼
SEQ_LEN = 10
data = pad_sequences(sequences, maxlen=SEQ_LEN)
print(data)
#out:[[0 0 0 0 0 0 1 2 3 4]
# [0 0 0 0 0 0 1 2 3 5]]

來自 https://zhuanlan.zhihu.com/p/55412623

Keras文字預處理詳解

彙總 Tokenizer分詞器（類） Tokenizer.fit_on_texts分詞器方法：實現分詞 Tokenizer.texts_to_sequences分詞器方法：輸出向量序列

關於Pytorch的MNIST資料集的預處理詳解

關於Pytorch的MNIST資料集的預處理詳解 MNIST的準確率達到99.7% 用於MNIST的卷積神經網路（CNN）的實現，具有各種技術，例如資料增強，丟失，偽隨機化等。

python資料預處理 :資料共線性處理詳解

何為共線性：共線性問題指的是輸入的自變數之間存在較高的線性相關度。共線性問題會導致迴歸模型的穩定性和準確性大大降低，另外，過多無關的維度計算也很浪費時間

Android Canvas的drawText()與文字居中方案詳解

自定義View是繪製文字有三類方法 // 第一類 public void drawText (String text,float x,float y,Paint paint)

Springboot實現高吞吐量非同步處理詳解(適用於高併發場景)

技術要點 org.springframework.web.context.request.async.DeferredResult<T> 示例如下： 1. 新建Maven專案 async

SQL Server中通用資料庫角色許可權的處理詳解

前言安全性是所有資料庫管理系統的一個重要特徵。理解安全性問題是理解資料庫管理系統安全性機制的前提。

pytorch中的自定義資料處理詳解

pytorch在資料中採用Dataset的資料儲存方式，需要繼承data.Dataset類，如果需要自己處理資料的話，需要實現兩個基本方法。

python 多程序佇列資料處理詳解

我就廢話不多說了，直接上程式碼吧！ # -*- coding:utf8 -*- import paho.mqtt.client as mqtt

.dcm格式檔案軟體讀取及python處理詳解

要處理一些.DCM格式的焊接缺陷影象，需要讀取和顯示.dcm格式的影象。通過蒐集資料收集到一些醫學影像，並通過pydicom模組檢視.dcm格式檔案。

Python3使用騰訊雲文字識別(騰訊OCR)提取圖片中的文字內容例項詳解

百度OCR體驗地址： https://ai.baidu.com/tech/imagerecognition/general 騰訊OCR體驗地址： https://cloud.tencent.com/act/event/ocrdemo

Keras 使用 Lambda層詳解

我就廢話不多說了，大家還是直接看程式碼吧！ from tensorflow.python.keras.models import Sequential,Model

Django REST 異常處理詳解

異常異常處理…允許錯誤處理在程式結構的中心或者高層級的地方被清晰有條理的組織起來。

BAT批處理中的字串處理詳解(字串擷取)

批處理有著具有非常強大的字串處理能力，其功能絕不低於C語言裡面的字串函式集。批處理中可實現的字串處理功能有：擷取字串內容、替換字串特定欄位、合併字串、擴充字串等功能

Java 新增、刪除、替換、格式化Word中的文字的步驟詳解（基於Spire.Cloud.SDK for Java）

Spire.Cloud.SDK for Java提供了TextRangesApi介面可通過addTextRange()新增文字、deleteTextRange()刪除文字、updateTextRangeText()替換文字、updateTextRangeFormat()格式化文字等。本文將從以上方法介紹如何來實