keras one-hot編碼

阿新 • • 發佈：2018-11-30

本文主要介紹使用keras對資料進行one-hot編碼。

下面是示例程式碼：

import numpy as np

# 初始資料; 每個“樣本”一個條目
samples = ['The cat sat on the mat.', 'The dog ate my homework.']

# 首先，構建資料中所有token的索引
token_index = {}
for sample in samples:
    # 通過`split`方法對樣本進行標記。實際使用時還會從樣本中刪除標點符號和特殊字元。
    for word in sample.split():
        if word not in token_index:
            # 為每個唯一單詞指定唯一索引
            # 不將索引0賦值給任何單詞
            token_index[word] = len(token_index) + 1

# 接下來，對樣本進行向量化
# 只考慮每個樣本中的第一個'max_length'字
max_length = 10

# 用於儲存結果
results = np.zeros((len(samples), max_length, max(token_index.values()) + 1))
for i, sample in enumerate(samples):
    for j, word in list(enumerate(sample.split()))[:max_length]:
        index = token_index.get(word)
        results[i, j, index] = 1
print('==================================方式1=================================')
print(results)
# 字元級別的one-hot編碼
import string

samples = ['The cat sat on the mat.', 'The dog ate my homeword.']
characters = string.printable  # 所有可列印的ASCII字元
token_index = dict(zip(characters, range(1, len(characters) + 1)))

max_length = 50
results = np.zeros((len(samples), max_length, max(token_index.values()) + 1))
for i, sample in enumerate(samples):
    for j, character in enumerate(sample[: max_length]):
        index = token_index.get(character)
        results[i, j, index] = 1
print('==================================方式2=================================')
print(results)
# Keras具有內建實用程式，用於從原始文字資料開始在單詞級別或字元級別執行單熱編碼文字。
# 這是實際使用的內容，因為它將處理許多重要的功能，例如從字串中刪除特殊字元，或者只接受資料集中的前N個最常用的單詞（避免處理的常見限制） 非常大的輸入向量空間）。

# 使用Keras進行字元級one-hot編碼
from keras.preprocessing.text import Tokenizer

samples = ['The cat sat on the mat.', 'The dog ate my homework.']

# 建立一個tokenizer，配置為只考慮前1000個最常用的單詞
tokenizer = Tokenizer(num_words=1000)

# 構建單詞索引
tokenizer.fit_on_texts(samples)

# 可以直接獲得一個熱門的one-hot表示。
# 請注意，支援除one-hot編碼之外的其他向量化模式！
one_hot_results = tokenizer.texts_to_matrix(samples, mode='binary')

# 恢復計算的單詞索引的方法
word_index = tokenizer.word_index
print('Found %s unique tokens.' % len(word_index))

'''
one-hot編碼的變體是所謂的“one-hot hashing trick”，可以在詞彙表中的唯一標記數量太大而無法明確處理時使用。不是明確地為每個單詞分配索引並在字典
中保持這些索引的引用，而是可以將單詞雜湊為固定大小的向量。這通常使用非常輕量級的雜湊函式來完成。
這種方法的主要優點是它不需要維護一個明確的單詞索引，這可以節省記憶體並允許資料的線上編碼（在看到所有可用資料之前立即開始生成令牌向量）。
這種方法的一個缺點是容易受到“雜湊衝突”的影響：兩個不同的詞可能會以相同的雜湊結束，隨後任何檢視這些雜湊的機器學習模型都無法區分這些詞之間的區別。
當雜湊空間的維度遠大於被雜湊的唯一標記的總數時，雜湊衝突的可能性降低。
'''
# 帶雜湊技巧的one-hot編碼
samples = ['The cat sat on the mat.', 'The dog ate my homework.']
# 如果有接近1000個單詞（或更多），您將開始看到許多雜湊衝突，這將降低此編碼方法的準確性。
# 維度 = 1000
dimensionality = 1000
max_length = 10

results = np.zeros((len(samples), max_length, dimensionality))
for i, sample in enumerate(samples):
    for j, word in list(enumerate(sample.split()))[: max_length]:
        # 將單詞雜湊到一個介於0和1000之間的“隨機”整數索引
        index = abs(hash(word)) % dimensionality
        results[i, j, index] = 1.
print('==================================方式3=================================')
print(results)

輸出結果：

==================================方式1=================================
[[[0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]

 [[0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]]
==================================方式2=================================
[[[0. 0. 0. ... 0. 0. 0.]
  [0. 0. 0. ... 0. 0. 0.]
  [0. 0. 0. ... 0. 0. 0.]
  ...
  [0. 0. 0. ... 0. 0. 0.]
  [0. 0. 0. ... 0. 0. 0.]
  [0. 0. 0. ... 0. 0. 0.]]

 [[0. 0. 0. ... 0. 0. 0.]
  [0. 0. 0. ... 0. 0. 0.]
  [0. 0. 0. ... 0. 0. 0.]
  ...
  [0. 0. 0. ... 0. 0. 0.]
  [0. 0. 0. ... 0. 0. 0.]
  [0. 0. 0. ... 0. 0. 0.]]]
D:\Users\Seavan_CC\Anaconda3\lib\site-packages\h5py\__init__.py:34: FutureWarning: Conversion of the second argument of issubdtype from `float` to `np.floating` is deprecated. In future, it will be treated as `np.float64 == np.dtype(float).type`.
  from ._conv import register_converters as _register_converters
Using TensorFlow backend.
Found 9 unique tokens.
==================================方式3=================================
[[[0. 0. 0. ... 0. 0. 0.]
  [0. 0. 0. ... 0. 0. 0.]
  [0. 0. 0. ... 0. 0. 0.]
  ...
  [0. 0. 0. ... 0. 0. 0.]
  [0. 0. 0. ... 0. 0. 0.]
  [0. 0. 0. ... 0. 0. 0.]]

 [[0. 0. 0. ... 0. 0. 0.]
  [0. 0. 0. ... 0. 0. 0.]
  [0. 0. 0. ... 0. 0. 0.]
  ...
  [0. 0. 0. ... 0. 0. 0.]
  [0. 0. 0. ... 0. 0. 0.]
  [0. 0. 0. ... 0. 0. 0.]]]

keras one-hot編碼

本文主要介紹使用keras對資料進行one-hot編碼。下面是示例程式碼： import numpy as np # 初始資料; 每個“樣本”一個條目 samples = ['The cat sat on the mat.', 'The dog ate my homework.'] #

字元級或單詞級的one-hot編碼 VS 詞嵌入（keras實現）

1. one-hot編碼 # 字符集的one-hot編碼 import string samples = ['zzh is a pig','he loves himself very much','pig pig han'] characters

對one hot 編碼的理解，sklearn. preprocessing.OneHotEncoder()如何進行fit()的？

查閱了很多資料，逐漸知道了one hot 的編碼，但是始終沒理解sklearn. preprocessing.OneHotEncoder()如何進行fit()的？自己琢磨了一下，後來終於明白是怎麼回事了。先看one hot 的編碼的理解：引用至：https://blog.csdn.net/wy250229

Python中使用pandas.get_dummies()生成one-hot編碼標籤

one-hot編碼是監督學習中經常對標籤處理的一種方式。假設我們有一組標籤： import numpy as np import pandas as pd labels = np.array(['Cat', 'Dog', 'Dog', 'Cat', 'Bird', 'Fish'])

pandas使用get_dummies進行one-hot編碼

一、對資料進行編碼分兩種情況 1、原始資料的離散特徵取值之間沒有大小關係，直接進行編碼即可，比如週一週二， 2、原始資料有大小關係，比如成績分數之類的，直接進行數值對映即可第一種情況，不進行數值對映，直接進行one-hot編碼程式碼如下： import pa

pandas的get_dummies進行one-hot編碼

pandas.get_dummies(data, prefix=None, prefix_sep=’_’, dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None) 說下常用引數 data:的話就是我們

python numpy陣列和one-hot編碼相互轉換

import numpy as np from keras.utils import to_categorical data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 7] data

pandas進行one-hot編碼

1.讀取資料本文采用的是美國成年人收入的資料集 import pandas as pd from IPython.display import display data = pd.read_csv( adult_path, header=None, index

python實現基於單詞級one-hot編碼和字元級的one-hot編碼

one-hot編碼是將標記轉換為向量的最常用、最基本的方法。它將每個單詞與一個唯一的整數索引相關聯，然後將這個整數索引 i 轉換為長度為N的二進位制向量（N是詞表大小），這個向量只有第i個元素是1，其餘元素都為0. 單詞級的one-hot編碼 import numpy

one hot 編碼及資料歸一化

問題由來在很多機器學習任務中，特徵並不總是連續值，而有可能是分類值。例如，考慮一下的三個特徵： ["male", "female"] ["from Europe", "from US", "from Asia"] ["uses Firefox", "uses Chrome", "uses

詳細詳解One Hot編碼-附程式碼

機器學習演算法無法直接用於資料分類。資料分類必須轉換為數字才能進一步進行。在本教程中，你將發現如何將輸入或輸出的序列資料轉換為一種熱編碼，以便於你在Python中深度學習的序列分類問題中使用。本教程分為4部分： 1.什麼是One-Hot編碼？ 2.手動編寫One-Hot編碼 3.One

分類時為什麼都選擇one hot編碼

這裡可以做一個思考啊，分類時，一般都會選擇把類別用one hot進行編碼，比如共有5個類，那麼就有5個編碼[1 0 0 0 0][0 1 0 0 0][0 0 1 1 1][0 0 0 1 0][0 0 0 0 1]這是為什麼呢？為什麼不直接用1,2,3,4,5來表示5個類別

大神手把手教你：(Python)序列資料的One Hot編碼

原文連結機器學習演算法無法直接用於資料分類。資料分類必須轉換為數字才能進一步進行。在本教程中，你將發現如何將輸入或輸出的序列資料轉換為一種熱編碼，以便於你在Python中深度學習的序列分類問題中使用。看完本教程後，你將會了解： · 1.什麼是整

Python: 進行one-hot編碼

在機器學習中，one-hot編碼是對分類特徵進行預處理的常用手段。本篇部落格講解了如何利用sklearn來進行one-hot編碼。舉一個簡單的例子： >> from sklearn.preprocessing import OneHotEncoder >

One-Hot編碼(轉)

例子類變量標記完整 lec rep 離散 transform 數字化前言 —————————————&m

one-hot編碼理解

tps bsp 其他相互來源順序 clas class str one-hot是比較常用的文本特征特征提取的方法。 one-hot編碼，又稱“獨熱編碼”。其實就是用N位狀態寄存器編碼N個狀態，每個狀態都有獨立的寄存器位，且這些寄存器位中只有一

資料預處理之獨熱編碼（One-Hot）：為什麼要使用one-hot編碼？

一、問題由來最近在做ctr預估的實驗時，還沒思考過為何資料處理的時候要先進行one-hot編碼，於是整理學習如下：在很多機器學習任務如ctr預估任務中，特徵不全是連續值，而有可能是分類值。如下：　　　　分類變數（定量特徵）與連續變數（定性特徵）。我們訓練模型的變數，一般分為兩種形式。以廣告

獨熱（one-hot）編碼的tensorflow實現

一、獨熱編碼獨熱編碼，又稱一位有效碼，用序列化的數字（只有0和1）表達特徵。主要思路是使用N位數字對N種情況進行編碼。舉個例子，對[0,1,2,3]分別進行編碼。由於有4種情況，序列的長度為4，對應數字的位置1，其餘置0。所以： [1,0,0,0] [0,1,0,0] [

系統學習機器學習之特徵工程（二）--離散型特徵編碼方式：LabelEncoder、one-hot與啞變數*

轉自：https://www.cnblogs.com/lianyingteng/p/7792693.html 在機器學習問題中，我們通過訓練資料集學習得到的其實就是一組模型的引數，然後通過學習得到的引數確定模型的表示，最後用這個模型再去進行我們後續的預測分類等工作。在模型訓練過程中，我們會對訓練

one-hot-encode編碼方式

有時特徵內容並不是數值，而是字串型別。如果直接將字串轉成一個對應的數值，造成原本的特徵具有大小關係。這是需要使用 one-hot-encode編碼格式。兩種轉化方式： pandas.get_dummies()：常用方法，功能強大，操作簡單； sklearn.preprocessing.On

keras one-hot編碼

相關推薦