字元級或單詞級的one-hot編碼 VS 詞嵌入（keras實現）

阿新 • • 發佈：2018-11-16

1. one-hot編碼

# 字符集的one-hot編碼
import string

samples = ['zzh is a pig','he loves himself very much','pig pig han']
characters = string.printable
token_index = dict(zip(range(1,len(characters)+1),characters))

max_length =20
results = np.zeros((len(samples),max_length,max(token_index.keys()) + 1))
 
for i,sample in enumerate(sample):
    for j,character in enumerate(sample):
        index = token_index.get(character)
        results[i,j,index] = 1
results

characters= '0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVW

XYZ!"#$%&\'()*+,-./:;<=>[email protected]

[\\]^_`{|}~ \t\n\r\x0b\x0c'

# keras實現單詞級的one-hot編碼
from keras.preprocessing.text import Tokenizer
samples = ['zzh is a pig','he loves himself very much','pig pig han']

tokenizer = Tokenizer(num_words = 100)
#建立一個分詞器(tokenizer),設定為只考慮前1000個最常見的單詞
tokenizer.fit_on_texts(samples)# 
構建單詞索引

sequences = tokenizer.texts_to_sequences(samples)

one_hot_results = tokenizer.texts_to_matrix(samples,mode='binary')

# one_hot_results.shape --> (3, 100)

word_index = tokenizer.word_index
print('發現%s個unique標記',len(word_index))

sequences = [[2, 3, 4, 1], 
[5, 6, 7, 8, 9, 10],
 [1, 1, 11]]

發現10個unique標記

word_index =

{'pig': 1, 'zzh': 2, 'is': 3, 'a': 4, 'he': 5, 
'loves': 6,'himself': 7, 'very': 8, 'much': 9,
 'han': 10}

one-hot 編碼的一種辦法是 one-hot雜湊技巧（one-hot hashing trick）

如果詞表中唯一標記的數量太大而無法直接處理，就可以使用這種技巧。

這種方法沒有為每個單詞顯示的分配一個索引並將這些索引儲存在一個字典中，而是將單詞雜湊編碼為固定長度的向量，通常用一個非常簡單的雜湊函式來實現。

優點:節省記憶體並允許資料的線上編碼（讀取完所有資料之前，你就可以立刻生成標記向量）

缺點:可能會出現雜湊衝突

如果雜湊空間的維度遠大於需要雜湊的唯一標記的個數，雜湊衝突的可能性會減小

import numpy as np

samples = ['the cat sat on the mat the cat sat on the mat the cat sat on the mat','the dog ate my homowork']
dimensionality = 1000#將單詞儲存為1000維的向量
max_length = 10

results = np.zeros((len(samples),max_length,dimensionality))
for i,sample in enumerate(samples):
    for j,word in list(enumerate(sample.split()))[:max_length]:
        index = abs(hash(word)) % dimensionality
        results[i,j,index] = 1

2. 詞嵌入

字元級或單詞級的one-hot編碼 VS 詞嵌入（keras實現）

1. one-hot編碼 # 字符集的one-hot編碼 import string samples = ['zzh is a pig','he loves himself very much','pig pig han'] characters

JS實現五筆編碼查詢對應index（nodejs實現）

題目：假定一種編碼的編碼範圍是a ~ y的25個字母，從1位到4位的編碼，如果我們把該編碼按字典序排序，形成一個數組如下： a, aa, aaa, aaaa, aaab, aaac, … …, b, ba, baa, baaa, baab, baac … …, yyyw, yyyx, yyyy

python實現基於單詞級one-hot編碼和字元級的one-hot編碼

one-hot編碼是將標記轉換為向量的最常用、最基本的方法。它將每個單詞與一個唯一的整數索引相關聯，然後將這個整數索引 i 轉換為長度為N的二進位制向量（N是詞表大小），這個向量只有第i個元素是1，其餘元素都為0. 單詞級的one-hot編碼 import numpy

對one hot 編碼的理解，sklearn. preprocessing.OneHotEncoder()如何進行fit()的？

查閱了很多資料，逐漸知道了one hot 的編碼，但是始終沒理解sklearn. preprocessing.OneHotEncoder()如何進行fit()的？自己琢磨了一下，後來終於明白是怎麼回事了。先看one hot 的編碼的理解：引用至：https://blog.csdn.net/wy250229

Python中使用pandas.get_dummies()生成one-hot編碼標籤

one-hot編碼是監督學習中經常對標籤處理的一種方式。假設我們有一組標籤： import numpy as np import pandas as pd labels = np.array(['Cat', 'Dog', 'Dog', 'Cat', 'Bird', 'Fish'])

keras one-hot編碼

本文主要介紹使用keras對資料進行one-hot編碼。下面是示例程式碼： import numpy as np # 初始資料; 每個“樣本”一個條目 samples = ['The cat sat on the mat.', 'The dog ate my homework.'] #

pandas使用get_dummies進行one-hot編碼

一、對資料進行編碼分兩種情況 1、原始資料的離散特徵取值之間沒有大小關係，直接進行編碼即可，比如週一週二， 2、原始資料有大小關係，比如成績分數之類的，直接進行數值對映即可第一種情況，不進行數值對映，直接進行one-hot編碼程式碼如下： import pa

pandas的get_dummies進行one-hot編碼

pandas.get_dummies(data, prefix=None, prefix_sep=’_’, dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None) 說下常用引數 data:的話就是我們

python numpy陣列和one-hot編碼相互轉換

import numpy as np from keras.utils import to_categorical data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 7] data

pandas進行one-hot編碼

1.讀取資料本文采用的是美國成年人收入的資料集 import pandas as pd from IPython.display import display data = pd.read_csv( adult_path, header=None, index

one hot 編碼及資料歸一化

問題由來在很多機器學習任務中，特徵並不總是連續值，而有可能是分類值。例如，考慮一下的三個特徵： ["male", "female"] ["from Europe", "from US", "from Asia"] ["uses Firefox", "uses Chrome", "uses

詳細詳解One Hot編碼-附程式碼

機器學習演算法無法直接用於資料分類。資料分類必須轉換為數字才能進一步進行。在本教程中，你將發現如何將輸入或輸出的序列資料轉換為一種熱編碼，以便於你在Python中深度學習的序列分類問題中使用。本教程分為4部分： 1.什麼是One-Hot編碼？ 2.手動編寫One-Hot編碼 3.One

分類時為什麼都選擇one hot編碼

這裡可以做一個思考啊，分類時，一般都會選擇把類別用one hot進行編碼，比如共有5個類，那麼就有5個編碼[1 0 0 0 0][0 1 0 0 0][0 0 1 1 1][0 0 0 1 0][0 0 0 0 1]這是為什麼呢？為什麼不直接用1,2,3,4,5來表示5個類別

大神手把手教你：(Python)序列資料的One Hot編碼

原文連結機器學習演算法無法直接用於資料分類。資料分類必須轉換為數字才能進一步進行。在本教程中，你將發現如何將輸入或輸出的序列資料轉換為一種熱編碼，以便於你在Python中深度學習的序列分類問題中使用。看完本教程後，你將會了解： · 1.什麼是整

Python: 進行one-hot編碼

在機器學習中，one-hot編碼是對分類特徵進行預處理的常用手段。本篇部落格講解了如何利用sklearn來進行one-hot編碼。舉一個簡單的例子： >> from sklearn.preprocessing import OneHotEncoder >

One-Hot編碼(轉)

例子類變量標記完整 lec rep 離散 transform 數字化前言 —————————————&m

one-hot編碼理解

tps bsp 其他相互來源順序 clas class str one-hot是比較常用的文本特征特征提取的方法。 one-hot編碼，又稱“獨熱編碼”。其實就是用N位狀態寄存器編碼N個狀態，每個狀態都有獨立的寄存器位，且這些寄存器位中只有一

資料預處理之獨熱編碼（One-Hot）：為什麼要使用one-hot編碼？

一、問題由來最近在做ctr預估的實驗時，還沒思考過為何資料處理的時候要先進行one-hot編碼，於是整理學習如下：在很多機器學習任務如ctr預估任務中，特徵不全是連續值，而有可能是分類值。如下：　　　　分類變數（定量特徵）與連續變數（定性特徵）。我們訓練模型的變數，一般分為兩種形式。以廣告

第二章作業題2-連結串列-計算機17級 7-3 jmu-ds-單鏈表的基本運算（15 分）

7-3 jmu-ds-單鏈表的基本運算（15 分）實現單鏈表的基本運算：初始化、插入、刪除、求表的長度、判空、釋放。（1）初始化單鏈表L，輸出L->next的值；（2）依次採用尾插法插入元素：輸入分兩行資料，第一行是尾插法需要插入的字元資料的個數，第二行是具體

編碼的秘密（python版）

默認字節數二進制格式 type eight 符號占用終端自己編碼（python版）最近在學習python的過程中，被不同的編碼搞得有點暈，於是看了前人的留下的文檔，加上自己的理解，準備寫下來，分享給正在為編碼苦苦了掙紮的你。編碼的概念編碼就是將信息從一

字元級或單詞級的one-hot編碼 VS 詞嵌入（keras實現）

one-hot 編碼的一種辦法是 one-hot雜湊技巧（one-hot hashing trick）

如果詞表中唯一標記的數量太大而無法直接處理，就可以使用這種技巧。

相關推薦