BEYOND ONE-HOT: AN EXPLORATION OF CATEGORICAL VARIABLES

阿新 • • 發佈：2018-12-14

categorical-encoding庫

專案地址：https://github.com/scikit-learn-contrib/categorical-encoding

Star：494

Fork：115

這個庫擴充套件了很多實現 scikit-learn 資料轉換器介面的分類編碼方法，並實現了常見的分類編碼方法，例如單熱編碼和雜湊編碼，也有更利基的編碼方法，如基本編碼和目標編碼。這個庫對於處理現實世界的分類變數來說很有用，比如那些具有高基數的變數。這個庫還可以直接與 pandas 一起使用，用於計算缺失值，以及處理訓練集之外的變換值。

encoder = ce.BinaryEncoder(cols=[...])

在這篇文章中有一個概念出現，那就是維度的概念。簡單來說，它只是資料集中的列數，但它對最終模型具有顯著的下游影響。在極端情況下，“維度詛咒”的概念討論了在高維空間中，有些東西會停止正常工作。即使在相對較低的維度問題中，具有更多維度的資料集也需要更多引數供模型理解，這意味著需要更多樣本（就是更多行）來可靠地學習這些引數。如果資料集中的行數是固定的，則新增額外的維度而不新增更多的資訊（更多的樣本資料）到模型裡，會對最終的模型精度產生不利影響。

我們希望將分類變數編碼為數字，但我們關注這個維度問題。顯而易見的答案是隻為每個類別分配一個整數（我們假設我們事先了解所有可能的類別）。這稱為序數編碼。它不會為問題新增任何維度，但是這種編碼不會顯示變數之間有序的意義。

這篇文章的作者採用了7種編碼方式對3個常見的資料集進行了測試和評估，結果如下圖：

可以很清楚的看到，二進位制編碼表現良好，而且維度沒有顯著增加，而序數表現一直很差。

二進位制編碼概念：首先將類別編碼為序數，然後將這些整數轉換為二進位制程式碼，然後將該二進位制字串中的數字拆分為單獨的列。這樣可以將資料編碼為較少的維度，但距離會有一些失真。

python程式碼嘗試：

BEYOND ONE-HOT: AN EXPLORATION OF CATEGORICAL VARIABLES

BEYOND ONE-HOT: AN EXPLORATION OF CATEGORICAL VARIABLES

Convolution: An Exploration of a Familiar Operator’s Deeper Roots

Convolution: An Exploration of a Familiar Operator's Deeper Roots

See Robot Play: an exploration of curiosity in humans and machines.

An Exploration of Large Model Support in PowerAI IBM Caffe

Tales of an exploration on antigravity and other potentialy unrelated matters

One Millisecond Face alignment with an Ensemble of Regression Trees

【論文筆記】One Millisecond Face Alignment with an Ensemble of Regression Trees

未完成 Given an array of strings, return all groups of strings that are anagrams.

[譯]深度神經網絡的多任務學習概覽(An Overview of Multi-task Learning in Deep Neural Networks)

數據處理——One-Hot Encoding

An Example of SignalR

scrapy+mongodb報錯 TypeError: name must be an instance of str

131.003 數據預處理之Dummy Variable & One-Hot Encoding

An Analysis of Scale Invariance in Object Detection – SNIP 論文解讀

獨熱（one-hot）編碼的tensorflow實現

【R】no applicable method for 'xml_find_all' applied to an object of class "xml_document"

多分類標籤label 轉換為 one-hot形式的二進位制標籤：

Given an array of integers that is already sorted in ascending order, find two numbers such that the

對one hot 編碼的理解，sklearn. preprocessing.OneHotEncoder()如何進行fit()的？

BEYOND ONE-HOT: AN EXPLORATION OF CATEGORICAL VARIABLES

相關推薦