【scikit-learn】3、特徵提取

阿新 • • 發佈：2021-04-23

從類別變數中提取特徵

DictVectorizer 類是一個可以對類別特徵進行one-hot編碼的轉換器

from sklearn.feature_extraction import DictVectorizer
onehot_encoder = DictVectorizer()

X = [
    {'city': 'New York'},
    {'city': 'San Francisco'},
    {'city': 'Chapel Hill'}
]

print(onehot_encoder.fit_transform(X).toarray())

特徵標準化

標準化資料有零平均值和單位方差。零平均值解釋變數相對於原點居中。

當特徵向量所有特徵的方差處於相同量級，則擁有單位方差。

如果一個特徵的方差和其他特徵的方差相差太大的數量級，該特徵會控制學習演算法，阻止演算法從其他變數中學習。

preprocessing模組中的scale也可以用於單獨對資料集的任何軸進行任何標準化

from sklearn import preprocessing
import numpy as np
X = np.array([
    [0., 0., 5., 13., 9., 1.],
    [0., 0., 13., 15., 10., 15.],
    [0., 3., 15., 2., 0., 11.]
])
print(preprocessing. 
scale(X))

豎著標準化

[[ 0.         -0.70710678 -1.38873015  0.52489066  0.59299945 -1.35873244]
 [ 0.         -0.70710678  0.46291005  0.87481777  0.81537425  1.01904933]
 [ 0.          1.41421356  0.9258201  -1.39970842 -1.4083737   0.33968311]]

從文字中提取特徵

詞帶模型

詞帶模型不會編碼任何文字句法，同時忽視單詞的順序，忽略所有的語法。

詞帶模型模型可以被看作是one-hot編碼的一種擴充套件，它會對文字中關注的每一個單詞建立一個特徵。

組成一個特徵向量的元素數量稱為向量的維度。

預設情況下，CountVectorizer 把文件中的字元轉換為小寫，並對文件進行詞彙劃分。詞彙劃分是一個將字串切分為標誌或者有意義的字元序列的過程。

CountVectorizer 使用一個正則表示式將字串用空格分開，並提取長度大於等於兩個字元的字元序列進行切分。

corpus = [
    'UNC played Duke in basketball',
    'Duke lost the basketball game',
]

from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
print(vectorizer.fit_transform(corpus).todense())
print(vectorizer.vocabulary_)

corpus.append('I ate a sandwich')
print(vectorizer.fit_transform(corpus).todense())
print(vectorizer.vocabulary_)

[[1 1 0 1 0 1 0 1]
 [1 1 1 0 1 0 1 0]]
{'unc': 7, 'played': 5, 'duke': 1, 'in': 3, 'basketball': 0, 'lost': 4, 'the': 6, 'game': 2}
[[0 1 1 0 1 0 1 0 0 1]
 [0 1 1 1 0 1 0 0 1 0]
 [1 0 0 0 0 0 0 1 0 0]]
{'unc': 9, 'played': 6, 'duke': 2, 'in': 4, 'basketball': 1, 'lost': 5, 'the': 8, 'game': 3, 'ate': 0, 'sandwich': 7}

我們使用歐幾里得距離來衡量不同特徵向量的差異性，等於兩個向量差值的歐幾里得範數
在這裡插入圖片描述

vectorizer.fit_transform(corpus).todense()
from sklearn.metrics.pairwise import euclidean_distances
X = vectorizer.fit_transform(corpus).todense()
print(euclidean_distances(X[0], X[1]))
print(euclidean_distances(X[0], X[2]))
print(euclidean_distances(X[1], X[2]))

[[2.44948974]]
[[2.64575131]]
[[2.64575131]]

維度詛咒：
1、高緯度向量需要更多的記憶體和計算能力
2、模型需要更多的訓練資料以確保有足夠多由特徵值組成的訓練例項

【scikit-learn】3、特徵提取

從類別變數中提取特徵 DictVectorizer 類是一個可以對類別特徵進行one-hot編碼的轉換器

scikit-learn機器學習筆記——特徵提取、特徵處理

技術標籤：scikit-learn機器學習機器學習scikit-learn scikit-learn機器學習筆記——特徵提取、特徵處理

【Spring Framework】3、Hello Spring

https://www.bilibili.com/video/BV1WE411d7Dv?t=334&p=5 1、第一個Spring程式 1、建立Maven專案

【JavaSE】3、方法

1.何謂方法方法：解決一類問題的步驟的有序組合，包含於類或物件中；方法在程式中被建立，在其他地方被引用。

【Stanford - Speech and Language Processing 讀書筆記】3、N-gram Language Models

介紹n-gram模型 1、Introduction 語言模型：為一個序列的詞分配概率——從前幾個詞預測後面可能出現的詞

【元素幻境系列攻略】-3、元素幻境大地圖及解析

前兩篇分享了元素幻境的主介面、各項獎勵的安排以及各事件的解析。可參考一下兩篇攻略：

【Scikit-Learn 中文文件】多類和多標籤演算法 - 監督學習 - 使用者指南 | ApacheCN

中文文件: http://sklearn.apachecn.org/cn/stable/modules/multiclass.html 英文文件: http://sklearn.apachecn.org/en/stable/modules/multiclass.html

【Scikit-Learn 中文文件】新異類和異常值檢測 - 無監督學習 - 使用者指南 | ApacheCN

中文文件: http://sklearn.apachecn.org/cn/stable/modules/outlier_detection.html 英文文件: http://sklearn.apachecn.org/en/stable/modules/outlier_detection.html

【遙感入門系列】3、遙感電磁輻射與遙感過程

遙感電磁輻射是比較難理解也是非常重要的內容，對於一般學習遙感專業的人來說，只需要學習個大概，這個大概主要包括你需要理解幾個概念以及能從電磁輻射原理上解釋一些遙感現象，進而為遙感過程的理解打下一個基礎，

【重溫mysql】6、InnoDB 加鎖分析

InnoDB 為了保證併發能力，採取行級加鎖策略。為了實現事務的隔離級別，InnoDB 中又引入了各種不同的行級鎖機制。不同的加鎖順序、加鎖型別、鎖的多少以及影響範圍將直接影響到整個事務執行效率與執行時間直接影響 M

【重溫mysql】7、死鎖與innodb狀態日誌

InnoDB 採取行級加鎖策略，雖然行級加鎖策略極大提高了程式的併發效能，但由於鎖粒度的減小 InnoDB 執行某些操作的時候可能會同時佔用多個行鎖，加大了鎖衝突的概率；不同事務隔離級別對資料一致性要求不同，如RR級別

【重溫mysql】1、連線池

在我們日常的開發中，會經常與資料庫打交道。對於 java 開發者來說，經常會使用jdbc來與資料庫進行互動。我們可能會看到這樣的程式碼：

【重溫msql】2、一條 sql 在 MySQL 中是如何執行的？

我們的程式通過連線池向 MySQL 傳送了一條sql語句，MySQL 就按照要求給我們返回了正確的結果，有時我們不免好奇，這個過程中究竟發生了什麼？它是如何工作的？有什麼方法可以加速我們的查詢？需要解答這些疑問，首先

【重溫mysql】4、事務

什麼是事務？事務指的是當 DML 資料修改語句提交給資料庫後，要麼資料全部成功寫入、如若其中某項操作失敗則所有資料全部回滾到修改前狀態的機制。資料庫通過事務保證資料的完整性、一致性。

【SQL server】建立、修改、刪除資料庫及其相關檔案

參考資料：愛課程·資源共享課 ·大型資料庫 use master --建立新資料庫時，要設定master為可用資料庫，即使用master

【併發程式設計】3.執行緒與執行緒池

一、執行緒 1.執行緒與程序參考深入理解計算機系統中的概念為了解決CPU與儲存器之間的速度差異，來最大化利用CPU的效能而提出的概念

【Git學習】——安裝、建立版本庫

Git是一個開源的分散式版本控制系統，利用Git可以方便的管理我們的檔案。一、安裝

【開源專案】一、最美的Vue+Element開源後臺管理UI

作者：EuiAdmin 原文：http://suo.im/5AkUrQ 前言： EuiAdmin是基於Vue+Element等元件聯合開發的一個免費的開源後臺，你可以通過（euiadmin.com）進行下載和體驗，此後臺免費開源，你可以直接可以免費使用

【Prometheus專題】3. Prometheus監控元件的配置

prometheus監控元件的配置的自由度並不是很高，也有一定得規範，總的還說還是中規中矩

【推薦系統】3.深入理解PNN模型--加入Product層【轉】

參考：https://blog.csdn.net/Blank_spaces/article/details/107479246 前言本次分享一篇2016年提出的模型PNN（Product-based Neural Networks for User Response Prediction）。本文的主要創新點是在Embedding與M

【scikit-learn】3、特徵提取

從類別變數中提取特徵

特徵標準化

從文字中提取特徵

詞帶模型

相關推薦