ML Day1資料預處理

阿新 • • 發佈：2019-01-11

機器學習100天，每天進步一點點。跟著GitHub開始學習！

英文專案地址https://github.com/Avik-Jain/100-Days-Of-ML-Code

中文專案地址https://github.com/MLEveryday/100-Days-Of-ML-Code

1 匯入相應的庫

import numpy as np  #包含數學計算函式
import pandas as pd  #用於匯入和管理資料集

2 匯入資料集

dataset = pd.read_csv('../datasets/Data.csv')
X = dataset.iloc[ : , :-1].values  #iloc是取矩陣的某行某列，第一個冒號是所有行，第二個是除了最後一列的所有列
Y = dataset.iloc[ : , 3].values  #取所有行，最後一列為依賴變數

3 處理丟失資料

對缺失值進行處理的一般思路是使用這一列資料的“平均數”，“中位數”或“眾數”來填充。

missing_values：遺失部分的資料用NaN的方式填補；

strategy：可選擇mean，median，most_frequent，分別代表平均數中間值最常出現的數值；

axis：傳0或者1，0代表處理列，1代表處理行。

from sklearn.preprocessing import Imputer  #Imputer類對缺失資料進行處理
imputer = Imputer(missing_values = "NaN", strategy = "mean", axis = 0)  #用特徵列的均值替換缺失值
imputer = imputer.fit(X[ : , 1:3])  #用資料擬合X的前兩列
X[ : , 1:3] = imputer.transform(X[ : , 1:3])

4 解析分類資料

像Country和Purchased這兩列資料，其實質是分類，而不是數值大小，使用虛擬編碼對其進行處理。

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder_X = LabelEncoder()  #LabelEncoder可將標籤分配一個0——n_class-1之間的編碼
X[ : , 0] = labelencoder_X.fit_transform(X[ : , 0])  #擬合與轉化所有行第0列
#Creating a dummy variable
onehotencoder = OneHotEncoder(categorical_features = [0])  #第0列進行獨熱編碼
X = onehotencoder.fit_transform(X).toarray()  #不加toarray()的話，輸出稀疏的儲存格式
labelencoder_Y = LabelEncoder()
Y =  labelencoder_Y.fit_transform(Y)

5 拆分資料集為訓練集和測試集

from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split( X , Y , test_size = 0.2, random_state = 0)  #訓練集與測試集的比例一般為4:1

6 特徵縮放

為了防止數值較大的自變數對數值較小的自變數的影響，或是為了在演算法中使得收斂速度更快進行特徵縮放。特徵縮放有兩種方法（標準化和正常化）：

from sklearn.preprocessing import StandardScaler 
sc_X = StandardScaler()  #針對某一特徵維度進行標準化，經處理後的資料符合標準正態分佈，均值為0，標準差為1
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)

ML Day1資料預處理

機器學習100天，每天進步一點點。跟著GitHub開始學習！英文專案地址https://github.com/Avik-Jain/100-Days-Of-ML-Code 中文專案地址https://github.com/MLEveryday/100-Days-Of-ML-Code 1

100天專案 Day1 資料預處理

拿到資料後，正常遇到的問題可能有以下：資料中含有空值：需要對空值做處理資料有非數值型維度，需要轉換為資料維度，且分成多個虛擬欄位資料值範圍太大，可以對數轉化等標準化處理主要程式碼註釋和資料如下：遇到的問題主要是import sklearn.mode

ML - 貸款使用者逾期情況分析2 - 特徵工程1（資料預處理）

文章目錄資料預處理 (判定貸款使用者是否逾期) 1. 刪除無用特徵 2. 資料格式化 - X_date 3. 資料處理 - 類別特徵 X_cate 4. 資料處理 - 其他非數值型特徵 5. 資料處理 - 數值型特徵

One_Hot資料預處理

在很多機器學習任務中，特徵並不總是連續值，而有可能是分類值資料預處理之One-Hot 0.說在前面 1.什麼是One_Hot? 2.One

字串型別資料預處理的一個簡單小方法

今天開始試著去做kaggle上的入門競賽House Prices，因為資料集有81列，即81個特徵，一列一列處理資料很頭疼，於是想自己寫幾個方法先寫了一個簡單的，可以自動把字串型別的特徵按數字順序編碼，如果資料中含有NAN或空元素就填入0，方便之後的處理寫出來之後發現執行效率很低，處理一

【ADNI】資料預處理（6）ADNI_slice_dataloader ||| show image

ADNI Series 1、【ADNI】資料預處理（1）SPM，CAT12 2、【ADNI】資料預處理（2）獲取 subject slices 3、【ADNI】資料預處理（3）CNNs 4、【ADNI】資料預處理（4）Get top k slices according to CNN

【ADNI】資料預處理（5）Get top k slices (pMCI_sMCI) according to CNNs

【ADNI】資料預處理（4）Get top k slices according to CNNs

【ADNI】資料預處理（3）CNNs

【ADNI】資料預處理（2）獲取 subject slices

【ADNI】資料預處理（1）SPM，CAT12

Intel daal資料預處理

https://software.intel.com/en-us/daal-programming-guide-datasource-featureextraction-py # file: datasource_featureextraction.py #==============

資料預處理——標準化、歸一化、正則化

三者都是對資料進行預處理的方式，目的都是為了讓資料便於計算或者獲得更加泛化的結果，但是不改變問題的本質。標準化（Standardization）歸一化（normalization）正則化（regularization）歸一化我們在對資料進行分析的時候，往往會遇到單個數據的各個維度量綱不同的

資料預處理案例

最近在做資料處理的一些事情，寫一下自己的一些處理方式，可能會比較low，我這份資料是關於售賣房屋的方面的資料：從資料庫轉存的csv檔案，有三百多列，也就是有300多個特徵，並且資料的缺失值特別嚴重，拿到這樣一份殘缺不全的資料我也是很苦惱，先看一下我的處理方式，我進行資料處理用的是pa

sklearn preprocessing 資料預處理 OneHotEncoder

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

機器學習一：資料預處理

最近一直在學習機器學習的知識，入門很難。之前跟著吳恩達老師的視訊在學習，發現還是有很多的知識點難以理解。前不久，《機器學習A-Z》出了中文翻譯，老師講的非常淺顯易懂，所以開始跟著學起來了。為了能更系統的整理到學的知識進行一個整理，也作為一個自我監督，接下來就把較為系統的知識點都整理到部落格上。相應的程式碼

3行程式碼，Python資料預處理提速6倍！

來源：towardsdatascience 作者：George Seif 編輯：肖琴讓CPU核心物盡其用！本文介紹了僅需3行程式碼，將Python資料處理速度提升2~6倍的簡單方法。 Python是所有機器學習的首選程式語言。它易於使用，並擁有許多很棒的庫，可以輕鬆地處

Python機器學習之資料預處理

# -*- coding: utf-8 -*- """ Created on Sat Sep 29 22:39:26 2018 @author: Lxiao217 email:[email protected] """ #資料預處理 #CSV(comma-srpared values,

Next generation sequencing (NGS)二代測序資料預處理與分析

Next generation sequencing (NGS)二代測序資料預處理與分析 By zilhua | 2014 年 3 月 12 日 0 Comment 常使用的工具列表質量控制Quality Co

資料預處理的四種方式

資料預處理調整資料尺寸讓所有的屬性按照相同的尺度來度量資料；梯度下降演算法神經網路 SVM 迴歸演算法 K 近鄰演算法 # 調整資料尺度（0..） import pandas as pd import numpy as np f

ML Day1資料預處理

1 匯入相應的庫

2 匯入資料集

3 處理丟失資料

4 解析分類資料

5 拆分資料集為訓練集和測試集

6 特徵縮放

相關推薦