13-Pandas資料預處理之資料轉換（applymap()、df.map()、df.replace()）

阿新 • • 發佈：2020-08-01

　　在資料分析中，根據需求，有時候需要將一些資料進行轉換，而在Pandas中，實現資料轉換的常用方法有：

利用函式或是對映
可以將自己定義的或者是其他包提供的函式用在Pandas物件上實現批量修改。
applymap和map例項方法

　　在本節中，使用調查的某公司的員工資訊為例：

numeber_project：員工所在專案個數

left：該員工是否離職

salary：工資級別

>>> import pandas as pd
>>> import numpy as np
>>> data  = pd.read_csv('./input/HR.csv',encoding = 'gbk')
>>> data = data[['number_project','left','salary']]
>>> data.head()
   number_project  left  salary
0               2     1     low
1               5     1  medium
2               7     1  medium
3               5     1     low
4               2     1     low

　一、map()、replace()

（1）使用函式。例：將salary列的資料轉換成每個單詞的字母大寫：

>>> data['salary'].map(str.title)[:5]
0       Low
1    Medium
2    Medium
3       Low
4       Low
Name: salary, dtype: object

（2）使用對映關係的字典。例：對於left，生成一個指標標量indicator。若為‘YES’，表示left＝１，若為‘NO’，表示left=0（一般在資料處理時是將字元處理成0,1...n，在此時為了便於理解，故如此舉例）。

>>> mapper = {0:'NO',1:'YES'}
>>> data['left'] = data['left'].map(mapper)
>>> data.head()
   number_project left  salary
0               2  YES     Low
1               5  YES  Medium
2               7  YES  Medium
3               5  YES     Low
4               2  YES     Low

（3）重新命名索引---->通過map方法可以對行索引或是列名的Index物件進行修改（行索引和列明都是Index物件）

>>> data.columns
Index(['number_project', 'left', 'salary'], dtype='object')
>>> data.columns.map(str.upper)
Index(['NUMBER_PROJECT', 'LEFT', 'SALARY'], dtype='object')

（4）使用對映，若需要將資料按照一定的對映關係進行替換，使用replace()。多個值的替換可以用列表，少數的值可以用包含對映關係的字典字典。

例：將number_project的值2、3、4設定為less，5、6、7設定為More。

>>> data['number_project'] = data['number_project'].replace([2,3,4,5,6,7]，['Less','Less','Less','More','More','More'])
>>> data.head()
  number_project left  salary
0           Less  YES     Low
1           More  YES  Medium
2           More  YES  Medium
3           More  YES     Low
4           Less  YES     Low

　

13-Pandas資料預處理之資料轉換（applymap()、df.map()、df.replace()）

　　在資料分析中，根據需求，有時候需要將一些資料進行轉換，而在Pandas中，實現資料轉換的常用方法有：

13-Pandas資料預處理之資料轉換（啞變數編碼pd.get_dummies()）

說明：本片博文接上篇博文【 Pandas資料預處理之資料轉換（df.map()、df.replace()）】

資料預處理之資料不平衡問題

1.資料不平衡介紹　　資料不平衡，又稱樣本比例失衡。對於二分類問題，在正常情況下，正負樣本的比例應該是較為接近的，很多現有的分類模型也正是基於這一假設。但是在某些特定的場景下，正負樣本的比例卻可能

機器學習：資料預處理之獨熱編碼（One-Hot）

前言在機器學習演算法中，我們經常會遇到分類特徵，例如：人的性別有男女，祖國有中國，美國，法國等。這些特徵值並不是連續的，而是離散的，無序的。通常我們需要對其進行特徵數字化。

python資料預處理方式 :資料降維

資料為何要降維資料降維可以降低模型的計算量並減少模型執行時間、降低噪音變數資訊對於模型結果的影響、便於通過視覺化方式展示歸約後的維度資訊並減少資料儲存空間。因此，大多數情況下，當我們面臨高維資料時，都

資料預處理與轉存（Hive--Mysql）

一、資料預處理 1.1、在hdfs上新建目錄 java程式啟動前先在hdfs上建立相應資料夾，用於上傳本地資料和處理後的資料

Alink漫談(十) ：線性迴歸實現之資料預處理

Alink漫談(十) ：線性迴歸實現之資料預處理目錄 Alink漫談(十) ：線性迴歸實現之資料預處理

資料集預處理之歸一化

為什麼要資料歸一化Feature Scaling 由於原始資料值的範圍差異很大，因此在某些機器學習演算法中，如果沒有歸一化，目標函式將無法正常工作。例如，許多分類器通過歐幾里得距離來計算兩點之間的距離。如果其中一個

記錄之 tensorflow常見的資料預處理操作

技術標籤：tensorflow功能程式碼積累今天我們簡單的介紹幾個比較常用的函式：

行人重識別(7)——程式碼實踐之資料預處理（使用行人檢測HOG+SVM）

技術標籤：行人重識別演算法計算機視覺行人重識別！轉載請註明原文地址！——東方旅行者

Scikit-learn資料預處理分類變數編碼之欄位特徵編碼

技術標籤：機器學習 Scikit-learn資料預處理分類變數編碼之欄位特徵編碼 1 宣告

Scikit-learn資料預處理分類變數編碼之等級變數編碼

技術標籤：機器學習 Scikit-learn資料預處理分類變數編碼之等級變數編碼 1 宣告

Scikit-learn資料預處理分類變數編碼之多標籤二值化

技術標籤：機器學習 Scikit-learn資料預處理分類變數編碼之多標籤二值化 1 宣告

Python實驗五：Pandas資料分析及資料預處理

任務一：對使用者信心更新表和登陸資訊表進行長寬轉換需求說明：通過對資料的描述性統計、以及時間資料資訊提取，分組聚合操作已經獲得了相當多的資訊，但使用者資訊更新表和登入資訊表是長表，而主表是寬表，需要通

pytorch 深度學習之資料預處理

讀取資料集建立資料，寫入到 CSV 檔案中： import os os.makedirs(os.path.join(\".\",\"data\"),exist_ok=True)

章神的私房菜之資料預處理

作者：章華燕編輯：徐鬆 Scikit-learn實戰之資料預處理 ——Data Preprocessing 各位看官，我們又見面了，

資料預處理 | 機器學習之特徵工程

作者：蘇小保（jacksu）華為工程師擅長分散式系統、大資料、機器學習。github地址：https://github.com/jacksu

Pytorch 資料載入與資料預處理方式

資料載入分為載入torchvision.datasets中的資料集以及載入自己使用的資料集兩種情況。

pytorch 影象中的資料預處理和批標準化例項

目前資料預處理最常見的方法就是中心化和標準化。中心化相當於修正資料的中心位置，實現方法非常簡單，就是在每個特徵維度上減去對應的均值，最後得到 0 均值的特徵。

pytorch資料預處理錯誤的解決

出錯： Traceback (most recent call last): File \"train.py\",line 305,in <module> train_model(model_conv,criterion,optimizer_conv,exp_lr_scheduler)