Python資料處理的一些總結-1

阿新 • • 發佈：2019-02-13

import pandas as pd
import numpy as np

#載入資料
train=pd.read_csv('Train.csv')
test=pd.read_csv('Test.csv')

#顯示一下資料的大小
#可以通過train.shape, test.shape檢視

train.dtypes#檢視每個屬性的型別
train.head(5)#檢視前五條資料
#合併成一個總的data
train['source']='train'
test['source']='test'
data=pd.concat([train, test], ignore_index=True)

注意，最後一條資料的igonore_index的屬性我來解釋一下啦

比如有兩個表myTrain.csv, myTest.csv，其中，兩個表的內容分別是：

myTrain.csv

a	b
1	5
2	6
3	7
4	8

myTset.csv

a	b
1	5
2	6
3	7
4	8

data=pd.concat([train, test], ignore_index=True)

執行上面的程式碼，結果如下：

注意看前面的索引值，其實，對於myTrain.csv和myTest.csv兩個表來說都有一個自己的索引值，然後在組合的時候這邊忽略了

再看：

、

看了這個圖片就一目瞭然了，其實就是索引是否要重新開始而已

好了，我們繼續看看下面的程式碼把：

#在實際的應用中很重的是觀察異常點，比如說異常值;
data.apply(lambda x:sum(x.isnull()))

這裡看一段程式碼：

關於lambda表達是解釋：Python的lambda表示式可以看看這個部落格，隨便百度啦，很多解釋的，挺容易理解的

欄位，分別有多少種取值

var = ['Gender','Salary_Account','Mobile_Verified','Var1','Filled_Form','Device_Type','Var2','Source']
for v in var:
    print '\n%s這一列資料的不同取值和出現的次數\n'%v
    print data[v].value_counts()
#看看某一個欄位與多少的不同的取值
len(data['City'].unique())#data['City'].unique()給出的結果是在該屬性下不同城市的名字都列出來

#如果要刪除該屬性，可以用下面的額程式碼
data.drop('City',axis=1,inplace=True)

需要解釋一下這裡的axis=1和，inplace了，話不多說，上圖片

明白了把，axis=0表示的是要對橫座標操作，axis=1是要對縱座標操作

inplace=False表示要對結果顯示，而True表示對結果不顯示

#DOB是出生的具體日期，咱們要具體日期作用沒那麼大，年齡段可能對我們有用，所有算一下年齡好了
#建立一個年齡的欄位Age
data['Age'] = data['DOB'].apply(lambda x: 115 - int(x[-2:]))

data.drop('DOB',axis=1,inplace=True)#刪除原先的欄位


data.boxplot(column=['EMI_Loan_Submitted'],return_type='axes')#畫出箱線圖

#好像缺失值比較多，乾脆就開一個新的欄位，表明是缺失值還是不是缺失值
data['EMI_Loan_Submitted_Missing'] = data['EMI_Loan_Submitted'].apply(lambda x: 1 if pd.isnull(x) else 0)
data[['EMI_Loan_Submitted','EMI_Loan_Submitted_Missing']].head(10)
data.drop('EMI_Loan_Submitted',axis=1,inplace=True)
#看看個數
len(data['Employer_Name'].value_counts())
#看看某一欄位的資訊
data['Existing_EMI'].describe()
#預設值不多，用均值代替
data['Existing_EMI'].fillna(0, inplace=True)

#找中位數去填補預設值（因為預設的不多）
data['Loan_Amount_Applied'].fillna(data['Loan_Amount_Applied'].median(),inplace=True)
data['Loan_Tenure_Applied'].fillna(data['Loan_Tenure_Applied'].median(),inplace=True)


#處理source
data['Source'] = data['Source'].apply(lambda x: 'others' if x not in ['S122','S133'] else x)
data['Source'].value_counts()

#數值編碼
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
var_to_encode = ['Device_Type','Filled_Form','Gender','Var1','Var2','Mobile_Verified','Source']
for col in var_to_encode:
    data[col] = le.fit_transform(data[col])

解釋一下data[col] = le.fit_transform(data[col])，看圖：
原來的讀入檔案是：

來編碼啦，繼續看圖：

明白了，就是給不同的數字編碼呀，起到區分作用的

關鍵部分的程式碼如下

import pandas as pd
import numpy as np

#載入資料
train=pd.read_csv('Train.csv')
test=pd.read_csv('Test.csv')

#顯示一下資料的大小
#可以通過train.shape, test.shape檢視

train.dtypes#檢視每個屬性的型別
train.head(5)#檢視前五條資料
#合併成一個總的data
train['source']='train'
test['source']='test'
data=pd.concat([train, test], ignore_index=True)



#在實際的應用中很重的是觀察異常點，比如說異常值;
data.apply(lambda x:sum(x.isnull()))

#要對資料有更深的認識，比如說，咱們看看這些欄位，分別有多少種取值(甚至你可以看看分佈)
var = ['Gender','Salary_Account','Mobile_Verified','Var1','Filled_Form','Device_Type','Var2','Source']
for v in var:
    print '\n%s這一列資料的不同取值和出現的次數\n'%v
    print data[v].value_counts()

#看看某一個欄位與多少的不同的取值
len(data['City'].unique())#data['City'].unique()給出的結果是在該屬性下不同城市的名字都列出來

#如果要刪除該屬性，可以用下面的額程式碼
data.drop('City',axis=1,inplace=True)



#DOB是出生的具體日期，咱們要具體日期作用沒那麼大，年齡段可能對我們有用，所有算一下年齡好了
#建立一個年齡的欄位Age
data['Age'] = data['DOB'].apply(lambda x: 115 - int(x[-2:]))

data.drop('DOB',axis=1,inplace=True)#刪除原先的欄位


data.boxplot(column=['EMI_Loan_Submitted'],return_type='axes')#畫出箱線圖

#好像缺失值比較多，乾脆就開一個新的欄位，表明是缺失值還是不是缺失值
data['EMI_Loan_Submitted_Missing'] = data['EMI_Loan_Submitted'].apply(lambda x: 1 if pd.isnull(x) else 0)
data[['EMI_Loan_Submitted','EMI_Loan_Submitted_Missing']].head(10)
data.drop('EMI_Loan_Submitted',axis=1,inplace=True)
#看看個數
len(data['Employer_Name'].value_counts())
#看看某一欄位的資訊
data['Existing_EMI'].describe()
#預設值不多，用均值代替
data['Existing_EMI'].fillna(0, inplace=True)

#找中位數去填補預設值（因為預設的不多）
data['Loan_Amount_Applied'].fillna(data['Loan_Amount_Applied'].median(),inplace=True)
data['Loan_Tenure_Applied'].fillna(data['Loan_Tenure_Applied'].median(),inplace=True)


#處理source
data['Source'] = data['Source'].apply(lambda x: 'others' if x not in ['S122','S133'] else x)
data['Source'].value_counts()

#數值編碼
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
var_to_encode = ['Device_Type','Filled_Form','Gender','Var1','Var2','Mobile_Verified','Source']
for col in var_to_encode:
    data[col] = le.fit_transform(data[col])

#類別型的One-Hot 編碼
data = pd.get_dummies(data, columns=var_to_encode)
data.columns#看看one-hot編碼後的列是哪些
#區分訓練和測試資料
train = data.loc[data['source']=='train']
test = data.loc[data['source']=='test']

train.drop('source',axis=1,inplace=True)
#儲存程式碼
train.to_csv('train_modified.csv',index=False)
test.to_csv('test_modified.csv',index=False)

python資料處理程式碼總結

一 numpy 簡介 nump用來是陣列和向量計算，是高效能科學計算和資料分析的基礎包。 ndarry：是一個具有向量運算和複雜廣播能力的快速且節省空間的多維陣列。主要功能：資料整理和清理，子集構造和過濾，轉換等快速的向量化陣列運算；陣列演算法，如排序，唯一化，集合運算等。

Python資料處理的一些總結-1

import pandas as pd import numpy as np #載入資料 train=pd.read_csv('Train.csv') test=pd.read_csv('Test.csv') #顯示一下資料的大小 #可以通過train.shape, t

Python資料處理之（四）numpy基礎運算1

一、一維矩陣的基礎運算下例中 a和b是兩個屬性為array也就是矩陣的變數，而且二者都是1行4列的矩陣，其中b矩陣中的元素分別是從0到3。如果我們想要求兩個矩陣之間的減法，你可以嘗試著輸入：a-b,得到的結果是對應元素相減的結果也就是[10 19 28 37]，同理元素的相加相

吳裕雄 python 資料處理（1）

import time print(time.time())print(time.localtime())print(time.strftime('%Y-%m-%d %X',time.localtime())) 繪圖顯示中文配置 import matplotlib.pyplot as plt

閱讀程式碼—整理學習python資料處理1

import pandas as pd test_df = pd.read_csv("/Users/isabella/Downloads/test.csv") train_df = pd.read_csv("/Users/isabella/Downloads/train.csv") # 檢視每一列

python資料處理工具 pandas包常用方法總結（持續更新）

======================== INTRODUCTION TO PANDAS ======================== 圓括號是函式，方括號是索引 #Series data can be numpy array,or a python dict

python資料處理中的一些實際問題

前段時間參加阿里天池中的智慧交通預測挑戰賽，費了不少功夫初賽排名45進入了複賽，後續沒有時間繼續複賽了，但還是想總結一下，演算法就不詳述了，具體談談資料處理的一些問題與解決方案。適合想要學習的新手參考，歡迎大家提出意見語言使用python+pycharm 資料與部分程式碼

最全總結 | 聊聊 Python 資料處理全家桶（Mysql 篇）

![image](https://upload-images.jianshu.io/upload_images/1466987-82ad628a151414ab?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) ## 1\. 前言在爬蟲、自動化、資料

最全總結 | 聊聊 Python 資料處理全家桶（Memcached篇）

![image](https://upload-images.jianshu.io/upload_images/1466987-40e7d815377e744f?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) ## 1\. 前言本篇文章繼續繼續另外

最全總結 | 聊聊 Python 資料處理全家桶（配置篇）

![image](https://upload-images.jianshu.io/upload_images/1466987-12159a5ab2a559d8?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) ## 1.前言在實際專案中，經常會接觸

Python 資料處理庫 pandas 入門教程

Python 資料處理庫 pandas 入門教程2018/04/17 · 工具與框架 · Pandas, Python 原文出處：強波的技術部落格 pandas是一個Python語言的軟體包，在我們使用Python語言進行機器學習程式設計的時候，這是一個非常常用的基礎程式設計庫。本文是對它的一個入門教程。p

資料處理方法總結

#讀取資料 data=pd.read_csv("") print(data.head(10)) #處理資料 #1.縮小資料,查詢資料篩選，query相當於sql語句，進行條件查詢 data=data.query

python資料處理小技巧-2

1，拆分含有多種分隔符的字串 import re s = 'sdjjg,jsa|jjalg\tjljl.ljei,jks;dji' #方法：使用s.split(), 分割單個符合 #使用正則表示式的re.split()方法，一次性拆分字串，使用+號表示分割連續多個 newStr =

Python資料處理 | (三) Matplotlib資料視覺化

本篇部落格所有示例使用Jupyter NoteBook演示。 Python資料處理系列筆記基於：Python資料科學手冊電子版下載密碼：ovnh 示例程式碼下載密碼:02f4 目錄一、Matplotlib常用技巧 1.匯入

python資料處理----常用資料檔案的處理

資料處理時，常用資料儲存形式主要有：CSV、JSON、XML、EXCEL、資料庫儲存。一、CSV檔案 csv檔案簡介 CSV是一種通用的、相對簡單的檔案格式，被使用者、商業和科學廣泛應用。最廣泛的應用是在程式之間轉移表格資料，而這些程式本身是在不相容的格式上進行操作的（往往是私有的和/或無規

Python資料處理之（三）Numpy建立array

一、關鍵字 array：建立陣列 dtype：指定資料型別 zeros：建立資料全為0 ones：建立資料全為1 empty：建立資料接近0 arrange：按指定範圍建立資料 linspace：建立線段

Python資料處理之（二）Numpy屬性

簡單介紹一下numpy中常見的三個屬性： ndim: 維度 shape: 行數和列數 size: 元素個數使用numpy首先要匯入模組，為了方便

Python資料處理之（一）為什麼要學習 Numpy & Pandas？

今天我們介紹兩個科學運算當中最為重要的兩個模組，一個是numpy,一個是 pandas。任何關於資料分析的模組都少不了它們兩個。一、主要用途：資料分析機器學習深度學習二、為什麼使用 numpy & pandas

Python資料處理之（七）Numpy array 合併

一、np.vstack() 對array的合併，我們可以想到按行、按列等多種方式進行合併。 vertical stack本身屬於一種上下合併，即對括號中的兩個整體進行對應操作。 >>> import numpy as np >>> A=np.a

Python資料處理之（十一）Pandas 選擇資料

首先先建立一個6X4的矩陣 >>> import pandas as pd >>> import numpy as np >>> dates=pd.date_range('20181121',periods=6) >>

Python資料處理的一些總結-1

相關推薦