python資料處理中的一些實際問題

阿新 • • 發佈：2019-02-14

前段時間參加阿里天池中的智慧交通預測挑戰賽，費了不少功夫初賽排名45進入了複賽，後續沒有時間繼續複賽了，但還是想總結一下，演算法就不詳述了，具體談談資料處理的一些問題與解決方案。適合想要學習的新手參考，歡迎大家提出意見

語言使用python+pycharm

資料與部分程式碼百度網盤地址：

http://pan.baidu.com/s/1jIGasnW

1. 讀取資料

比賽中資料格式為txt，讀取方式有兩種，但為了方便進行後續的操作，採用python的庫pandas進行讀取，讀入後的格式為dataFrame,同時具有行列索引，如下：

data=pd.read_table('F:/tianchi/new_gy_contest_traveltime_training_data_second.txt'

,sep=';')

也可以用pd.read_csv,效果一樣

Sep用來說明txt的分隔符，需要觀察源資料，有的是；or #or，等等，需要靈活使用，不然讀出的資料是亂的

（1）有時候不想讀入全部資料，可以這麼辦

data=pd.read_table('F:/tianchi/new_gy_contest_traveltime_training_data_second.txt',sep=';',nrows=100)

這樣就只會讀取前100行

（2）表頭問題

如果你的資料有表頭，那麼讀入的時候會自動將表頭作為列名，如下：

如果沒有表頭，那麼問題來了，它會自動將第一行資料作為表頭，這不是我們想要的，那麼就要這樣：

A=pd.read_csv("mix_festival+weekend_result_0810.txt",sep='#',header=None)

那有的時候又需要使用自定義的表頭怎麼半呢，恩，手動新增

A.columns=['link_ID','date','time_interval','travel_time']

2. 合併不同資料

比賽中有三個資料表格，算是比較少的了，一般通過列名進行匹配合並

new_gy_contest_traveltime_training_data_second.txt

表頭為link_ID;date;time_interval;travel_time

gy_contest_link_info.txt

表頭為link_ID;length;width;link_class

gy_contest_link_top_update.txt

表頭為link_ID;in_links;out_links;

可以發現具有公共列名link_ID，這也是合併的基礎，合併方法如下：

data=pd.merge(資料1,資料2,on='link_ID')

3．列資料處理

（1）刪除列資料

data.drop('time_interval',axis=1)說明一下，改變列名即可刪除其他列，axis=1表示刪除方向為列，預設為行

（2）新增列資料

比如源資料有一列為time_interval,我要把它分為start_time和end_time兩列（這兒主要說明怎麼新增列，不是怎麼拆分）

可以這樣：

start_time=[]

for i in data['time_interval']:
    i=str(i)
    start_time.append(int(i.split(',')[0])) data['start_time']=start_time   #新增新的列start_time

要注意的是新增列的大小必須與原資料的大小相同，要不會發生意想不到的錯誤，可以試試

（3）排序

有時候你想排序，比如時間序列資料，怎麼辦，也簡單

按照一個的大小來排

data=data.sort_values('linkID')

同時按照兩個來排，注意先後順序

data=data.sort_values(['linkID','start_time'])

4.資料分組，批量讀入

（1）資料分組

比賽中一共有132條路的資料，想要檢視每一條路（link_ID）的資料怎麼辦，python幫你解決

for name,group in data.groupby('link_ID'):
group.to_csv('F:/tianchi/new_data/{}.txt'.format(name),index=False)

ps:name為link_ID分組後每條路的名字，group為相應的資料，之後將沒條路的資料存到本地txt檔案，名字為每條路的link_ID,index=False表示不會將行索引存下來，你也可以根據其他的來分組

（2）資料批量操作

剛才根據每條路的ID名分為了132個txt檔案，現在又想把它們合併為一個，也不難，只需要使用另外一個庫glob

filename=glob.glob(r'F:/tianchi/data/*.txt')
filenames = filename
with open('F:/tianchi/data.txt', 'w') as outfile:
    for fname in filenames:
        with open(fname) as infile:
            for line in infile:
                outfile.write(line)

這樣就會將資料儲存在outfile這個檔案裡面，但這樣做會有一個問題，如果132個檔案都有表頭，那麼會將表頭重複132次，這不是我們想要的，我們只需要一個表頭或者不要，這也是可以解決的：

filename=glob.glob(r'F:/tianchi/5-x/*.txt')
filenames = filename
with open('F:/tianchi/data-top-test.txt', 'w')as outfile:
    for fname in filenames:
        with open(fname) as infile:
            for line in islice(infile, 1, None):#讀取時跳過第一行
                outfile.write(line)

這樣就解決了，而且可以擴充套件

5.缺失資料處理

（1）檢視是否有缺失值並統計數量

sub_demo[['link_ID','date','time_interval','t']].shape

#輸出sub_demo上面相應列的大小

sub_demo[['link_ID','date','time_interval','t']].isnull().sum()

#輸出sub_demo上面相應列的缺失值的數目

（2）填充缺失值

一種方法是使用pandas的fillna方法，如下

data.fillna(value=1)

data.fillna(method='ffill',limit=2,axis=1)

引數說明，value表示用什麼填充，method表示填充方式，前向填充或者後向填充，即直接使用缺失值的前一個值或後一個值，limit表示可以連續填充的最大數量，axis表示填充的方向。

另一種方法是使用差值函式，如拉格朗日差值等

（3）時間缺失

比賽結果提交時需要自己構造132條路6月份8:00-9:00每隔兩分鐘的資料，那麼需要先生成相應的格式，如下：

程式碼30多行，比較簡單，放在網盤中了

6．將資料存為本地檔案

data.to_csv('F:/tianchi/result/result.txt',index=False,header=None,sep='#')  #生成提交檔案

可以自己決定是否要索引，表頭，何種分隔符等

時間有限也就暫時說到這裡，還有缺失值匹配、時間格式等有機會再補充。

python資料處理中的一些實際問題

前段時間參加阿里天池中的智慧交通預測挑戰賽，費了不少功夫初賽排名45進入了複賽，後續沒有時間繼續複賽了，但還是想總結一下，演算法就不詳述了，具體談談資料處理的一些問題與解決方案。適合想要學習的新手參考，歡迎大家提出意見語言使用python+pycharm 資料與部分程式碼

Python資料處理的一些總結-1

import pandas as pd import numpy as np #載入資料 train=pd.read_csv('Train.csv') test=pd.read_csv('Test.csv') #顯示一下資料的大小 #可以通過train.shape, t

在資料處理中常用的5種概率分佈的python實現

1.二項分佈 from scipy.stats import binom, norm, beta, expon import numpy as np import matplotlib.pyplot

CSI資料處理中的小波變換

[c,l] = wavedec(y(:,i),3,'db4'); wavedec函式用於一維小波變換，對訊號進行多層分解 [c,l]=wavedec(x,N,’wname’,)，c表示各層分量，包括近似係數和細節係數，l表示各層分量長度，x表示原始訊號，N分解的層

Python 資料處理庫 pandas 入門教程

Python 資料處理庫 pandas 入門教程2018/04/17 · 工具與框架 · Pandas, Python 原文出處：強波的技術部落格 pandas是一個Python語言的軟體包，在我們使用Python語言進行機器學習程式設計的時候，這是一個非常常用的基礎程式設計庫。本文是對它的一個入門教程。p

python資料處理小技巧-2

1，拆分含有多種分隔符的字串 import re s = 'sdjjg,jsa|jjalg\tjljl.ljei,jks;dji' #方法：使用s.split(), 分割單個符合 #使用正則表示式的re.split()方法，一次性拆分字串，使用+號表示分割連續多個 newStr =

python資料分析中常用的庫

Python是資料處理常用工具，可以處理數量級從幾K至幾T不等的資料，具有較高的開發效率和可維護性，還具有較強的通用性和跨平臺性，這裡就為大家分享幾個不錯的資料分析工具,需要的朋友可以參考下 Python是資料處理常用工具，可以處理數量級從幾K至幾T不等的資料，具有較高的開發效率和可維

Python資料處理 | (三) Matplotlib資料視覺化

本篇部落格所有示例使用Jupyter NoteBook演示。 Python資料處理系列筆記基於：Python資料科學手冊電子版下載密碼：ovnh 示例程式碼下載密碼:02f4 目錄一、Matplotlib常用技巧 1.匯入

python資料處理----常用資料檔案的處理

資料處理時，常用資料儲存形式主要有：CSV、JSON、XML、EXCEL、資料庫儲存。一、CSV檔案 csv檔案簡介 CSV是一種通用的、相對簡單的檔案格式，被使用者、商業和科學廣泛應用。最廣泛的應用是在程式之間轉移表格資料，而這些程式本身是在不相容的格式上進行操作的（往往是私有的和/或無規

Python資料處理之（三）Numpy建立array

一、關鍵字 array：建立陣列 dtype：指定資料型別 zeros：建立資料全為0 ones：建立資料全為1 empty：建立資料接近0 arrange：按指定範圍建立資料 linspace：建立線段

Python資料處理之（二）Numpy屬性

簡單介紹一下numpy中常見的三個屬性： ndim: 維度 shape: 行數和列數 size: 元素個數使用numpy首先要匯入模組，為了方便

Python資料處理之（一）為什麼要學習 Numpy & Pandas？

今天我們介紹兩個科學運算當中最為重要的兩個模組，一個是numpy,一個是 pandas。任何關於資料分析的模組都少不了它們兩個。一、主要用途：資料分析機器學習深度學習二、為什麼使用 numpy & pandas

Python資料處理之（四）numpy基礎運算1

一、一維矩陣的基礎運算下例中 a和b是兩個屬性為array也就是矩陣的變數，而且二者都是1行4列的矩陣，其中b矩陣中的元素分別是從0到3。如果我們想要求兩個矩陣之間的減法，你可以嘗試著輸入：a-b,得到的結果是對應元素相減的結果也就是[10 19 28 37]，同理元素的相加相

Python資料處理之（七）Numpy array 合併

一、np.vstack() 對array的合併，我們可以想到按行、按列等多種方式進行合併。 vertical stack本身屬於一種上下合併，即對括號中的兩個整體進行對應操作。 >>> import numpy as np >>> A=np.a

Python資料處理之（十一）Pandas 選擇資料

首先先建立一個6X4的矩陣 >>> import pandas as pd >>> import numpy as np >>> dates=pd.date_range('20181121',periods=6) >>

Python資料處理之（十）Pandas 基本介紹

一、Numpy 和 Pandas 有什麼不同如果用 python 的列表和字典來作比較, 那麼可以說 Numpy 是列表形式的，沒有數值標籤，而 Pandas 就是字典形式。Pandas是基於Numpy構建的，讓Numpy為中心的應用變得更加簡單。要使用pandas，首先需要

Python資料處理之（九）Numpy copy & deep copy

一、= 的賦值方式會有關聯性首先匯入numpy並建立變數a,b,c,d >>> import numpy as np >>> a=np.arange(4) >>> print(a) [0 1 2 3] >>>

Python資料處理之（八）Numpy array分割

一、建立資料匯入模組並建立3行4列的Array >>> import numpy as np >>> A=np.arange(12).reshape((3,4)) >>> print(A) [[ 0 1 2 3] [

Python資料處理之（六）numpy索引

一、一維索引在元素列表或者陣列中，我們可以用如同a[2]一樣的索引方法，同樣的，在Numpy中也有相對應的表示方法。 >>> import numpy as np >>> A=np.arange(3,15) >>> prin

Python資料處理之（五）numpy基礎運算2

通過上一節的學習，我們可以瞭解到一部分矩陣中元素的計算和查詢操作。然而在日常使用中，對應元素的索引也是非常重要的。依然，讓我們先從一個指令碼開始： >>> import numpy as np >>> A=np.arange(2,14).resh

python資料處理中的一些實際問題

相關推薦