利用Python進行資料分析——資料合併與整形

阿新 • • 發佈：2019-01-28

import numpy as np
import pandas as pd

多級索引

資料集存在多個級別的索引標號是可能的，特別是在低維下處理高維資料時。

Series

obj=pd.Series(np.random.randn(9),
              index=[['a','a','a','b','b','c','c','d','d']
                    ,[1,2,3,1,3,1,2,2,3]])
obj

帶有層級索引的Series可以轉換成DataFrame，反之亦然：

obj.unstack()

obj.unstack().stack 
()

所以帶層級索引的Series可看作是普通的DataFrame：

obj.loc['a',2]

-0.9042816958522675

obj.loc['b':'c',:]

DataFrame

frame=pd.DataFrame(np.arange(12).reshape((4,3)),
                  index=[['a','a','b','b'],
                         [1,2,1,2]],
                  columns=[['Ohio','Ohio','Colorado'],
                           ['Green','Red','Green']] 
)
frame

同樣地，帶層級索引資料的行列標籤也可以有名字(不過視覺化的時候容易看混淆)：

frame.index.names=['key1','key2']        #行索引命名
frame.columns.names=['state','color']        #列索引名字
frame

frame.loc['a','Ohio']

多級索引下的資料查詢方式存疑

索引的重排與排序

對比連結

frame.swaplevel(0,1,axis=0)        #交換行標籤的級別

frame.swaplevel(0,1,axis=1)        #交換列標籤的級別

frame.sort_index(axis=0,level=1)        #對第2級的行標籤排序

frame.sort_index(axis=1,level=0)        #對第1級的列標籤排序

層級統計資訊

frame.sum(axis=0,level=1)        #以二級標籤進行列求和

frame.sum(axis=1,level=0)        #以一級標籤進行行求和

資料轉索引

set_index()方法可以將DataFrame中已有的列資料轉換成行索引：

frame=pd.DataFrame({
    'a':np.arange(5),
    'b':np.random.randn(5),
    'c':['one','one','one','two','two'],
    'd':[0,1,2,0,1]
})
frame.set_index(['c','d'])        #將'c','d'列的資料轉換成行索引

reset_index()方法為逆操作：

frame.set_index(['c','d']).reset_index()

資料集的合併

以列值為參照的水平拼接

df1=pd.DataFrame({
    'key1':['b','c','a'],
    'data1':np.arange(3)
})
df2=pd.DataFrame({
    'key2':['a','d'],
    'data2':np.arange(2)
})

#在兩資料集中取'key'列的交集進行合併,共同的key值為'a','b'
pd.merge(df1,df2,left_on='key1',right_on='key2',how='inner')

#在兩資料集中取'key'列的並集進行合併,並集的key值為'a','b','c','d'
pd.merge(df1,df2,left_on='key1',right_on='key2',how='outer')

#以左邊資料集的'key1'值為參照進行合併
pd.merge(df1,df2,left_on='key1',right_on='key2',how='left')

#以右邊資料集的'key2'值為參照進行合併
pd.merge(df1,df2,left_on='key1',right_on='key2',how='right')

當兩資料集需要合併的參照列有同樣的列索引名稱時，可以進行更方便的合併：

df1=pd.DataFrame({
    'key':['b','c','a'],
    'data1':np.arange(3)
})
df2=pd.DataFrame({
    'key':['a','d'],
    'data2':np.arange(2)
})
pd.merge(df1,df2,on='key',how='inner')

注意以上兩資料集中的參照列’key’都只有一個值，df1只有一個’a’,’b’,’c’，df2也只有一個’a’,’d’，這種情況下的合併可以產生一一對映，如果兩資料集的參照列具有多個公共值，合併時的對映關係稍微複雜一點：

df1=pd.DataFrame({
    'key':['b','b','c','c'],
    'data1':np.arange(4)
})
df2=pd.DataFrame({
    'key':['a','a','b','b'],
    'data2':np.arange(4)
})

pd.merge(df1,df2,on='key',how='inner')

上述合併方法產生了4行資料，因為df1的’key’中有2個’b’，df2的’key’中也有2個’b’，且值均不相等，所以在合併時以全對映法則產生了4條資料。

當合並的參照列為多列時，直接傳遞一個列表即可：

df1=pd.DataFrame({
    'key1':['foo','foo','bar'],
    'key2':['one','two','three'],
    'data1':np.arange(3)
})
df2=pd.DataFrame({
    'key1':['foo','foo','bar','bar'],
    'key2':['one','one','one','two'],
    'data2':np.arange(4,8)
})

pd.merge(df1,df2,on=['key1','key2'],how='outer')

以行索引為參照的水平拼接

df1=pd.DataFrame(
    np.arange(6).reshape((3,2)),
    index=['a','c','e'],
    columns=['Missouri','Alabama']
)
df2=pd.DataFrame(
    np.arange(7,15).reshape((4,2)),
    index=['b','c','d','e'],
    columns=['Ohio','Nevada']
)

pd.merge(df1,df2,left_index=True,right_index=True,how='inner')

軸向拼接

matrix=np.arange(9).reshape((3,3))
np.concatenate([matrix,matrix],axis=0)        #豎直拼接

s1=pd.Series([1,2],index=['a','b'])
s2=pd.Series([3,4],index=['c','d'])
s3=pd.Series([5,6],index=['e','f'])

pd.concat([s1,s2,s3],axis=1,join='outer')        #水平拼接

在拼接的時候可以使用key引數生成層級索引：

df1=pd.DataFrame(
    np.arange(4).reshape((2,2)),
    index=['a','b'],
    columns=['one','two']
)
df2=pd.DataFrame(
    4+np.arange(4).reshape((2,2)),
    index=['a','c'],
    columns=['three','four']
)

pd.concat([df1,df2],axis=1,keys=['level_1','level_2'],join='outer')

資料重疊

當兩個資料集的部分割槽域有相同的行列索引時，可以用另一個數據集相應位置的資料來填補前一個數據集的缺失值：

df1=pd.DataFrame({
    'a':[1,None,5,None],
    'b':[None,2,None,6],
    'c':[2,4,6,8]
})
df2=pd.DataFrame({
    'a':[5,4,None,3,7],
    'b':[None,3,4,6,8]
})

df1.combine_first(df2)        #用df2來填充df1

旋轉與整形

(待補充)

利用Python進行NBA比賽資料分析

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

利用Python進行資料分析——資料合併與整形

import numpy as np import pandas as pd 多級索引資料集存在多個級別的索引標號是可能的，特別是在低維下處理高維資料時。 Series obj=pd.Series(np.random.randn(9),

資料基礎---《利用Python進行資料分析·第2版》第6章資料載入、儲存與檔案格式

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。訪問資料是使用本書所介紹的這些工具的第一步。我會著重介紹pandas的資料輸入與輸出，雖然別的庫中也有不少以此為目的的工具

資料基礎---《利用Python進行資料分析·第2版》第10章資料聚合與分組運算

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。對資料集進行分組並對各組應用一個函式（無論是聚合還是轉換），通常是資料分析工作中的重要環節。在將資料集載入、融合、準備好之

資料基礎---《利用Python進行資料分析·第2版》第8章資料規整：聚合、合併和重塑

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。在許多應用中，資料可能分散在許多檔案或資料庫中，儲存的形式也不利於分析。本章關注可以聚合、合併、重塑資料的方法。首先

利用Python進行資料分析之第七章記錄2 資料規整化:清理、轉換、合併、重塑

索引上的合併 DataFrame中傳入引數left_index=True或者right_index=True（或者兩個都傳入）,表示DataFrame的index（索引）被用作兩個DataFrame連線的連線鍵，如下： dataframe1 = DataFrame({'key':

利用Python進行資料分析之第七章記錄資料規整化:清理、轉換、合併、重塑

合併資料集： pandas物件中的資料可以通過一些內建的方式進行合併： pandas.merge可根據一個或多個鍵將不同DataFrame中的行連線起來。SQL或其它關係型資料庫的使用者對此應該會比較熟悉，因為它實現的就是資料庫的連線操作。 pandas.concat可以沿著一條軸將多個

【利用python進行資料分析】準備與例項（一）

我已經分享了本書的ipynb，所以跟著我一起來實驗吧。如果你不懂怎麼開啟ipynb格式的檔案，那也沒關係，anaconda3讓一切變得更簡單（我像是打廣告的）。安裝玩anaconda之後，我們在開始裡就可以找到它的資料夾，裡面有一個Jupyter Notebook，就是它了。

利用 Python 進行資料分析（十二）pandas：資料合併

原文地址 pandas 提供了三種主要方法可以對資料進行合併： pandas.merge()方法：資料庫風格的合併；pandas.concat()方法：軸向連線，即沿著一條軸將多個物件堆疊到一起；例項方法combine_first()方法：合併重疊資料。 pandas

利用Python進行資料分析——資料規整化：清理、轉換、合併、重塑(七)(4) .

1、資料轉換目前為止介紹的都是資料的重排。另一類重要操作則是過濾、清理以及其他的轉換工作。 2、移除重複資料 DataFrame中常常會出現重複行。下面就是一個例子： [python] view plaincopyprint? In

資料集合與分組運算《利用python進行資料分析》筆記，第9章

pandas的groupby功能，可以計算分組統計和生成透視表，可對資料集進行靈活的切片、切塊、摘要等操作 GroupBy技術 “split-apply-comebine”（拆分-應用-合併） import numpy as np from pand

利用Python進行資料分析中的問題與解決方案彙總

</pre><span style="font-size:18px">1.<span style="color:rgb(85,85,85); font-family:'microsoft yahei'; line-height:35px"&g

《利用Python進行資料分析》第7章合併資料集

合併資料集資料分析和建模方面的大量程式設計工作都是用在資料準備上的：載入、清理、轉換以及重塑。有時候，存放在檔案或資料庫中的資料並不能滿足你的資料處理應用的要求。pandas物件中的資料可以通過一些內建的方式進行合併： pandas.merge可根據一個或

利用Python進行資料分析——資料清洗與準備

import numpy as np import pandas as pd 處理缺失資料丟棄含缺失值的行列預設的dropna()方法會丟棄所有含缺失值的行： frame=pd.DataFrame([[1,6.5,None],[1,None,None

利用python進行資料分析-資料聚合與分組運算2

cand_nm contbr_occupation Obama, Barack PROFESSOR 2165071.08 CEO

《利用Python進行資料分析》筆記---第9章資料聚合與分組運算

寫在前面的話：還有一定要說明的：我使用的是Python2.7，書中的程式碼有一些有錯誤，我使用自己的2.7版本調通。 # coding: utf-8 from pandas import Series, DataFrame import p

《利用Python進行資料分析》第7章軸連線與資料轉換

軸連線另一種資料合併運算也被稱作連線（concatenation）、繫結（binding）或堆疊（stacking）。NumPy有一個用於合併原始NumPy陣列的concatenation函式。 In [2]: import pandas as pd

利用Python進行資料分析--資料聚合與分組運算1

轉載自：http://blog.csdn.net/ssw_1990/article/details/22286583 pandas提供了一個靈活高效的groupby功能，它使你能以一種自然的方式對資料集進行切片、切塊、摘要等操作。根據一個或多個鍵（可以是函式、陣列或DataFrame列名）拆分pa

利用python進行資料分析（第二版） pdf下載

適讀人群：適合剛學Python的資料分析師或剛學資料科學以及科學計算的Python程式設計者。閱讀本書可以獲得一份關於在Python下操作、處理、清洗、規整資料集的完整說明。本書第二版針對Python 3.6進行了更新，並增加實際案例向你展示如何高效地解決一系列資料分析問題。你將在閱讀

利用Python進行資料分析——資料合併與整形

多級索引

Series

DataFrame

索引的重排與排序

層級統計資訊

資料轉索引

資料集的合併

以列值為參照的水平拼接

以行索引為參照的水平拼接

軸向拼接

資料重疊

旋轉與整形

相關推薦