13個Pandas實用技巧，助你提高開發效率

阿新 • • 發佈：2020-08-21

原作：風控獵人

整理：資料管道

歸納整理了一些工作中常用到的pandas使用技巧，方便更高效地實現資料分析。

1.計算變數缺失率

df=pd.read_csv('titanic_train.csv')
def missing_cal(df):
  """
  df :資料集
  
  return：每個變數的缺失率
  """
  missing_series = df.isnull().sum()/df.shape[0]
  missing_df = pd.DataFrame(missing_series).reset_index()
  missing_df = missing_df.rename(columns={'index':'col',0:'missing_pct'})
  missing_df = missing_df.sort_values('missing_pct',ascending=False).reset_index(drop=True)
  return missing_df
missing_cal(df)

如果需要計算樣本的缺失率分佈，只要加上引數axis=1.

2.獲取分組裡最大值所在的行方法

分為分組中有重複值和無重複值兩種。無重複值的情況。

df = pd.DataFrame({'Sp':['a','b','c','d','e','f'],'Mt':['s1','s1','s2','s3'],'Value':[1,2,3,4,5,6],'Count':[3,10,6]})
df

df.iloc[df.groupby(['Mt']).apply(lambda x: x['Count'].idxmax())]

先按Mt列進行分組，然後對分組之後的資料框使用idxmax函式取出Count最大值所在的列，再用iloc位置索引將行取出。有重複值的情況

df["rank"] = df.groupby("ID")["score"].rank(method="min",ascending=False).astype(np.int64)
df[df["rank"] == 1][["ID","class"]]

對ID進行分組之後再對分數應用rank函式，分數相同的情況會賦予相同的排名，然後取出排名為1的資料。

3.多列合併為一行

df = pd.DataFrame({'id_part':['a','d'],'pred':[0.1,0.2,0.3,0.4],'pred_class':['women','man','cat','dog'],'v_id':['d1','d2','d3','d1']})

df.groupby(['v_id']).agg({'pred_class': [','.join],'pred': lambda x: list(x),'id_part': 'first'}).reset_index()

4.刪除包含特定字串所在的行

df = pd.DataFrame({'a':[1,4],'b':['s1','exp_s2','s3','exps4'],'c':[5,6,7,8],'d':[3,10]})
df[df['b'].str.contains('exp')]

5.組內排序

df = pd.DataFrame([['A',1],['A',3],2],['B',5],9]],columns = ['name','score'])

介紹兩種高效地組內排序的方法。

df.sort_values(['name','score'],ascending = [True,False])
df.groupby('name').apply(lambda x: x.sort_values('score',ascending=False)).reset_index(drop=True)

6.選擇特定型別的列

drinks = pd.read_csv('data/drinks.csv')
# 選擇所有數值型的列
drinks.select_dtypes(include=['number']).head()
# 選擇所有字元型的列
drinks.select_dtypes(include=['object']).head()
drinks.select_dtypes(include=['number','object','category','datetime']).head()
# 用 exclude 關鍵字排除指定的資料型別
drinks.select_dtypes(exclude=['number']).head()

7.字串轉換為數值

df = pd.DataFrame({'列1':['1.1','2.2','3.3'],'列2':['4.4','5.5','6.6'],'列3':['7.7','8.8','-']})
df
df.astype({'列1':'float','列2':'float'}).dtypes

用這種方式轉換第三列會出錯，因為這列裡包含一個代表 0 的下劃線，pandas 無法自動判斷這個下劃線。為了解決這個問題，可以使用 to_numeric() 函式來處理第三列，讓 pandas 把任意無效輸入轉為 NaN。

df = df.apply(pd.to_numeric,errors='coerce').fillna(0)

8.優化 DataFrame 對記憶體的佔用

方法一：只讀取切實所需的列，使用usecols引數

cols = ['beer_servings','continent']
small_drinks = pd.read_csv('data/drinks.csv',usecols=cols)

方法二：把包含類別型資料的 object 列轉換為 Category 資料型別，通過指定 dtype 引數實現。

dtypes ={'continent':'category'}
smaller_drinks = pd.read_csv('data/drinks.csv',usecols=cols,dtype=dtypes)

9.根據最大的類別篩選 DataFrame

movies = pd.read_csv('data/imdb_1000.csv')
counts = movies.genre.value_counts()
movies[movies.genre.isin(counts.nlargest(3).index)].head()

10.把字串分割為多列

df = pd.DataFrame({'姓名':['張 三','李 四','王 五'],'所在地':['北京-東城區','上海-黃浦區','廣州-白雲區']})
df
df.姓名.str.split(' ',expand=True)

11.把 Series 裡的列表轉換為 DataFrame

df = pd.DataFrame({'列1':['a','c'],'列2':[[10,20],[20,30],[30,40]]})
df

df_new = df.列2.apply(pd.Series)
pd.concat([df,df_new],axis='columns')

12.用多個函式聚合

orders = pd.read_csv('data/chipotle.tsv',sep='\t')
orders.groupby('order_id').item_price.agg(['sum','count']).head()

13.分組聚合

import pandas as pd
df = pd.DataFrame({'key1':['a','a','a'],'key2':['one','two','one','one'],'data1':np.random.randn(5),'data2':np.random.randn(5)})
df

for name,group in df.groupby('key1'):
  print(name)
  print(group)

dict(list(df.groupby('key1')))

通過字典或Series進行分組

people = pd.DataFrame(np.random.randn(5,5),columns=['a','e'],index=['Joe','Steve','Wes','Jim','Travis'])
mapping = {'a':'red','b':'red','c':'blue','d':'blue','e':'red','f':'orange'}
by_column = people.groupby(mapping,axis=1)
by_column.sum()

以上就是13個Pandas實用技巧，助你提高開發效率的詳細內容，更多關於Pandas實用技巧的資料請關注我們其它相關文章！

13個Pandas實用技巧，助你提高開發效率

原作：風控獵人整理：資料管道歸納整理了一些工作中常用到的pandas使用技巧，方便更高效地實現資料分析。

python 中的9個實用技巧，助你提高開發效率

整理字串輸入整理使用者輸入的問題在程式設計過程中極為常見。通常情況下，將字元轉換為小寫或大寫就夠了，有時你可以使用正則表示式模組「Regex」完成這項工作。但是如果問題很複雜，可能有更好的方法來解決：

千鋒重慶web前端學習之4個前端模組打包工具，助你提高開發效率

模組打包工具用於將多個模組打包到瀏覽器的一個或多個優化打包中。因為瀏覽器檔案不會被編譯，且支援有限，所以在前端工作中，模組打包是非常重要的。

（乾貨）Python高效程式設計技巧，幫你提高工作效率！

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

這幾個程式設計小技巧，讓你程式碼效率提高一個檔次java

for迴圈 for迴圈變數初始化在c語言中，我們常常這樣使用for語句： for (int i = 0; i < strlen(s); i++)

實用Word技巧，讓你的工作效率輕鬆翻倍！

Word是現代職場人士必備的辦公技能，它是一款應用廣泛的文書處理器。大多數的職場人士在應用word時只是將其當做基本的文字錄入器。掌握Word技能，論文、手冊、流程圖、表格製作統統快速高效完成。

掌握這13個MySQL索引知識點，讓你面試通過率翻倍

資料庫索引有關的知識，說實在的，真的是很複雜，本來想好好看看這方面的東西，然後寫篇文章詳細談談的，後來發現索引的知識太難太深，要談得全面又詳細真的很難，所以最後還是把自己學到的和想到的變成下面一個個

13個JavaScript 一行程式，讓你看起來像個專家

作者：Shadeed 譯者：前端小智來源：medium 有夢想，有乾貨，微信搜尋【大遷世界】關注這個在凌晨還在刷碗的刷碗智。

56個實用的JavaScript 工具函式助你提升開發效率

目錄1. 數字操作（1）生成指定範圍隨機數2. 陣列操作（1）陣列亂序（2）陣列扁平化（3）陣列中獲取隨機數3. 字串操作（1）生成隨機字串（2）字串首字母大寫（3）手機號中間四位變成*（4）駝峰命名轉換成短橫線命名（

專題五:python操作檔案(txt,csv,word,pdf,圖片等)—一次性搞清楚，讓你提高辦公效率

技術標籤：python面試和技巧專欄pythoncsvjson python操作檔案 1 檔案操作基礎1.1 檔案1.2 讀寫檔案從這裡開始1.21 讀取檔案的5種模式1.22 檔案讀取1.23 檔案寫入

Python大牛用的賊溜，9個實用技巧分享給你

本文會試著介紹一些其它文章沒有提到的小技巧，這些小技巧也是我平時會用到的的。讓我們一探究竟吧！

程式設計師都會用到的13個Spring MVC實用技巧，收藏！！！

通常，在Spring MVC中，我們編寫一個控制器類來處理來自客戶端的請求。然後，控制器呼叫業務類來處理與業務相關的任務，然後將客戶端重定向到邏輯檢視名稱，該名稱由Spring的排程程式Servlet解析，以呈現結果或輸出。

這6個電腦操作技巧，會讓你愛上Win10系統

要說電腦系統哪個版本最好用，大家都異口同聲的說是Win7，也許你只是用習慣了。

如何提升 Kubernetes 生產力？我有 5 個實用技巧分享給你

　　在觀察和閱讀很多其它人操作 Kubernetes 和 Istio 的過程中，我瞭解到了他們為了進一步提高生產力，在搭建環境以及使用各類工具、技巧和訣竅過程中積累的經驗。本文總結了我每天都會使用的 5 個技巧和工具，它們

新晉程式設計師不知道的25個程式設計小技巧，知道它們，能讓你事半功倍

　　如果只是周而復始地寫程式碼，想必程式設計的工作會讓很多程式設計師發狂。如何在看似枯燥的工作尋找樂趣，我認為對工作的激情和興奮感、始終學習的態度，還有掌握一些實用高效的程式設計技巧，對於提升工作樂趣

隱藏在sketch的10個實用技巧，學會就是賺到！

Sketch Mac是一款為設計師量身定做的優美介面和強大工具兼有的專業繪圖工具。能夠滿足網頁、使用者介面、圖示等的設計需求。 Sketch是一款為設計師量身定做的優美介面和強大工具兼有的專業繪圖工具。製作出漂亮的圖形

8 個 Python 實用指令碼，趕緊收藏備用！

指令碼寫的好，下班下得早！程式設計師的日常工作除了編寫程式程式碼，還不可避免地需要處理相關的測試和驗證工作。

8 種單例模式寫法，助你搞定面試！

作者：小小木的部落格 www.cnblogs.com/wyc1994666/p/11394755.html 1. 單例模式常見問題為什麼要有單例模式

這是一份穩收秋招offer的jvm常見面試題指南，助你成為offer收割機

JVM是java從業者，必須要邁過的坎，不管你是初級、中級還是高階，都是必須掌握的，而且在面試中，jvm也是必考題，如果你不深入瞭解話，那去面試找工作肯定是有點難受的。

網易Java社招面經34題，助你“大展拳腳”！

我記得之前有網友投稿過一篇網易的，忘記了是校招還是社招的面經了。今天又來了，這次是網易的Java社招面經

13個Pandas實用技巧，助你提高開發效率

相關推薦