5個實用的Pandas技巧

阿新 • • 發佈：2020-08-12

作者|RAM DEWANI
編譯|VK
來源|Analytics Vidhya

介紹

效率已成為及時完成工作的關鍵因素。一個人不應該花超過合理的時間去完成事情。尤其是當任務涉及基本編碼時。使用Pandas庫能節省你的時間。

Pandas是一個開源包。它有助於用Python語言執行資料分析和資料操作。此外，它還為我們提供了靈活的資料結構。

Pandas技巧1–行的條件選擇

首先，資料探索是必要步驟。Pandas為進行各種分析提供了一種快速簡便的方法。其中一個非常重要的技巧是根據條件選擇行或過濾資料。

行的條件選擇可以基於由邏輯運算子分隔的單個語句中的單個條件或多個條件。

例如，我使用一個關於貸款預測的資料集。

我們將挑選一排還沒有畢業、收入低於5400英鎊的客戶。讓我們看看我們該怎麼做。

視訊：https://youtu.be/hc4or_RF5M8

import pandas as pd
data = pd.read_csv('../Data/loan_train.csv')
data.head()
data2 = data.loc[(data['Education'] == 'Not Graduate') & (data['ApplicantIncome'] <= 5400)]
data2

注意：記住把每個條件放在括號內。

Pandas技巧2–資料的儲存

資料可以有兩種型別-連續的和離散的，這取決於我們的分析要求。有時我們不需要連續變數中的精確值，但需要它所屬的群體。

例如，你的資料中有一個連續變數，年齡。但你需要一個年齡組來進行分析，比如兒童、青少年、成人、老年人。實際上，Binning非常適合解決我們這裡的問題。

為了執行Binning，我們使用cut()函式。這對於從連續變數到離散變數非常有用。

視訊：https://youtu.be/WQagYXIFjns

import pandas as pd

df = pd.read_csv('titanic.csv')
from sklearn.utils import shuffle

# 隨機化
df = shuffle(df, random_state = 42)

df.head()

bins = [0,4,17,65,99]
labels =['Toddler','Child','Adult','Elderly']

category = pd.cut(df['Age'], bins = bins, labels = labels)

df.insert(2, 'Age Group', category)

df.head()

df['Age Group'].value_counts()

df.isnull().sum()

程式碼：https://github.com/kunalj101/Data-Science-Hacks/blob/master/Code/binning_data.ipynb

Pandas技巧3–分組資料

這種操作在資料科學家和分析師的日常生活中經常執行。Pandas提供了一個基本的函式來執行資料分組，即Groupby。

Groupby操作包括根據特定條件拆分物件，應用函式，然後組合結果。

讓我們再看一次貸款預測資料集，假設我想看看給來自不同財產領域的人的平均貸款額，比如農村、半城市和城市。花點時間來理解這個問題陳述並思考如何解決它。

嗯，Pandas的groupby可以非常有效地解決這個問題。首先根據屬性區域劃分資料。其次，我們將mean()函式應用於每個類別。最後，我們將它們組合在一起，並將其列印為新的資料幀。

視訊：https://youtu.be/fK-6ZlPvZYU

#匯入資料集
import pandas as pd

df = pd.read_csv('../Data/loan_train.csv')
df.head()

# 男女平均收入
df.groupby(['Gender'])[['ApplicantIncome']].mean()

# 平均貸款金額不同的財產地區，如城市，農村
df.groupby(['Property_Area'])[['LoanAmount']].mean()

# 比較不同教育背景的貸款狀況
df.groupby(['Education'])[['Loan_Status']].count()

程式碼：https://github.com/kunalj101/Data-Science-Hacks/blob/master/Code/groupby_in_pandas.ipynb

Pandas技巧4–Pandas map

map是另一個提供高度靈活性和實際應用的重要操作。

Pandas map()用於根據輸入對應關係將序列中的每個值對映到其他值。實際上，這個輸入可以是一個序列、字典，甚至是一個函式。

讓我們舉一個有趣的例子。我們有一個虛擬的僱員資料集。此資料集由以下列組成–姓名、年齡、職業、城市。

現在需要新增另一列，說明相應的狀態。你會怎麼做？如果資料集的範圍是10行，你可以手動執行，但是如果有數千行呢？使用Pandas map會更有利。

視訊：https://youtu.be/XkwQOy5RZWY

#樣本資料
data = {'name': ['A', 'B', 'C', 'D', 'E'], 
        'age': [22, 26, 33, 44, 50],
        'profession' : ['data engineer', 'data scientist', 'entrepreneur', 'business analyst', 'self-employed'], 
        'city': ['Gurgaon', 'Bangalore', 'Gurgaon', 'Pune', 'New Delhi']}

df = pd.DataFrame(data)
df

# 城市與州
map_city_to_states = { 'Gurgaon' : 'Haryana', 
                  'Bangalore' : 'Karnataka', 
                  'Pune' : 'Maharashtra', 
                  'New Delhi' : 'Delhi'}

# 將城市列對映為州
df['state'] = df['city'].map(map_city_to_states)
df

程式碼：https://github.com/kunalj101/Data-Science-Hacks/blob/master/Code/map python.ipynb

Pandas技巧5–Pandas DataFrame的條件格式化

這是我最喜歡的Pandas技巧之一。這個技巧讓我有能力直觀地定位特定條件下的資料。

可以使用Pandas的style屬性將條件格式應用於資料框。事實上，條件格式是根據某種條件對資料幀應用視覺樣式的操作。

雖然Pandas提供了大量的操作，但我將在這裡向你展示一個簡單的操作。例如，我們有對應於每個銷售人員的銷售資料。我想檢視的是銷售價值高於80的。

視訊：https://youtu.be/vuirWysk_BA

import pandas as pd

data = pd.read_excel("../Data/salesman_performance.xlsx")
data

data.style

def highlight_green(sales):
    color = 'green' if sales > 80 else 'black'
    return 'color: %s' % color

formatting = data.iloc[:,1:6].style.applymap(highlight_green)
formatting

程式碼：https://github.com/kunalj101/Data-Science-Hacks/blob/master/Code/Pandas_conditional_formatting.ipynb

結尾

在這篇文章中，我們總結了Pandas的5個技巧。我希望這些技巧能幫助你完成日常的任務，併為你節省很多時間。

原文連結：https://www.analyticsvidhya.com/blog/2020/07/5-striking-pandas-tips-and-tricks-for-analysts-and-data-scientists/

歡迎關注磐創AI部落格站：
http://panchuang.net/

sklearn機器學習中文官方文件：
http://sklearn123.com/

歡迎關注磐創部落格資源彙總站：
http://docs.panchuang.net/

python 5個實用的技巧

下面我挑選出的這幾個技巧常常會被人們忽略，但它們在日常程式設計中能真正的給我們帶來不少幫助。

5個實用的Pandas技巧

作者|RAM DEWANI 編譯|VK 來源|Analytics Vidhya 介紹效率已成為及時完成工作的關鍵因素。一個人不應該花超過合理的時間去完成事情。尤其是當任務涉及基本編碼時。使用Pandas庫能節省你的時間。

繼續分享 5 個實用的 vs 除錯技巧

繼續分享 5 個實用的 vs 除錯技巧原總結除錯vs2019vs 前言我在上一篇文章《5 個非常實用的 vs 除錯技巧》中分享了 5 個我認為非常值得了解的 vs 除錯技巧，本週繼續分享 5 個很基礎但同樣實用的除錯技巧。

分享5個實用的vs除錯技巧

並行堆疊作用簡介：我們可以通過呼叫堆疊視窗檢視當前執行緒的呼叫棧，侷限是隻能檢視某個執行緒的呼叫棧，要想檢視每個執行緒的呼叫棧得切來切去的，太麻煩。如果我們想同時檢視多個執行緒的呼叫情況，我們可以使

如何提升 Kubernetes 生產力？我有 5 個實用技巧分享給你

　　在觀察和閱讀很多其它人操作 Kubernetes 和 Istio 的過程中，我瞭解到了他們為了進一步提高生產力，在搭建環境以及使用各類工具、技巧和訣竅過程中積累的經驗。本文總結了我每天都會使用的 5 個技巧和工具，它們

玩轉GitHub的幾個實用小技巧

github 倉庫當圖床(好處是免費,缺點是載入慢需要那啥上網) 直接讀取repo地址 https://github.com///blob//images/?raw=true

Excel技能樹系列06：5個實用的滑鼠快捷操作

在Excel中，除了快捷鍵外其實還有5個很好用的滑鼠快捷鍵，非常簡單好用，下面一一介紹。

再分享 5 個 vs 除錯技巧

前言之前在《5 個非常實用的 vs 除錯技巧》和《繼續分享 5 個實用的 vs 除錯技巧》中分享了 10 個我認為非常值得了解的 vs 除錯技巧，本週繼續分享 5 個很實用的除錯技巧。

關於TypeScript開發的6六個實用小技巧分享

目錄1. 開發之前確定實體型別2. 請求介面時只需要定義自己需要用到的欄位3. 使用列舉型別4. DOM元素的型別要正常給5.物件的型別要怎麼給6.結構賦值時型別怎麼給總結本文總結一下使用TypeScript開發應用程式的一點小經

助力前端開發的 5 個實用網站

近年來，越來越多的人開始對前端技術感興趣。然而前端領域的技術日新月異，如何快速從前端小白進化成資深工程師，少走彎路，對於一些剛入門的小夥伴是一個比較大的挑戰，這也是本篇文章想要幫助解決的問題。

Spring Cloud OpenFeign 的 5 個優化小技巧！

OpenFeign 是 Spring 官方推出的一種宣告式服務呼叫和負載均衡元件。它的出現就是為了替代已經進入停更維護狀態的 Feign（Netflix Feign），同時它也是 Spring 官方的頂級開源專案。我們在日常的開發中使用它的頻率也

掌握這 5 個 TypeScript 高階技巧，成為更好的開發者

Typescript 是一門神奇的語言 —— 相比 JavaScript 可以實現的所有功能，它只用十分之一的除錯時間就可以完成，主要包括以下幾點：

5 個冷門但非常實用的 Kubectl 使用技巧，99% 的人都不知道

a:hover, a:visited, a:link, a:active { text-decoration: none !important; -webkit-box-shadow: none !important; box-shadow: none !important }

5個簡單實用的MacOS技巧讓你的Mac工作效率翻倍

你們知道嗎？MacOS有很多隱藏的細節，使使用者的操作變得更方便、更靈活、更高效。接下來，在使用 MacOS之前，一定要優先開啟5個基本設定，以使您的 Mac電腦效率加倍。

14個編寫Spring MVC控制器的實用小技巧(吐血整理)

本文介紹了編寫Spring MVC框架的控制器（controller）的基礎技巧和最佳操作。在Spring MVC框架中，編寫控制器類通常是為了處理使用者提出的請求。

Python容器使用的5個技巧和2個誤區總結

Python容器使用的5個技巧和2個誤區 “容器”這兩個字很少被 Python 技術文章提起。一看到“容器”，大家想到的多是那頭藍色小鯨魚：Docker，但這篇文章和它沒有任何關係。本文裡的容器，是 Python 中的一個抽象概念，

常用的10個Python實用小技巧

大家好，都說追女孩方法大於態度，學Python也是，今天就給大家分享的是我在用Python編寫程式時常用的一些小技巧。

pandas引數設定的實用小技巧

前言在日常使用pandas的過程中，由於我們所分析的資料表規模、格式上的差異，使得同樣的函式或方法作用在不同資料上的效果存在差異。

超級實用的8個Python列表技巧

列表(List)是你使用Python過程中接觸最為頻繁的資料結構，也是功能最為強大的幾種資料結構之一。Python列表非常的萬能且蘊含著許多隱藏技巧，下面我們就來探索一些常用的列表技巧。

10個超級實用 Javascript 技巧! 前端htmljavascript

JavaScript 有用的技巧，相信總有一天會對你有所幫助。 1.方法引數驗證 ES6 中可以為函式的引數設定預設值，有了這個，我們可以實現一個驗證方法引數不能為空的巧妙技巧。

5個實用的Pandas技巧

介紹

目錄

Pandas技巧1–行的條件選擇

Pandas技巧2–資料的儲存

Pandas技巧3–分組資料

Pandas技巧4–Pandas map

Pandas技巧5–Pandas DataFrame的條件格式化

結尾

相關推薦