pandas高階操作

阿新 • • 發佈：2020-07-15

替換操作

替換操作可以同步作用於Series和DataFrame中
單值替換
- 普通替換：替換所有符合要求的元素:to_replace=15,value='e'
- 按列指定單值替換： to_replace={列標籤：替換值} value='value'

多值替換
- 列表替換: to_replace=[] value=[]
- 字典替換（推薦） to_replace={to_replace:value,to_replace:value}

import numpy as np
import pandas as pd
from pandas import DataFrame

df = DataFrame(data=np.random.randint(0,50,size=(7,5)))

df.replace(to_replace=6,value='six') #單值替換

df.replace(to_replace={6:'six',2:'two'}) #多值替換

df.replace(to_replace={0:2},value='two') #定列替換

對映操作

概念：建立一個對映關係列表，把values元素和一個特定的標籤或者字串繫結（給一個元素值提供不同的表現形式）

建立一個df，兩列分別是姓名和薪資，然後給其名字起對應的英文名

dic = {
    'name':['jay','tom 
','jay'],
    'salary':[1000,2000,1000]
}
df = DataFrame(data=dic)
df

#給jay和tom起兩個中文名字
dic = {#對映關係表：表明了對映關係
'jay':'張三',
'tom':'李四'
}
df['c_name'] = df['name'].map(dic)
df

運算工具

超過300部分的錢繳納50%的稅，計算每個人的稅後薪資
map是Series的方法，只能被Series呼叫

def after_sal(s):
    return s - (s-300)*0.5
df['after_sal 
'] = df['salary'].map(after_sal)
df

Series的方法apply也可以像map一樣充當運算工具

apply充當運算工具效率要遠遠高於map

def after_sal(s):
return s - (s-300)*0.5
df['after_sal'] = df['salary'].apply(after_sal)
df

排序實現的隨機抽樣

take()
np.random.permutation()

df = DataFrame(data=np.random.randint(0,100,size=(100,3)),columns=['A','B','C'])
np.random.permutation(3) #返回0-2之間的亂序序列

array([2, 0, 1])

#1.對原始資料進行打亂
#打亂：是對索引打亂
#task的axis和drop系列的函式
df.take(indices=np.random.permutation(3),axis=1)

#對行列索引進行打亂且進行隨機抽樣
df.take(indices=np.random.permutation(3),axis=1).take(indices=np.random.permutation(100),axis=0)[0:20]

資料的分類處理

資料分類處理的核心：
- groupby()函式
- groups屬性檢視分組情況

df = DataFrame({'item':['Apple','Banana','Orange','Banana','Orange','Apple'],
                'price':[4,3,3,2.5,4,2],
               'color':['red','yellow','yellow','green','green','green'],
               'weight':[12,20,50,30,20,44]})
df

#提供一個分組條件，想要對水果的種類分組
df.groupby(by='item')

<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x11950b278>

#檢視分組結果
df.groupby(by='item').groups

{'Apple': Int64Index([0, 5], dtype='int64'),
 'Banana': Int64Index([1, 3], dtype='int64'),
 'Orange': Int64Index([2, 4], dtype='int64')}

#分組聚合：計算每一種水果的平均價格
df.groupby(by='item').mean()['price']#不推薦

item
Apple     3.00
Banana    2.75
Orange    3.50
Name: price, dtype: float64

#推薦
df.groupby(by='item')['price'].mean()

item
Apple     3.00
Banana    2.75
Orange    3.50
Name: price, dtype: float64

#將每一種水果的平均價格計算出來然後彙總到源資料中
mean_price_s = df.groupby(by='item')['price'].mean()
mean_price_s

item
Apple     3.00
Banana    2.75
Orange    3.50
Name: price, dtype: float6

dic = mean_price_s.to_dict()
dic

#求出每一種顏色水果的平均重量，將其彙總到源資料中
mean_weight_s = df.groupby(by='color')['weight'].mean()
mean_weight_s

color
green     31.333333
red       12.000000
yellow    35.000000
Name: weight, dtype: float64

df['color_mean_weight'] = df['color'].map(mean_weight_s.to_dict())
df

高階資料聚合

使用groupby分組後，也可以使用transform和apply提供自定義函式實現更多的運算
df.groupby('item')['price'].sum() <==> df.groupby('item')['price'].apply(sum)
transform和apply都會進行運算，在transform或者apply中傳入函式即可
transform和apply也可以傳入一個lambda表示式

def my_mean(s):
    sum = 0
    for i in s:
        sum += i
    return sum / len(s)

df.groupby(by='item')['price'].transform(my_mean)

0    3.00
1    2.75
2    3.50
3    2.75
4    3.50
5    3.00
Name: price, dtype: float64

df.groupby(by='item')['price'].apply(my_mean)

item
Apple     3.00
Banana    2.75
Orange    3.50
Name: price, dtype: float64

apply和transform的區別：
- transform返回的結果是經過對映後的結果
- apply返回的是沒有經過對映的結果

資料載入

讀取type-.txt檔案資料

df = pd.read_csv('./data/type-.txt') #文字第一行成為了列索引這不是我們想要的
df

df = pd.read_csv('./data/type-.txt',header=None)
df

df = pd.read_csv('./data/type-.txt',header=None,sep='-')
df

df.shape

(2, 1)

讀取資料庫中的資料

#連線資料庫，獲取連線物件
import sqlite3 as sqlite3
conn = sqlite3.connect('./data/weather_2012.sqlite')

#讀取庫表中的資料值
sql_df=pd.read_sql('select * from weather_2012',conn)
sql_df

#將一個df中的資料值寫入儲存到db
df.to_sql('dddfff',conn)

pd.read_sql('select * from dddfff',conn)

透視表

透視表是一種可以對資料動態排布並且分類彙總的表格格式。或許大多數人都在Excel使用過資料透視表，也體會到它的強大功能，而在pandas中它被稱作pivot_table。

透視表的優點：
- 靈活性高，可以隨意定製你的分析計算要求
- 脈絡清晰易於理解資料
- 操作性強，報表神器

df = pd.read_csv('./data/透視表-籃球賽.csv')
df

pivot_table有四個最重要的引數index、values、columns、aggfunc

index引數：分類彙總的分類條件
- 每個pivot_table必須擁有一個index。如果想檢視哈登對陣每個隊伍的得分則需要對每一個隊進行分類並計算其各類得分的平均值：

想看看哈登對陣同一對手在不同主客場下的資料，分類條件為對手和主客場

df.pivot_table(index=['對手','主客場'])

values引數：需要對計算的資料進行篩選

如果我們只需要哈登在主客場和不同勝負情況下的得分、籃板與助攻三項資料：

df.pivot_table(index=['主客場','勝負'],values=['得分','籃板','助攻'])

Aggfunc引數：設定我們對資料聚合時進行的函式操作
- 當我們未設定aggfunc時，它預設aggfunc='mean'計算均值。

還想獲得james harden在主客場和不同勝負情況下的總得分、總籃板、總助攻時：

df.pivot_table(index=['主客場','勝負'],values=['得分','籃板','助攻'],aggfunc='sum')

Columns:可以設定列層次欄位

對values欄位進行分類

#獲取所有隊主客場的總得分
df.pivot_table(index='主客場',values='得分',aggfunc='sum')

#檢視主客場下的總得分的組成元素是誰
df.pivot_table(index='主客場',values='得分',aggfunc='sum',columns='對手',fill_value=0)

交叉表

是一種用於計算分組的特殊透檢視,對資料進行彙總
pd.crosstab(index,colums)
- index:分組資料，交叉表的行索引
- columns:交叉表的列索引

import pandas as pd
from pandas import DataFrame

df = DataFrame({'sex':['man','man','women','women','man','women','man','women','women'],
               'age':[15,23,25,17,35,57,24,31,22],
               'smoke':[True,False,False,True,True,False,False,True,False],
               'height':[168,179,181,166,173,178,188,190,160]})
df

#求出各個性別抽菸的人數

pd.crosstab(index=df.smoke,columns=df.sex)

#求出各個年齡段抽菸人情況

pd.crosstab(df.age,df.smoke)

pandas高階操作

替換操作替換操作可以同步作用於Series和DataFrame中單值替換普通替換：替換所有符合要求的元素:to_replace=15,value=\'e\'

Python科學計算之Pandas groupby、字串、索引高階操作

(2條訊息) Python科學計算之Pandas groupby、字串、索引高階操作_小叮噹的部落格-CSDN部落格

requests高階操作

requests的Cookie處理有時相關的需求會讓我們去爬取基於某些使用者的相關使用者資訊，例如爬取張三人人網賬戶中的個人身份資訊、好友賬號資訊等。

Python之Pandas 相關操作03---常用方法總結速查

在這個速查手冊中，我們使用如下縮寫： df：任意的Pandas DataFrame物件 s：任意的Pandas Series物件

1-python資料分析-Pandas基礎操作

為什麼學習pandas numpy已經可以幫助我們進行資料的處理了，那麼學習pandas的目的是什麼呢？

【C語言/C++程式設計學習筆記】你的第一個Windows程式！高階操作~

什麼是windows程式設計？瞭解到Windows API 程式設計、Windows程式設計、Windows SDK 程式設計是一個概念。今天我們運用C語言來實現你的第一個真正的Windows程式。

Python10行以內程式碼能有什麼高階操作

Python10行以內程式碼能有什麼高階操作 Python憑藉其簡潔的程式碼，贏得了許多開發者的喜愛。因此也就促使了更多開發者用Python開發新的模組，從而形成良性迴圈，Python可以憑藉更加簡短的程式碼實現許多有趣的操作。

pytorch高階操作

pytorch高階操作 where函式 torch.where(condition,x,y) 可能新生成的tensor一部分來自x，一部分來自y，但是是沒有規律的

sql*loader的高階操作

由於oracle控制檔案的強大功能，使得sql*loader可以如所願的對資料檔案進行處理，然後匯入oracle資料庫中。想想也是，資料庫的存在無非是為了：1，更好的管理資料。2，能更輕鬆的和軟體銜接，明確資料流的

pandas+sqlAlchemy操作資料庫

依賴庫 pandas sqlalchemy pymysql 讀取資料庫 from sqlalchemy import create_engine import pandas as pd

MongoDB查詢之高階操作詳解（多條件查詢、正則匹配查詢等）

MongoDB查詢之高階操作語法介紹 MongoDB查詢文件使用find()方法，同時find()方法以非結構化的方式來顯示所有查詢到的文件。

Mongodb高階操作

練習資料 db.students.insert( [ {\'_id\':0, \'name\': \'小林\', \'gender\': \'男\', \'age\': 20},

Python資料分析庫pandas高階介面dt的使用詳解

Series物件和DataFrame的列資料提供了cat、dt、str三種屬性介面（accessors），分別對應分類資料、日期時間資料和字串資料，通過這幾個介面可以快速實現特定的功能，非常快捷。

vim 高階操作總結

技術標籤：toolsvimlinuxcshellset ctrl + z ===> 將vim放到後臺 fg===>將vim放到前臺 b/B===>往回退一個字

Redis高階操作：scan代替keys

首先我們上程式碼 /** *根據match 查詢redis中中的所有key * @param match input the argument \"ONLINE_*\"

Pandas基本操作總結資料篩選loc

技術標籤：pandaspythonpython #1 loc篩選 loc為普遍用法得到單個值 df.loc["e行","F列"]

Pandas高階處理

技術標籤：深度學習pandas高階處理機器學習一、缺失值處理 1.1 缺失值處理方式

pandas基本操作

技術標籤：numpy筆記pythonnumpy機器學習pandas pandas基本操作介紹 pandas 是基於NumPy的一種工具，該工具是為解決資料分析任務而建立的。Pandas 納入了大量庫和一些標準的資料模型，提供了高效地操作大型資料

Pandas——資料操作

技術標籤：Python-總結與學習pandas機器學習python 對資料進行描述的操作 1. 對於numerical 變數：

selenium的高階操作

今天接著講selenium的常見的一些操作，內容稍微有點多，慢慢細品，寫的還算較為清晰，請耐心看完

pandas高階操作

替換操作

對映操作

運算工具

排序實現的隨機抽樣

資料的分類處理

高階資料聚合

資料載入

讀取資料庫中的資料

透視表

pivot_table有四個最重要的引數index、values、columns、aggfunc

交叉表

相關推薦