python資料分析-類似sql用法

阿新 • • 發佈：2021-07-02

——python sql
pandas在資料處理上有著豐富且高效的函式，我們把資料清理、整理好後，只是一張原始的DataFrame。python也能像SQL一樣或者excel裡面的voolkup一樣將資料進行合併，也能像excel裡面的透視表或者sql
group by一樣進行資料透視組合，也能像excel的查詢功能或者sql裡面的where功能進行資料篩選。

文章目錄

python類似sql where用法或excel查詢用法
python類似sql Group by分組用法
python類似sql join關聯用法
python類似sql order排序用法
python類似sql Distinct去重用法

python類似sql where用法或excel查詢用法

python 類似where用法中的 col=a、col<>a、col=a and col =b、col=a or col=b、col
in(a,b,c)、col not in(a,b,c)

語法	描述
df[‘col’]==‘Female’	查詢df表col列中內容等於Female的內容 `=` 用法
df[‘col’]!=11	查詢df表col列中內容不等於11的內容 `<>` 用法
df[df[‘col’]==‘Female’]	查詢df表中col列單個條件等於Female的內容，並返回整張表所有列
df[(df[‘col’]==‘Female’)&(df[‘col2’]>0)]

查詢df表中col列等於Female，並且col2列大於0的內容，返回整張表所有列 and 用法
df[‘col’].between(a,b) | col列中a=2,b=8，返回2-8之間的數
df[(df[‘col’]>=10)｜(df[‘col2’]<50)] |
查詢df表中col列小於等於10或者col2列小於50的內容，返回整張表所有列 or 用法
df[df[‘col’].isin([21.01, 23.68, 24.59])] | 查詢col列中包含指定值的內容，返回整張表所有列 in

用法
df[-df[‘col’].isin([11,63])] | 查詢col列中不包含多個值的內容，返回整張表 not in 用法

程式碼案例

    import pandas as pd
    data={'a':[1,2,3,4,3,2,6],
          'b':[43,23,52,23,11,63,83],
          'c':['true','fales','true','true','fales','fales','true']}
    data=pd.DataFrame(data)#建立一個df表
    Out[33]: 
       a   b      c
    0  1  43   true
    1  2  23  fales
    2  3  52   true
    3  4  23   true
    4  3  11  fales
    5  2  63  fales
    6  6  83   true

    #查詢b列內容大於等於30的所有列
    data[data['b']>=30] 
    Out[34]: 
       a   b      c
    0  1  43   true
    2  3  52   true
    5  2  63  fales
    6  6  83   true
     #查詢b類大於等於30並且a列小於5的所有列
    data[(data['b']>=30)&(data['a']<5)]
    Out[35]: 
       a   b      c
    0  1  43   true
    2  3  52   true
    5  2  63  fales
    #查詢b列不包含11和63的所有列，不用`-`號代表包含
    data[-data['b'].isin([11,63])]
    Out[36]: 
       a   b      c
    0  1  43   true
    1  2  23  fales
    2  3  52   true
    3  4  23   true
    6  6  83   true

python類似sql Group by分組用法

group一般會配合合計函式（Aggregate
functions）使用，比如：count、avg等。Pandas對合計函式的支援有限，有count和size函式實現SQL的count

語法	描述
df.groupby(‘sex’).size()	對欄位sex單列進行分組，只展示sex欄位計數
df.groupby(‘sex’)[‘tip’].count()	對欄位sex單列進行分組，計算tip欄位計數
df.groupby(‘sex’).count()	根據欄位sex單列進行分組計算，展示所有欄位計數
df.groupby(‘sex’).agg({‘tip’:np.max,‘total_bill’:np.sum})

根據欄位sex進行分組，分別求tip最大值，欄位total_bill求和值
df.groupby(‘tip’).agg({‘sex’: pd.Series.nunique}) | 去重tip欄位並依sex欄位進行計數
pd.pivot_table(df,index=col1,columns=col2,values=[col2,col3], aggfunc=max) |
建立一個按列col1進行分組，並計算col2和col3的最大值的資料透視表

python中的group也支援迭代常用於迴圈對整個df進行分組然後再進行加工

語法	描述
for x in df.groupby(‘col’):	迴圈語句對df表按col列進行分組，返回多個tuple，x[1]選取返回的df資料
for x in df.groupby([‘col’,‘col2’]):

迴圈語句對df表按col、col2列進行分組，返回多個tuple，x[1]選取返回的df資料

程式碼案例

直接groupby計算

    #按c列分組分別計算a,b列的和
    data.groupby('c').sum() 
    
    Out[37]: 
            a    b
    c             
    fales   7   97
    true   14  201
    
    #按c列分組只求a列的和
    data.groupby('c')['a'].sum()
    Out[38]: 
    c
    fales     7
    true     14

for迴圈groupby迭代

    #將data按c列分組，重新生成兩個單獨的df
    for x in data.groupby('c'):
        print(x[1])
    
    Out[40]:
       a   b      c
    1  2  23  fales
    4  3  11  fales
    5  2  63  fales
       a   b     c
    0  1  43  true
    2  3  52  true
    3  4  23  true
    6  6  83  true

python類似sql join關聯用法

語法	描述
pd.merge(a,b,how=‘left’,left_on=‘sex’,right_on=‘sex’)	on指定的列做join

Pandas滿足left、right、inner、outer四種join方
pd.merge(a,b,how=‘left’,on=[‘a1’,‘b1’,‘c1’]) |
on=指定需要相同的多列，至少三列列進行join同時滿足匹配
pd.merge(a,b,left_index=True,right_index=True) | 根據索引進行合併left_index or
right_index，解決一對多boolean型別

程式碼案例

    data1={'d':[7,44,1,44,31,42,3],
          'b':[43,23,52,23,11,63,83],
          'c':['true','fales','true','true','fales','fales','true']}
    data1=pd.DataFrame(data1)#再創一個表命名為data1，data表在最前面
    
    Out[52]: 
        d   b      c
    0   7  43   true
    1  44  23  fales
    2   1  52   true
    3  44  23   true
    4  31  11  fales
    5  42  63  fales
    6   3  83   true

    pd.merge(data,data1,how='inner',left_on='a',right_on='d')
    #取data表a列與data1表d列相同的交集部分
    Out[55]: 
       a  b_x    c_x  d  b_y   c_y
    0  1   43   true  1   52  true
    1  3   52   true  3   83  true
    2  3   11  fales  3   83  true

python類似sql order排序用法

語法	描述
df.sort_values([‘col’], ascending=False)	按col列排序，ascending=False為 `降序`
df.sort_values([‘col’], ascending=True)	按col列排序，ascending=True為 `升序`
df.sort_index(ascending=False)	根據索引進行排序，ascending=False為 `降序`

程式碼案例

    data.sort_values(['a'],ascending=[True])對a列進行排序
    
    Out[56]: 
       a   b      c
    0  1  43   true
    1  2  23  fales
    5  2  63  fales
    2  3  52   true
    4  3  11  fales
    3  4  23   true
    6  6  83   true

python類似sql Distinct去重用法

語法	描述
df.drop_duplicates(subset=[‘col’], keep=‘first’, inplace=True)

根據某列對dataframe進行去重

包含引數

引數	描述
subset	為選定的列做distinct，預設為所有列
keep	值選項{‘first’, ‘last’, False}，保留重複元素中的第一個、最後一個，或全部刪除
inplace	預設為False，返回一個新的dataframe；若為True，則返回去重後的原dataframe

程式碼案例

    data.drop_duplicates(subset=['a'],keep='first',inplace=True)
    #將data表a列中重複的去掉，並替換原表
    Out[59]: 
       a   b      c
    0  1  43   true
    1  2  23  fales
    2  3  52   true
    3  4  23   true
    6  6  83   true

python資料分析-類似sql用法

文章目錄

python類似sql where用法或excel查詢用法

python類似sql Group by分組用法

python類似sql join關聯用法

python類似sql order排序用法

python類似sql Distinct去重用法

python資料分析-類似sql用法

Python資料分析pandas模組用法例項詳解

Python資料分析模組pandas用法詳解

Python統計分析模組statistics用法示例

python資料分析:關鍵字提取方式

基於Python資料分析之pandas統計分析

python資料分析工具之 matplotlib詳解

python 資料分析實現長寬格式的轉換

1、Python 資料分析-NumPy科學計算

Python資料分析幫你清晰的瞭解整理員工們的工作效率和整體滿意度

1-python資料分析-Pandas基礎操作

2-python資料分析-基於pandas的資料清洗、DataFrame的級聯與合併操作

Python資料分析實戰：使用pyecharts進行資料視覺化

3-python資料分析-DataFrame級聯與合併操作鞏固之人口分析案例

Python資料分析：pandas 類庫及常用方法

Python資料分析常用模組介紹

python資料分析02語法基礎

python資料分析03Python的資料結構、函式和檔案

python資料分析 Numpy基礎陣列和向量計算

Python資料分析之全球人口資料

python資料分析-類似sql用法

文章目錄

python類似sql where用法或excel查詢用法

python類似sql Group by分組用法

python類似sql join關聯用法

python類似sql order排序用法

python類似sql Distinct去重用法

相關推薦