Pandas---實現SQL中分組排序

阿新 • • 發佈：2018-12-24

hive中經常會用到row_number這個函式，比如取使用者第n次購買，前n次購買記錄等等。那麼python中如何實現呢？直接看個例子即可

下面是a、b兩個使用者購買的記錄，user為使用者名稱，amount為消費金額，要去按照user分組，組內按照amount降序排序，並且新增一列標識序號

import pandas as pd
df = pd.DataFrame({'user':['a','a','a','b','b'],'amount':[21,11,31,32,42]})
df

	user	amount
0	a	21
1	a	11
2	a	31
3	b	32
4	b	42

下面構建輔助函式:
這個函式兩個功能，一個是提供分組排序的功能
另外提供部分聚合函式的功能

import pandas as pd
def test_f(df,column,istopn = False,n=1):
    """
    df:資料框
    column:為需要對之聚合的列
    istopn:返回每一組的第n行資料
    """ 

    count = len(df)
    distinct_count = df[column].nunique()
    sum = df[column].sum()
    avg = df[column].mean()
    if istopn == True:
        # 降序生序，自己注意
        # df.sort_values(by=column, ascending=False)[:n] # 返回前n個
        temp_data = df.sort_values(by=column, ascending=False)
        temp_data[ 
'row'] = range(len(df))
        return temp_data
    else:
        return pd.DataFrame({'count':[count],'distinct_count':[distinct_count],'sum':[sum],'avg':[avg]})

df_sort = df.groupby(['user']).apply(test_f,column = 'amount',istopn = True)
df_sort

		user	amount	row
user
a	2	a	31	0
	0	a	21	1
	1	a	11	2
b	4	b	42	0
b	3	b	32	1

改變行索引

df_sort.index = range(len(df_sort))
df_sort

	user	amount	row
0	a	31	0
1	a	21	1
2	a	11	2
3	b	42	0
4	b	32	1

後面對row這一列進行篩選，即可.

2018-12-105 於南京市棲霞區紫東創業園

Pandas---實現SQL中分組排序

hive中經常會用到row_number這個函式，比如取使用者第n次購買，前n次購買記錄等等。那麼python中如何實現呢？直接看個例子即可下面是a、b兩個使用者購買的記錄，user為使用者名稱，amount為消費金額，要去按照user分組，組內按照amount降序排序，並且新增一

大資料教程（9.5）用MR實現sql中的jion邏輯

上一篇部落格講解了使用jar -jar的方式來執行提交MR程式，以及通過修改YarnRunner的原始碼來實現MR的windows開發環境提交到叢集的方式。本篇博主將分享sql中常見的join操作。 &nbs

SQL中-分組拼接-某列的方法_ORACLE(對於做echarts等圖表的資料返回格式非常有用!!)

函式名:wm_concat(XX);(注意:ORACLE10g及以上版本支援) 分組拼接前: 分組拼接後: 得到以','隔開的字串.最後處理下可以得到對應陣列.解決echarts的折線圖等返回資料格式問題.要比寫演算法輕鬆的多. select tt.name,

用pandas實現sql功能

select airport_ident, type, description, frequency_mhz from airport_freq join airports on airport_freq.airport_ref = airports.id where airports.ident =

SQL實現group by 分組後組內排序

在一個月黑風高的夜晚，自己無聊學習的SQL的時候，練習，突發奇想的想實現一個功能查詢，一張成績表有如下欄位，班級ID，英語成績，資料成績，語文成績如下圖實現查詢出每個班級英語成績最高的前兩名的記錄。看起來不難的業務，做起來才知道還挺麻煩的，說白了其實就是實現分組後的組

SQL實現分組排序編號（rownumber+over的替代辦法）

今天看到論壇有人提問：按規律自動生成序號要實現的效果如下： 1、建表語句、插入資料： CREATE TABLE tb(pz NVARCHAR(10),jzyf DATE); INSERT IN

如何用Elasticsearch實現類似SQL中的IN查詢實例

red ast last .cn lte style sea ges logs 我想實現類似如下sql語句的效果： select * from table1 where rw_id in (‘7a482589-e52e-0887-4dd5-5821aab77eea‘,‘c

模擬實現MyBites中通過SQL反射實體類對象功能

println sub var void mysql exc 模擬實現 obj 執行話不多說，直接上幹貨！ package cn.test; import java.lang.reflect.Method; import java.sql.Connection; im

關於Oracle數據庫中SQL空值排序的問題

空格如果 lec 語法 body 空字符版本其他 base 在Oracle中進行查詢排序時，如果排序字段裏面有空值的情況下，排序結果可能會達不到自己想要的結果。如 select * from tableTest order by VISITS desc 將原

動態SQL中實現條件參數 varchar類型的參數名稱以及模糊查詢實現

pty set tab 條件 name 條件參數 arc str ble set @strSQL=‘select * from testtable AS P WHERE P.Type=‘+@PType+‘

perl 實現字符串中數字排序

pre 數字類型數組排序 each cmp reac bsp ont 數組數值類型數組排序使用： sort { $a <=> $b } @array; #升序排列 sort { $b <=> $a } @array; #降序排列字符串

MySQL數據庫中實現對中文字段按照首字字母排序

gb2 size 查詢語句處理 bsp 源碼編譯情況 ets latin1 1. 在MySQL中，我們經常會對一個字段進行排序查詢，但進行中文排序和查找的時候，對漢字的排序和查找結果往往都是錯誤的。這種情況在MySQL的很多版本中都存在。如果這個問題不解決，那麽M

SQL中排序函式的用法

SQL中的排序函式有三：1、row_number() over()；2、rank() over()；3、dense_rank() over()，具體用法如下： 1.row_number() over(partition by 列名 order by 列名 [desc]) 其中，partition by 是分組

SQL中排序函數的用法

函數 partition row mysql part order 兩個無法使用重復 SQL中的排序函數有三：1、row_number() over()；2、rank() over()；3、dense_rank() over()，具體用法如下： 1.row_number

SQL分組排序

row_number() over(partition by '分組' order by '日期') 對每組的資料按日期正序排序並加上行號，取出時只取行號為1，也就是第一條資料。 1、row_number() over()排序功能：（1） row_number() o

Java排行榜中多級排序的一種正確實現方式

需求：1，外層根據參與人數排序，並據此分頁 2，內層首先根據級別排序，級別相同時，按照票數排序，固定展示8條實現基礎：ArrayList 可能的坑：僅僅對最外層list執行一次排序呼叫，此時，無法確

【python】詳解pandas.DataFrame.plot( ) 中引數secondary_y實現雙座標軸使用

首先看官網的DataFrame.plot( )函式 secondary_y : boolean or sequence, default False # 可以是布林值或者是數列 Whether to plot on the secondary y-axis

【sumcol】SQL中同記錄欄位求和並排序

在mysql資料庫中有一張人物表t_character，欄位名及資料如下：現在有一個需求，需要查詢出攻擊力與防禦力之和排名前三的人物，並按其速度從大到小排序。難點在於同一條記錄中的不同欄位求和排序，這裡用到一個mysql中不常用的函式sumcol: select * from

在使用pandas 0.23.4對日期進行分組排序時報錯

date_df["rank_num"] = date_df.groupby("issuer_id").report_date.agg("rank", **{"ascending": 1, "method": "min"}) File "D:\python_virtualenv\es_env\

如何在T-sql 中實現陣列的功能

T-SQL象陣列一樣處理字串、分割字串在日常的程式設計過程中，陣列是要經常使用到的。在利用SQL對資料庫進行操作時，有時就想在SQL使用陣列，比如將1,2,3,4,5拆分成陣列。可惜的是在T-SQL中不支援陣列。不過還是有變通的辦法。我們可以自己編寫兩函式Get

Pandas---實現SQL中分組排序

相關推薦