巧用groupby解決Dataframe篩選分組效率慢問題

阿新 • • 發佈：2019-01-30

原始碼：

for name in list_valid_perfor_inventory:
    time_stamp = time.time()
    df_tmp1 = df_all_performance[df_all_performance['res_ins_id'] == name] ###170萬行，該語句大約需要2S
    if df_tmp1.empty:
        continue
    del df_tmp1['res_ins_id']
    print('choose time ')
    print(str(time.time() - time_stamp))
    time_stamp = time.time()
    df_tmp1.to_csv(path_or_buf 
=os.path.join(cs.max_avg_busy_dir, str(name) + '.csv'))
    print(str(time.time() - time_stamp))

優化後代碼：

groups = df_all_performance.groupby('res_ins_id')  ##先分組
for name in list_valid_perfor_inventory:
    time_stamp = time.time()
    df_tmp1 = groups.get_group(name) ##再取每組的值，返回dataframe
    if df_tmp1.empty:
        continue
 
    del df_tmp1['res_ins_id']
    df_tmp1.to_csv(path_or_buf=os.path.join(cs.max_avg_busy_dir, str(name) + '.csv'))

巧用groupby解決Dataframe篩選分組效率慢問題

原始碼：for name in list_valid_perfor_inventory: time_stamp = time.time() df_tmp1 = df_all_performance[df_all_performance['res_ins_id'

巧用CAS解決數據一致性問題

成功一個沒有 -s ado .cn 這一 gpo rtg 緣起：在高並發的分布式環境下，對於數據的查詢與修改容易引發一致性問題，本文將分享一種非常簡單但有效的優化方法。一、業務場景業務場景為，購買商品的過程要對余額進行查詢與修改，大致的業務流程如下：（1）從數

用 GroupBy 把JSON物件分組

不用寫實體類,將物件分組 static void Main(string[] args) { var jsonStr = new StringBuilder(); //準備JSON 模擬從資料庫查出的結果

巧用goto解決記憶體洩露問題

C語言記憶體洩露一直以來是個令人頭痛的問題，一不小心就會掉坑，老程式設計師也不能避免，這裡提出一種程式設計風格，試圖解決該問題。 //檢查malloc返回的指標，如果為空，則跳到label位置 #define MALLOC_CHECK(ptr, label)

巧用RxJava解決網路連線失敗問題及Token失效自動獲取問題

網路連線失敗的處理看過最前面那篇文章的應該很清楚retryWhen()是什麼了。我再來總結一下，retryWhen()的直面意思就是：發生錯誤了，接下來該做什麼。 retryWhen()是RxJava的一種錯誤處理機制，當遇到錯誤時，將錯誤傳遞給另一個

巧用vim正則表示式分組替換功能

this.專案編號TextBox.Text = _Obj.專案編號; this.專案名稱TextBox.Text = _Obj.專案名稱; this.負責人TextBox.Text = _Obj.負責人;

hive使用技巧（四）——巧用MapJoin解決資料傾斜問題

相關文章推薦： Hive的MapJoin，在Join 操作在 Map 階段完成，如果需要的資料在 Map 的過程中可以訪問到則不再需要Reduce。小表關聯一個超大表時，容易發生資料傾斜，可以用MapJoin把小表全部載入到記憶體在map端進行join，避免r

巧用 Lazy 解決.NET Core中的迴圈依賴關係

> 原文作者: Thomas Levesque > 原文連結：[https://thomaslevesque.com/2020/03/18/lazily-resolving-services-to-fix-circular-dependencies-in-net-core/](https://thomasle

JavaScript巧用對象的引用解決三級聯動

比較 MQ href 分享 result 地址們的解決問題 8.0 在開發過程中，我們經常會有操作需要進行三級聯動操作，比較典型的如：省市區的選擇，菜單欄的選擇等。當我們遇到這個問題的時候，為了便於開發，我們都是通常使用第三方的插件來實現數據的聯動效果。這

#巧用"/"和"%"解決實際

在使用“/”和“%”中，主要存在兩個問題 1:區分不清楚；2:在解決問題使不能充分的利用這兩個運算子。基本概念： [1 ] “/” 表示除法;兩個整數相除的結果為整數,所以想要得到float型別或double型別,需要進行數值轉換或將分子乘以1.0； e.g: 5/3=1；(

Python selenium巧用Javascript指令碼注入解決按鈕點選問題

　　前段時間，筆者忙於應付公司組織的雅思考試，白天、晚上但凡有空，筆者都是埋頭伏案，啃劍橋雅思（劍4~劍12）的官方模擬題或者做著與雅思考試相關的準備工作，這個過程持續了40余天。最近總算鼓起勇氣走進考場，跟那些尚未畢業、懷揣出國夢想的小年輕同場競爭，雖然結果還未出來，但是至少短時間不用再高強度複習英語了，筆

巧用這19條MySQL優化，效率至少提高3倍

本文我們來談談專案中常用的MySQL優化方法，共19條，具體如下： 1、EXPLAIN 做MySQL優化，我們要善用EXPLAIN檢視SQL執行計劃。下面來個簡單的示例，標註（1、2、3、4、5）我們要重點關注的資料： type列，連線型別。一個好的SQL語句至少要達到range級別。杜絕出現a

巧用三進位制解決天平稱重問題

1.問題描述：用天平稱重時，我們希望用盡可能少的砝碼組合稱出儘可能多的重量。如果有無限個砝碼，但它們的重量分別是1，3，9，27，81，……等3的指數冪神奇之處在於用它們的組合可以稱出任意整數重量（砝碼允許放在左右兩個盤中）。本題目要求程式設計實現：對使用者給

巧用mybatis 的標籤的 index 屬性解決批量排序值問題

簡介在實際的工作中，我們往往遇到批量資料儲存或者編輯的時候需要進行排序欄位設定儲存排序順序的問題。大多的時候，我們選擇在程式碼中進行遍歷設定，其實這種選擇存在一個問題，主要是我們更多的時候其實只是為了設定一個 sort欄位的值，並不進行其他相關業務邏輯

巧用Linq分組

如下圖，想根據下面的資料按天求和分組（紅框部分）在後臺取過來用ORM已經轉成了物件陣列，為了避免再去寫麻煩的sql語句(資料量不大，不要求效能)，就用了Linq，問題是分組的部分不是時間欄位的全部，只是年月日部分，然後對數值部分進行求和

巧用函式索引解決資料傾斜列查詢

首先宣告：本方法是受到dbsnake的指導，再次感謝指點。通常來說，索引選取的資料列最好為分散度高、選擇性好。從索引樹結構的角度看，列值都是分佈在葉節點位置。這樣，通過樹結構搜尋得到的葉節點數量效率比較高。實際中，我們常常遇到資料列值傾斜的情況。就是說，整個列資料取值有限。但

巧用雲原生能力和工具，提升雲上運維效率

雖然各大行業和企業都在暢談擁抱雲端計算，或正在踐行通過雲端計算完成業務的數字化轉型，但在真正落地過程中，擺在開發者或運維人員面前的問題顯得更直接和殘酷。從上雲 POC 測試、業務遷移、應用部署、日常運維、到後續的持續性優化，每個階段都面臨著不同的挑戰。與傳統運維不同，雲上運維人員完全接觸不到物理裝置，感知不

初識視覺SLAM：用相機解決定位和建圖問題

視覺slam引言：視覺SLAM 是指用相機解決定位和建圖問題。本文以一個小機器人為例形象地介紹了視覺SLAM的功能及特點。本文選自《視覺SLAM十四講：從理論到實踐》。　　SLAM 是Simultaneous Localization and Mapping 的縮寫，中文譯作“同時定位與地圖構建”。它是指搭載

巧用Drawable 實現Android UI 元素間距效果

purple 固定展示 .com otto 技巧 log contain dev 源文地址：巧用Drawable 實現Android UI 元素間距效果在大部分的移動UI或者Web UI都是基於網格概念而設計的。這種網格一般都是有一些對其的方塊組成，然後

巧用task

執行 span src 定時 mage family tput isa alt task:系統任務， ? 一般用於驗證模塊，或者抽象行為描述的模塊；? 可以包含input, output 、 inout 端口定義和參數；? 可以包含時間控制（如： # delays, @,

巧用groupby解決Dataframe篩選分組效率慢問題

相關推薦