1. 程式人生 > >Pandas學習筆記之重複資料統計

Pandas學習筆記之重複資料統計

在醫院統計計算績效資料,通過在網上搜索,發現Pandas確實在資料處理確實快。本文章持續更新和更改,只供自己學習使用

一、重複資料查詢:

Pandas提供duplicated函式標記重複

pandas.DataFrame.duplicated(self, subset=None, keep=’first’)

subset:用於識別重複的列標籤或列標籤序列,預設所有列標籤

keep=‘frist’:除了第一次出現外,其餘相同的被標記為重複

keep=’last’:除了最後一次出現外,其餘相同的被標記為重複

keep=False:所有相同的都被標記為重複

舉例說明:
repeat=operationData[operationData.duplicated([‘手術日期’,’病案號’,”手術醫生”])]
print(repeat)
這樣就根據手術日期、病案號、手術醫生三列查出重複資料了,預設是把後出現的資料標記為重複

二、去掉重複資料:
使用drop_duplicates(subset=None, keep=’first’, inplace=False)
該函式也有keep引數,於duplicates一樣,另外該函式還有一個引數inplace,如果是True則直接修改源資料,False則返回一個修改後的副本

ExecuteDataFrame.drop_duplicates([“手術日期”,”手術名稱”,”病案號”])#去掉重複記錄
該函式返回已經刪除重複行記錄的dataframe

相關推薦

Pandas學習筆記重複資料統計

在醫院統計計算績效資料,通過在網上搜索,發現Pandas確實在資料處理確實快。本文章持續更新和更改,只供自己學習使用 一、重複資料查詢: Pandas提供duplicated函式標記重複 pandas.DataFrame.duplicated(self,

Redis學習筆記基本資料結構

Redis基礎資料結構 Redis有5種基本資料結構:String(字串)、list(列表)、set(集合)、hash(雜湊)、zset(有序集合) 字串string 字串型別是Redis的value最簡單的資料結構,類似與Java語言中的ArrayList(數

MATLAB學習筆記——5.1 資料統計與分析

1、求矩陣的最大元素和最小元素 函式: max():求向量或矩陣的最大元素; min():求向量或矩陣的最小元素; 當引數為向量時,上述函有兩種呼叫格式: (1)y=max(X):返回向量 : X的最大值存y,如果 X中包含複數元素,則按模取最大值。 (

學習筆記Python資料型別-Number

Number Python 2 中的數字,支援int, float, bool, complex, long這些資料型別,其中long(即長整型)很少用。 int >>> v1 = 10 >>> type(v1) #type()方法可

pandas學習筆記Dataframe索引

# DataFra是一個表格, 有行索引和列索引,可以被看做由Series組成的字典(共用一個索引) import numpy as np import pandas as pd df = pd.DataFrame(np.random.rand(12

Lucene學習筆記-核心資料結構PriorityQueue的實現原理

Luene的核心應用場景是全文檢索。簡單來說,就是通過使用者輸入的關鍵詞來匹配相關文件,然後根據匹配程度返回TopN的查詢結果給使用者。 這裡需要解決的一個核心問題就是如何快速返回TopN的結果,這本質上是一個排序的問題。說起排序,我們有很多選擇,冒泡,快排,歸併...。 這些排序演算法在資料量小的時候,不是

學習筆記Python資料型別-String

字串 字串或串(String)是由數字、字母、下劃線組成的一串字元。一般記為s=“a1a2···an”(n>=0)。它是程式語言中表示文字的資料型別。 兩個字串相等的充要條件是:長度相等,並

Android程式設計學習筆記 File資料儲存

File檔案可用來存放大量資料,如文字、圖片、音訊、視訊等。 在Android的資料儲存操作和Java中的IO流差不多的用法。 進行File資料儲存的步驟如下: ①開啟一個File物件 ②開啟一個FileOutputStream檔案輸出流,寫入資料 ③開啟一個FileIn

Go學習筆記高階資料型別

高階資料型別,僅僅是做個概念認識,等到其他相關知識的學習時,再著重分析。 1 function 將 function 作為資料型別的語言有很多,函數語言程式設計的核心理念。 function 是“第一等公民”,function 與其他資料型別一樣,處於平等地位,可以賦值給

流暢的python 學習筆記Python資料模型

python和其他語言大不相同的是,python具有自己的‘’python風格‘’如在python中的len(collection)在其他語言中可能是collection.len( ).這種設計思想完全體現在python的資料模型上,而資料模型所描述的API為使用最地道的語言

IDL學習筆記資料的輸入輸出與檔案讀寫

print,arr,format='(1i)';format控制輸出格式,eg:I02——int型,用0補全兩位輸出;I-   ——左對齊;讀取txt檔案的基本步驟:①獲取元資料②根據元資料建立一個空的陣列③定位到對應資料的位置,把裡面的陣列讀出來pro testreadtx

Android程式設計學習筆記 SQLite資料儲存

SQLite是一個輕量級的嵌入式的資料庫,我們在Android開發中不需要安裝任何外掛即可使用, 如果是root過的手機,可以在data/data/包名/databases裡面找到db資料庫檔案,推薦

從零開始學Python學習筆記-----pandas資料框(1)

作為從事資料相關工作朋友,平時接觸的更多的可能是一張有板有眼的資料表格,在這裡我們就叫作資料框。在Python中可以通過pandas模組的DataFrame函式構造資料框。 1、資料框的構造 在Python中,可以藉助於列表、元組、字典進行手工構建資料框,我們用例子說明:

從零開始學Python學習筆記-----pandas資料框(3)

在pandas資料框(2)我們使用pandas模組實現觀測的篩選、變數的重新命名、資料型別的變換、排序、重複觀測的刪除、和資料集的抽樣,這期我們繼續介紹pandas模組的其他新知識點。包括頻數統計、缺失值處理、資料對映、資料彙總。 一、頻數統計 我們以被調查使用者的收入資料

學習筆記pandas: Python Data Analysis Library

open .com sets 學習 and ref ftw pro title Python Data Analysis Library — pandas: Python Data Analysis Library https://pandas.pydat

流媒體技術學習筆記(三)Nginx-Rtmp-Module統計某頻道在線觀看流的客戶數

sele lec rest uri class origin 客戶 擴展 raw 獲得訂閱者人數,可以方便地顯示觀看流的客戶數。 查看已經安裝好的模塊 /usr/local/nginx/sbin/nginx -V 安裝從源編譯Nginx和Nginx-RTMP所

統計學習方法——學習筆記概論

單調遞增 可能 性能 gist 子集 數據 速度 計算機 模型選擇 原文地址(http://liuao.tech/post/20180612/) 1.統計學習 赫爾伯特·西蒙曾對學習給出以下定義: 如果一個系統能夠通過執行某個過程改進它的性能,這就是學習。

資料結構學習筆記線性表

一、概念 什麼是線性表呢? 一個簡單的理解如下: 線性表是由稱為元素(Element)的資料項組成的一種有限且有序的序列 其中,這裡有一個需要注意的地方: 有序是指線性表中的每個元素都有自己的位置,而不是指線性表中的元素按某種順序排列 二、抽象資料型別定義 要給資料結構定

資料結構與演算法學習筆記後進先出的“桶”

前言 棧最為一種的常用的資料結構,用“桶”來形容最合適不過;今天我們就來學習一下 正文 一、棧的定義? 1.“後進先出,先進後出”的資料結構。 2.從操作特性來看,是一種“操作受限”的線性表,只可以在一端插入和刪除資料。   二、為什麼需要棧?  

程世東老師TensorFlow實戰——個性化推薦,程式碼學習筆記資料匯入&資料預處理(上)

程式碼來自於知乎:https://zhuanlan.zhihu.com/p/32078473 /程式碼地址https://github.com/chengstone/movie_recommender/blob/master/movie_recommender.ipynb 下一篇有一些資料的