pandas資料處理實踐三（DataFrame.apply資料預處理、DataFrame.drop_duplicates去重）

阿新 • • 發佈：2018-12-13

通過apply進行資料的預處理：

DataFrame.apply（func，axis = 0，broadcast = None，raw = False，reduce = None，result_type = None，args =（），** kwds ）

In [70]:  df = pd.read_csv('apply_demo.csv')

In [71]: df.head() # 預設取前5行
Out[71]:
         time                                data
0  1473411962   Symbol: APPL Seqno: 0 Price: 1623
1  1473411962   Symbol: APPL Seqno: 0 Price: 1623
2  1473411963   Symbol: APPL Seqno: 0 Price: 1623
3  1473411963   Symbol: APPL Seqno: 0 Price: 1623
4  1473411963   Symbol: APPL Seqno: 1 Price: 1649

In [72]: df.shape # 表示有3989個樣本，每個樣本有兩個特徵（資料）
Out[72]: (3989, 2)

In [73]: df.size # 返回的是資料的元素個數，即3989*2 = 7978
Out[73]: 7978

In [74]: s1 = Series(['a']* 3992) # 注意經多次試驗，如果s1的長度多於df的長度即3989，則最後和新增以後^M
    ...: # 和df相同，反之還是以df為準，不夠的使用nan填充

In [75]: df['A'] = s1

In [76]: df.head()
Out[76]:
         time                                data  A
0  1473411962   Symbol: APPL Seqno: 0 Price: 1623  a
1  1473411962   Symbol: APPL Seqno: 0 Price: 1623  a
2  1473411963   Symbol: APPL Seqno: 0 Price: 1623  a
3  1473411963   Symbol: APPL Seqno: 0 Price: 1623  a
4  1473411963   Symbol: APPL Seqno: 1 Price: 1649  a

In [77]: df['A'] = df['A'].apply(str.upper) # 輸入一個功能函式，應用於每個列或行進行迭代，對A 
                                            # 這一列把小寫變為大寫，預設是行進行迭代

In [78]: df.head()
Out[78]:
         time                                data  A
0  1473411962   Symbol: APPL Seqno: 0 Price: 1623  A
1  1473411962   Symbol: APPL Seqno: 0 Price: 1623  A
2  1473411963   Symbol: APPL Seqno: 0 Price: 1623  A
3  1473411963   Symbol: APPL Seqno: 0 Price: 1623  A
4  1473411963   Symbol: APPL Seqno: 1 Price: 1649  A

In [79]: # data中的資料有三種值，想把data中的三種值提取出來單獨用作多列

In [80]: l1 = df['data'][0].strip().split(' ') # .strip()是去除空格，split（" "）是以空格為分隔符進行分割

In [81]: l1
Out[81]: ['Symbol:', 'APPL', 'Seqno:', '0', 'Price:', '1623']

In [82]: l1[1], l1[3],l1[5]
Out[82]: ('APPL', '0', '1623')

In [83]: # 定義一個函式進行提取想要提取的資料，並返回Series結構資料

In [84]: def foo(line):^M
    ...:     items = line.strip().split(' ')^M
    ...:     return Series([items[1], items[3], items[5]])
    ...:
    ...:

In [85]: df_tmp = df['data'].apply(foo) # 進行資料處理並返回

In [86]: df_tmp = df_tmp.rename(columns={0:'Symbol', 1:'Seqno', 2:'Price'}) # 更改columns的名稱

In [87]: df_tmp.head()
Out[87]:
  Symbol Seqno Price
0   APPL     0  1623
1   APPL     0  1623
2   APPL     0  1623
3   APPL     0  1623
4   APPL     1  1649

In [88]: df_new = df.combine_first(df_tmp) # 通過combine_first新增到目標資料中

In [89]: df_new.head()
Out[89]:
   A   Price  Seqno Symbol                                data        time
0  A  1623.0    0.0   APPL   Symbol: APPL Seqno: 0 Price: 1623  1473411962
1  A  1623.0    0.0   APPL   Symbol: APPL Seqno: 0 Price: 1623  1473411962
2  A  1623.0    0.0   APPL   Symbol: APPL Seqno: 0 Price: 1623  1473411963
3  A  1623.0    0.0   APPL   Symbol: APPL Seqno: 0 Price: 1623  1473411963
4  A  1649.0    1.0   APPL   Symbol: APPL Seqno: 1 Price: 1649  1473411963

In [90]: del df_new['A'],df_new['data'] # 刪除無用的資料Series

In [91]: df_new.head()
Out[91]:
    Price  Seqno Symbol        time
0  1623.0    0.0   APPL  1473411962
1  1623.0    0.0   APPL  1473411962
2  1623.0    0.0   APPL  1473411963
3  1623.0    0.0   APPL  1473411963
4  1649.0    1.0   APPL  1473411963

In [92]: df_new.to_csv('demo_duplicate.csv')

去重：

DataFrame.drop_duplicates（subset = None，keep ='first'，inplace = False ）

返回刪除了重複行的DataFrame

引數：	subset：列標籤或標籤序列，可選僅考慮用於標識重複項的某些列，預設情況下使用所有列保持：{'first'，'last'，False}，預設'first' `first` ：刪除第一次出現的重複項。 `last` ：刪除重複項，除了最後一次出現。錯誤：刪除所有重複項。 inplace：布林值，預設為False 是否刪除重複項或返回副本

In [93]: df = pd.read_csv('demo_duplicate.csv')

In [94]: df.head()
Out[94]:
   Unnamed: 0   Price  Seqno Symbol        time
0           0  1623.0    0.0   APPL  1473411962
1           1  1623.0    0.0   APPL  1473411962
2           2  1623.0    0.0   APPL  1473411963
3           3  1623.0    0.0   APPL  1473411963
4           4  1649.0    1.0   APPL  1473411963

In [95]: del df['Unnamed: 0'] # 刪除Unnamed: 0  columns

In [96]: df.head() # 發現Seqno有很多重複的值，下面進行去除工作
Out[96]:
    Price  Seqno Symbol        time
0  1623.0    0.0   APPL  1473411962
1  1623.0    0.0   APPL  1473411962
2  1623.0    0.0   APPL  1473411963
3  1623.0    0.0   APPL  1473411963
4  1649.0    1.0   APPL  1473411963

In [97]: df.shape  # 看看有多少資料
Out[97]: (3989, 4)

In [98]: len(df['Seqno'].unique()) # 看看該列有多少種數值
Out[98]: 1000

In [99]: df['Seqno'].duplicated().head() # 判斷是否是重複的數值，一般第一個為原始的後面的為重複資料。
Out[99]:
0    False
1     True
2     True
3     True
4    False
Name: Seqno, dtype: bool

In [100]: df['Seqno'].drop_duplicates().head() # 刪除重複的，預設保留第一個出現的，返回的series
Out[100]:
0     0.0
4     1.0
8     2.0
12    3.0
16    4.0
Name: Seqno, dtype: float64

In [101]: df.drop_duplicates().head() # 發現還是沒刪除完重複的
Out[101]:
    Price  Seqno Symbol        time
0  1623.0    0.0   APPL  1473411962
2  1623.0    0.0   APPL  1473411963
4  1649.0    1.0   APPL  1473411963
6  1649.0    1.0   APPL  1473411964
8  1642.0    2.0   APPL  1473411964

In [102]: df.drop_duplicates(['Seqno']).head() # 加入這一個columns就可以完成，是以這這一列為準刪除
Out[102]:
     Price  Seqno Symbol        time
0   1623.0    0.0   APPL  1473411962
4   1649.0    1.0   APPL  1473411963
8   1642.0    2.0   APPL  1473411964
12  1636.0    3.0   APPL  1473411965
16  1669.0    4.0   APPL  1473411966

In [103]: df.drop_duplicates(['Seqno'],keep='last').head() # keep='last'是以重複的最後一個進行保留
Out[103]:
     Price  Seqno Symbol        time
3   1623.0    0.0   APPL  1473411963
7   1649.0    1.0   APPL  1473411964
11  1642.0    2.0   APPL  1473411965
15  1636.0    3.0   APPL  1473411966
19  1669.0    4.0   APPL  1473411967

pandas資料處理實踐三（DataFrame.apply資料預處理、DataFrame.drop_duplicates去重）

通過apply進行資料的預處理： DataFrame.apply（func，axis = 0，broadcast = None，raw = False，reduce = None，result_type = None，args =（），** kwds ） In [70

n個元素的所有子集（遞迴＋非遞迴＋不去重）

一、非遞迴方法思路分析：n個元素的子集共有2^n個，其中包括空集。（1）假設有3個元素｛a, b, c｝，那麼此時有 2^3 個子集，即8個子集。（2）因為有8個子集，而且包括空集，注意7對

pandas資料處理實踐四（時間序列date_range、資料分箱cut、分組技術GroupBy）

時間序列：關鍵函式 pandas.date_range（start = None，end = None，periods = None，freq = None，tz = None，normalize = False，name = None，closed = None，**

pandas資料處理實踐五（透視表pivot_table、分組和透視表實戰Grouper和pivot_table）

透視表： DataFrame.pivot_table（values = None，index = None，columns = None，aggfunc ='mean'，fill_value = None，margin = False，dropna = True，margi

基於Hadoop生態圈的資料倉庫實踐 —— ETL（三）

三、使用Oozie定期自動執行ETL1. Oozie簡介（1）Oozie是什麼 Oozie是一個管理Hadoop作業、可伸縮、可擴充套件、可靠的工作流排程系統，其工作流作業是由一系列動作構成的有向無環圖（DAGs），協調器作業是按時間頻率週期性觸發的Oozie工

Python 項目實踐三（Web應用程序）第一篇

qlite 響應 cati face add imp 桌面應用是什麽相同一 Djangao入門當今的網站實際上都是富應用程序（rich application），就像成熟的桌面應用程序一樣。Python提供了一組開發Web應用程序的卓越工具。在本章中，你將學習如何使

Python 項目實踐三（Web應用程序）第二篇

lib body pattern 當前 pro .py per req view 接著上節的繼續學習，使用Django創建網頁的過程通常分三個階段：定義URL、編寫視圖和編寫模板。首先，你必須定義URL模式，每個URL都被映射到特定的視圖——視圖函數獲取並處理網頁所需的數據

資料處理--reshape2包（長寬資料）

寬資料 ozone wind temp 1 23.62 11.623 65.55 2 29.44 10.267 79.10 3 59.12 8.942 83.90 4 59.96 8.794 83.97 長資料 variable value 1 ozone 23.

大資料ETL實踐探索（4）---- 之搜尋神器elastic search

3.本地檔案匯入aws elastic search 修改訪問策略，設定本地電腦的公網ip，這個經常會變化，每次使用時候需要設定一下安裝anancota https://www.anaconda.com/download/ 初始化環境，win10下開啟Anaco

大資料ETL實踐探索（3）---- pyspark 之大資料ETL利器

5.spark dataframe 資料匯入Elasticsearch 5.1 dataframe 及環境初始化初始化， spark 第三方網站下載包：elasticsearch-spark-20_2.11-6.1.1.jar http://spark.apache.org/t

大資料ETL實踐探索（1）---- python 與oracle資料庫匯入匯出

文章大綱 ETL 簡介工具的選擇 1. oracle資料泵匯入匯出實戰 1.1 資料庫建立 1.2. installs Oracle 1.3 export / import data from oracle

大資料ETL實踐探索（2）---- python 與aws 互動

文章大綱本文主要使用python基於oracle和aws 相關元件進行一些基本的資料匯入匯出實戰，oracle使用資料泵impdp進行匯入操作，aws使用awscli進行上傳下載操作。本地檔案上傳至aws es，spark dataframe錄

大資料專案實踐指南（總體思路）

做了三個完整的大資料專案後，我整理了一下大資料的專案實踐思路，這裡寫下總體思路。如果加油的人多，我願意將其詳細編寫為一本書，就叫《大資料專案實踐指南》吧？哪個出版社有興趣的話，可以聯絡我。徐建明 18971024137為什麼大多數企業都實施大資料專案? 1,希望進行更有

MSSQL2008資料同步淺析三（問答篇）

3.1 IP地址訪問異常如果使用IP地址對SQL釋出伺服器進行訪問，會提示無法連線到伺服器，請使用實際的伺服器名稱來訪問；圖36 IP地址訪問導致異常圖37 IP地址訪問導致異常解決辦法：使用伺服器名稱訪問SQL 資料庫。 3.2

POJ - 2253 Frogger（Floyd最短路+預處理）

最短路 pri str 之間 col ace blank scanf oid 題目鏈接：http://poj.org/problem?id=2253 題意：青蛙要從點1到點2，給出各點的坐標，如果點A到點B可以通過A->C，C->B，A到B的距離可以用A-&g

Apache Spark 2.0三種API的傳說：RDD、DataFrame和Dataset

sensor json數據 query 答案內存 table 引擎 library spark Apache Spark吸引廣大社區開發者的一個重要原因是：Apache Spark提供極其簡單、易用的APIs，支持跨多種語言(比如：Scala、Java、Python和R

數據操作處理（數組拼接，去重）

nbsp ret ldr code span children UNC 數據 push 1.數組處理添加與拼接　　　　　　　　　　this.treeListData.push(res.payload.results.OADepartment);

UVa 1412 - Fund Management（狀壓DP + 預處理）

out code clas https continue amp 註意 emp 最後一天鏈接： https://uva.onlinejudge.org/index.php?option=com_onlinejudge&Itemid=8&page=show_

C/C++堆、棧及靜態資料區詳解（轉載只是為了查閱方便，若侵權立刪）

C/C++堆、棧及靜態資料區詳解　　本文介紹C/C++中堆，棧及靜態資料區。　　五大記憶體分割槽　　在C++中，記憶體分成5個區，他們分別是堆、棧、自由儲存區、全域性/靜態儲存區和常量儲存區。下面分別來介紹：　　棧，就是那些由編譯器在需要的時候分配，在不需要

JavaScript的函式（定義與解析、匿名函式、函式傳參、return關鍵字）和陣列（操作資料的方法、多維陣列、陣列去重）

函式函式就是重複執行的程式碼片。 1、函式定義與執行 <script type="text/javascript"> // 函式定義 function aa(){ alert('hello!'); } // 函式執行

pandas資料處理實踐三（DataFrame.apply資料預處理、DataFrame.drop_duplicates去重）

通過apply進行資料的預處理：

去重：

相關推薦