Python3資料分析入門實戰_04 玩轉Pandas 中

阿新 • • 發佈：2018-12-18

Apply進行資料預處理案例 Demo

# 資料讀入
df = pd.read_csv('J:/csv/apply_demo.csv')
# 採用Series為DataFrame新增新列 'A'
s1 = Series(['a'] * 7978)
df['A'] = s1
-----------------------------------------
            time	  data                        A
0	1473411962	Symbol: APPL Seqno: 0 Price: 1623	a
1	1473411962	Symbol: APPL Seqno: 0 Price: 1623	a
2	1473411963	Symbol: APPL Seqno: 0 Price: 1623	a
3	1473411963	Symbol: APPL Seqno: 0 Price: 1623	a
4	1473411963	Symbol: APPL Seqno: 1 Price: 1649	a
=================================================================

上述資料框中列data照片那個資料需要進行預處理

  # data 中資料 需要做列拆分
  # strip() 去除首尾空格
  # split() 分隔資料項
  df['data'][0].strip().split(' ')
  ----------------------------------
  ['Symbol:', 'APPL', 'Seqno:', '0', 'Price:', '1623']

自定義函式進行處理：實現上述程式碼功能，並返回data.dict中的values(通過索引)

  # 自定義函式進行處理
  def foo(data):
        items = data.strip().split(' ')
        return Series([items[1], items[3], items[5]])

apply 進行資料預處理

  # 臨時df 儲存分隔後的 date列
  df_temp = df['data'].apply(foo)
  -------------------------------
        0	1	2
  0	APPL	0	1623
  1	APPL	0	1623
  2	APPL	0	1623
  3	APPL	0	1623
  4	APPL	1	1649

臨時DataFrame列重新命名

  # 列重新命名
  df_new = df_temp.rename(columns={
        0: 'Symbol',
        1: 'Seqno',
        2: 'Price'
  })
  ---------------------------------
      Symbol	Seqno	Price
  0	    APPL	0	    1623
  1	    APPL	0	    1623
  2	    APPL	0	    1623
  3	    APPL	0	    1623
  4	    APPL	1	    1649

臨時DataFrame與原DataFrame合併

  # 將分隔完成的列新增到原df上
  df_ = df.combine_first(df_new)
  # 去除不必要的列 'A' 和列 'data'
  del df_['A']
  del df_['data']
  ------------------------------
  	Price	Seqno	Symbol	time
  0	1623.0	0.0	    APPL	1473411962
  1	1623.0	0.0	    APPL	1473411962
  2	1623.0	0.0	    APPL	1473411963
  3	1623.0	0.0	    APPL	1473411963
  4	1649.0	1.0	    APPL	1473411963

儲存至CSV檔案

  # 儲存至檔案
  df_.to_csv('demo_duplicate.csv', index=False)

資料去重參照預處理得到的 demo_duplicate.csv 資料檔案
如果儲存CSV的時候，未新增index=False，再次讀出的資料會出現索引列(列名為：Unnamed: 0)，建議儲存時進行索引去除。

        Price	Seqno	Symbol	time
0	    1623.0	0.0	    APPL	1473411962
1	    1623.0	0.0	    APPL	1473411962
2	    1623.0	0.0	    APPL	1473411963
3	    1623.0	0.0	    APPL	1473411963
4	    1649.0	1.0	    APPL	1473411963

通過上述資料展示可以看出：time為基準(索引0、1，索引2、3重複)，Seqno為基準(索引0、1、2、3重複)，Symbol為基準(索引0、1、2、3、4重複)，Price為基準(索引0、1、2、3重複)

重複檢查方法：duplicated()
在這裡插入圖片描述

  # 針對Seqno列進行去重，可通過keep引數選擇保留首次出現的資料項或最終出現的資料項
  # 去重前先檢視下該列的重複情況 duplicated函式進行檢視
  df['Seqno'].duplicated()
  ------------------------
  0       False
  1        True
  2        True
  3        True
  4       False

去重方法：drop_duplicates()

  # 使用 drop_duplicates() 進行列去重
  df.drop_duplicates(['Seqno'])
  ----------------------------------
        Price	Seqno	Symbol	time
  0	    1623.0	0.0	    APPL	1473411962
  4	    1649.0	1.0	    APPL	1473411963

時間序列的操作基礎
引入datetime

from datetime import datetime
t1 = datetime(2018, 12, 7)
-----------------------------
datetime.datetime(2018, 12, 7, 0, 0)

建立時間序列

# 時間列表
date_list = {
      datetime(2016,6,6),
      datetime(2016,7,7),
      datetime(2018,8,18),
      datetime(2015,5,15),
      datetime(2014,4,14),
}
# 時間序列
s1 = Series(np.random.randn(5), index=date_list)
------------------------------------------------
2018-08-18   -0.400025
2016-06-06    0.053413
2014-04-14    1.068531
2015-05-15    0.382434
2016-07-07    0.036097
dtype: float64

特殊訪問方式：模糊匹配

s1['2016-']
-----------
2016-06-06    0.053413
2016-07-07    0.036097
dtype: float64

生成特定時間內的時間序列

# 從2018-01-01 開始，長度為5，步長限制為W(周) 預設從SUN-SAT
date_list = pd.date_range('2018-01-01', periods=5, freq='W')
------------------------------------------------------------
2018-01-07   -1.601305
2018-01-14    0.554921
2018-01-21    0.344534
2018-01-28    0.040423
2018-02-04   -0.707336
Freq: W-SUN, dtype: float64

時間序列資料的取樣和畫圖

取樣

# 模擬時間列表 時間維度為一年
t_range = pd.date_range('2016-01-01', '2016-12-31')
# 構建時間序列
s1 = Series(np.random.randn(len(t_range)), index = t_range)

用 datetime 作為序列索引可通過 模糊匹配 進行更好的資料取樣工作。

# 將一個月的資料平均值作為一個數據點，生成長度為12的資料集合
s1['2016-01'].mean()
# 按照索引(月份)進行資料取樣(平均值資料)
s1_month = s1.resample('M').mean()
----------------------------------
2016-01-31   -0.018625
2016-02-29    0.231429
2016-03-31    0.256555
2016-04-30    0.200803
2016-05-31    0.229022
2016-06-30    0.115717
2016-07-31   -0.207785
2016-08-31   -0.002188
2016-09-30    0.076884
2016-10-31    0.233269
2016-11-30   -0.303828
2016-12-31   -0.028217
Freq: M, dtype: float64

備註：

# 也可以按照小時取樣，但是資料項需要填充 ffill()、bfill()
s1.resample('H').bfill()

畫圖：結合上述例子，將時間序列按照月份取樣後進行畫圖

# 準備時間序列
t = pd.date_range('2018-01-01', '2018-12-31')
# 構建DataFrame
df = DataFrame(index = t)
# 填充資料列
df['S1'] = np.random.randint(0, 15, size = 365)
df['S2'] = np.random.randint(0, 30, size = 365)
# 引入matplotlib
import matplotlib.pyplot as plt
# 畫圖 
df.plot()

此時，畫出的圖比較密集，不適合檢視，接下來進行資料取樣重新構圖。

# 準備一個新的DataFrame
df_ = DataFrame()
# 對時間序列的資料按照月份進行平均值取樣
df_['S1'] = df['S1'].resample('M').mean()
df_['S2'] = df['S2'].resample('M').mean()

資料分箱技術Binning： cut()
分數統計Demo，資料準備

# 原資料集
score_list = np.random.randint(25, 100, size=20)
# 區間設定
bins = [0, 59, 70, 80, 100]

資料分箱

# 資料分箱
res = pd.cut(score_list, bins)
# res 的資料型別
CategoricalDtype(categories=[(0, 59], (59, 70], (70, 80], (80, 100]]
                  ordered=True)
# cut 方法是將score_list 中的數值按照分箱區間 bins 劃分到不同的組中
# 相當將每一個數據項都打上分箱標籤
pd.value_counts(res)
--------------------
(80, 100]    7
(0, 59]      7
(59, 70]     5
(70, 80]     1
dtype: int64

例子拓展

# 容器建立
df = DataFrame()
# 資料項填充
df['score'] = score_list
df['name'] = [pd.util.testing.rands(3) for i in range(20)]
# 資料分箱
df['res'] = pd.cut(df['score'], bins, labels = ['Low', 'OK', 'Good', 'Great'])

這裡需要注意：labels 和 bins 中的分箱標籤要保持對應統一

df.sort_values('score', ascending = False).head()
-------------------------------------------------
	score	name	res
1	90	     dlw	Great
7	90	     HyF	Great
17	87	     a4M	Great
11	82	     L2y	Great
19	73	     lF5	Good

資料分組技術GroupBy：groupby()

# 資料分組
g = df.groupby('city')
# 檢視組內資料項集合
g.groups
--------
{'BJ': Int64Index([0, 1, 2, 3, 4, 5], dtype='int64'),
 'GZ': Int64Index([14, 15, 16, 17], dtype='int64'),
 'SH': Int64Index([6, 7, 8, 9, 10, 11, 12, 13], dtype='int64'),
 'SZ': Int64Index([18, 19], dtype='int64')}
===========================================
# 檢視某個資料項集合
g.get_group('BJ')
# 對組內資料項進行apply
g.get_group('BJ').mean()
------------------------
temperature    10.000000
wind            2.833333
dtype: float64
========================
# 對全組進行apply、
g.max()
-------------------------------------------
        date	temperature	wind
city			
BJ	31/01/2016	19	             5
GZ	31/07/2016	25	             5
SH	27/03/2016	20	             5
SZ	25/09/2016	20	             4
===========================================
g_ = df.groupby(['city', 'wind'])
# 獲取具體資料項集合的時候需要採用元組的形式作為獲取引數
g_.get_group(('BJ',2))
----------------------
    date     city	temperature	wind
1	17/01/2016	BJ	12	            2
2	31/01/2016	BJ	19	            2
4	28/02/2016	BJ	19	            2

Groupby = Split + Apply + Combine

在這裡插入圖片描述

資料聚合技術Aggregation：agg()

還是上述例子，對分組後資料的處理apply，我們採用agg()方法代替。

# agg() 進行資料聚合，含有內建函式
g.agg('mean')
-------------
	temperature	wind
city		
BJ	10.000	        2.833333
GZ	8.750	        4.000000
SH	4.625	        3.625000
SZ	5.000	        2.500000
========================
# 自定義聚合函式
def foo(data):
    return data.max() - data.min()
g.agg(foo)
----------
	temperature	wind
city		
BJ	22	           3
GZ	26	           3
SH	30	           3
SZ	30	           3

透視表：pivot_table()
透視表類比檢視作用，要對資料表結構比較熟悉和了解。

# 讀入資料檔案
df = pd.read_excel('J:/csv/sales-funnel.xlsx')
# aggfunc預設為mean求平均
# Manager 對應多個 Rep
# aggfunc 變更為求和 sum 計算出 price、quantity的和
# columns 針對具體列資料項進行處理
### 以下就是根據表結構構建的透視表，Manager-Rep的對應關係，以及每個Rep在每個產品上[銷售業績、銷售數量]
pd.pivot_table(df, 
              index=['Manager', 'Rep'], 
              values=['Price', 'Quantity'], 
              columns = ['Product'], 
              aggfunc=['sum'], fill_value=0)

在這裡插入圖片描述

Python3資料分析入門實戰_04 玩轉Pandas 中

Apply進行資料預處理案例 Demo # 資料讀入 df = pd.read_csv('J:/csv/apply_demo.csv') # 採用Series為DataFrame新增新列 'A' s1 = Series(['a'] * 7978) df['A'] = s1 --

Python3資料分析入門實戰_01 寫在開頭 +Numpy 入門

Python3資料科學入門與實戰寫在開頭，關於Python，我所瞭解的只是基礎語法和一些簡單類庫的使用，此次開篇教程學習目的是為了去了解關於資料分析、相關類庫的學習使用。多說一句，關於使用Python進行資料分析是不是需要對Python程式設計語法非常精通的問題。我想說：精通

用實戰玩轉pandas資料分析（一）——使用者消費行為分析（python）

CD商品訂單資料的分析總結。根據訂單資料（使用者的消費記錄），從時間維度和使用者維度，分析該網站使用者的消費行為。通過此案例，總結訂單資料的一些共性，能通過使用者的消費記錄挖掘出對業務有用的資訊。對其他產品的線上消費資料分析有一定的借鑑價值，能達到舉一反三的效果。訂單交易資料分析 [

2018年最新Python3資料科學入門與實戰教程

課程簡介：這是一個數據驅動的時代，想要從事機器學習、人工智慧、資料探勘等前沿技術，都離不開資料跟蹤，本課程通過Numpy、Pandas進行資料科學計算，通過Seaborn、 Matplotlib進行資料圖形化展示；從實戰角度出發，讓你在資料科學領域邁出重要的一步，開啟Data Scien

Python3資料分析與挖掘實戰

課程目標：讓學員從零基礎開始全面系統地掌握Python資料分析與挖掘的相關知識，並能夠勝任Python3資料分析及資料分析與挖掘中級工程師以上的工作，學完後，能夠讓學員掌握Python3基礎知識、編寫Python爬蟲進行網際網路資料採集、Python大資料分析與挖掘等方面的知

Python3資料分析與挖掘建模實戰

第1章課程介紹本章首先介紹本課程是什麼，有什麼特色，能學習到什麼，內容如何安排，需要什麼基礎，是否適合學習這門課程等。然後對資料分析進行概述，讓大家對資料分析的含義和作用有一個整體的認知，讓大家對自己接下來要做的事情，有一個基本的概念與瞭解。… 第2章資料

Python3資料科學入門與實戰

4-1 DataFrame的簡單數學計算 4-2 Series和DataFrame的排序 4-3 重新命名Dataframe的index 4-4 DataFrame的merge操作 4-5 Concatenate和Combine 4-6 通過apply進行資料預處理 4-7 通過去重進

Weave 網絡結構分析 - 每天5分鐘玩轉 Docker 容器技術（64）

docker 教程容器上一節我們安裝並創建了 Weave 網絡，本節將部署容器並分析網絡結構。在 host1 中運行容器 bbox1：eval $(weave env)docker run --name bbox1 -itd busybox 首先執行 eval $(weave env) 很重要

DaemonSet 案例分析 - 每天5分鐘玩轉 Docker 容器技術（130）

user 結構 lan border 部署分析需要 tex 1.5 本節詳細分析兩個 k8s 自己的 DaemonSet：kube-flannel-ds 和 kube-proxy 。kube-flannel-ds下面我們通過分析 kube-flannel-ds 來學習

python3執行《21個專案玩轉深度學習》遇到的問題

由於我的環境是python3，而這本書用的是python2，所以學習過程中會有一些程式碼不相容的問題，在此列出我遇到的。 chapter_8中使用自己的資料集進行訓練時會遇到: Traceback (most recent call last): File "main.py", line

獨家 | Python資料分析入門指南

有一個朋友最近問到這個問題，我覺得把它公開出來對其他人也會有幫助。這是給完全不瞭解Python而想找到從零到一的最簡單的路徑的人的建議： 1. 在這裡（https://www.continuum.io/downloads）下載適用於你的作業系統的Python 3.X的Anaco

資料分析入門

資料分析的概念 1.字面的意思就是對資料進行分析,專業的解釋是:利用適當統計利用適當統計分析方法對大量資料進行分析,總結出內在規律,為未來提供判斷和決策 2.資料分析的6部曲: 明確分析目的和內容資料收據資料處理資料分析資料展現資料撰寫

利用python 資料分析入門，詳細教程，教小白快速入門

　　這是一篇的資料的分析的典型案列，本人也是經歷一次從無到有的過程，倍感珍惜，所以將其詳細的記錄下來，用來幫助後來者快速入門！　　資料的格式如下：　　　　　　我們設定一個trem or typedef為一條標籤，一行為一條記錄或者是鍵值對，以此為標準！　　下面我們來對資料進行

資料分析入門(一)

資料分析入門什麼是資料分析字面:對資料進行分析;專業解釋:利用適當統計分析方法對大量資料進行分析,總結出內在規律,為未來提供判斷和決策資料分析6部驟: 明確分析目的和內容資料收據資料處理資料分析資料展現

資料分析入門教程

資料分析是時下十分熱門的一個就業方向。在網際網路迅速膨脹的年代，各行各業都少不了資料分析。資料分析是一門很深的學問，其中蘊含了不少知識。今天我們就從3個方面來為大家簡單地介紹一下資料分析的相關知識，希望今天的內容可以幫助到那些想轉行進入資料分析領域的朋友，這也算是資料分析的入門教程了，可以對初學者或初入資

excel入門，如何玩轉excel,你早該這麼玩Excel筆記4

5.化繁為簡，去掉多餘表頭切記：別讓第一行無效的標題文字佔用了Excel預設標題行的位置，對Excel識別某列資料的屬性十分重要。如果按照正確的方法設計表格—>首行不用標題文字—>能夠正確呼叫自動篩選的功能（隨便選擇其中的任意單元格即可）源資料表儘量規範

資料分析入門必看：3個選擇方向及技能要求！

　每天不少新人加入我們大聖眾包資料交流群，一部分是統計、計算機相關專業的學生，想進一步瞭解資料分析發展，為以後工作準備；而一部分是初步涉入資料的朋友（包括轉行）前來諮詢，沒有相關專業知識可不可以學習資料分析等等問題！下面我們大聖眾包小編帶大家看看不同知識背景的朋友該如何選

資料分析入門書籍，你看過幾本

2013年被媒體稱為“大資料元年”，醞釀了幾年的大資料，突然就被炒火了。 “我們已經從資訊時代走到了數字時代和智慧時代，如果資料被賦予背景，它就成了資訊；如果資料能夠提煉出規律，它就是知識；如果資料能夠藉助於各種各樣的工具在分析的基礎之上為我們提供正確的決策，它就是資

excel入門，如何玩轉excel,你早該這麼玩Excel筆記6

1.加深三表概念 明確做做這件事情只需要三張工作表 確定資料身份，據此判定它們分別屬於哪張工作表 設計分類彙總表樣式 設定資料關聯，根據引數和源資料自動獲得分類彙總結果在企業管理裡描述一個產品最好用程式碼而非文字。例如：大學英語3上冊—>DXYY-3-1 好

資料分析入門——推薦基礎書以及實用網站

資料分析入門：一開始肯定是數學基礎鞏固：線性代數、統計論等。參考書成千上百，最重要還是理解透！二就是各種軟體的熟悉利用：EXCEL SPSS SAS 等，這是我桌面常用到的軟體：

Python3資料分析入門實戰_04 玩轉Pandas 中

Groupby = Split + Apply + Combine

相關推薦