第九章資料分組與聚合（中）

阿新 • • 發佈：2019-01-09

close_px=pd.read_csv('e:/stock_px.csv',parse_dates=True,index_col=0)
close_px[-4:]
#計算日收益率與SPX年度相關係數組成的DataFrame
rets=close_px.pct_change().dropna()
spx_corr=lambda x:x.corrwith(x['SPX'])
by_year=rets.groupby(lambda x:x.year)
by_year.apply(spx_corr)
      AAPL      MSFT       XOM  SPX
2003  0.541124  0.745174  0.661265  1.0
2004  0.374283  0.588531  0.557742  1.0
2005  0.467540  0.562374  0.631010  1.0
2006  0.428267  0.406126  0.518514  1.0
2007  0.508118  0.658770  0.786264  1.0
2008  0.681434  0.804626  0.828303  1.0
2009  0.707103  0.654902  0.797921  1.0
2010  0.710105  0.730118  0.839057  1.0
2011  0.691931  0.800996  0.859975  1.0
#計算列與列之間的相關係數
by_year.apply(lambda g:g['AAPL'].corr(g['MSFT']))
2003    0.480868
2004    0.259024
2005    0.300093
2006    0.161735
2007    0.417738
2008    0.611901
2009    0.432738
2010    0.571946
2011    0.581987
dtype: float64
import statsmodels.api as sm

def regress(data,yvar,xvars):
    Y=data[yvar]
    X=data[xvars]
    X['intercept']=1.
    result=sm.OLS(Y,X).fit()
    return result.params



#按年計算AAPL對SPX收益率的線性迴歸

by_year.apply(regress,'AAPL',['SPX'])
Out[161]: 
           SPX  intercept
2003  1.195406   0.000710
2004  1.363463   0.004201
2005  1.766415   0.003246
2006  1.645496   0.000080
2007  1.198761   0.003438
2008  0.968016  -0.001110
2009  0.879103   0.002954
2010  1.052608   0.001261
2011  0.806605   0.001514

透視表和交叉表

tips.pivot_table(index=['sex','smoker'])
Out[163]: 
                   size       tip   tip_pct  total_bill
sex    smoker                                          
Female No      2.592593  2.773519  0.156921   18.105185
       Yes     2.242424  2.931515  0.182150   17.977879
Male   No      2.711340  3.113402  0.160669   19.791237
       Yes     2.500000  3.051167  0.152771   22.284500
#只想聚合tip_pct和size，根據day分組，將smoker放在列上，day放在行上
tips.pivot_table(['tip_pct','size'],index=['sex','day'],columns='smoker')
       tip_pct                size          
smoker     No       Yes        No       Yes
sex    day                                         
Female Fri   0.165296  0.209129  2.500000  2.000000
       Sat   0.147993  0.163817  2.307692  2.200000
       Sun   0.165710  0.237075  3.071429  2.500000
       Thur  0.155971  0.163073  2.480000  2.428571
Male   Fri   0.138005  0.144730  2.000000  2.125000
       Sat   0.162132  0.139067  2.656250  2.629630
       Sun   0.158291  0.173964  2.883721  2.600000
       Thur  0.165706  0.164417  2.500000  2.300000
#加邊界
tips.pivot_table(['tip_pct','size'],index=['sex','day'],columns='smoker',margins=True)
Out[166]: 
      tip_pct                          size                    
smoker  No       Yes       All        No       Yes       All
sex    day                                                             
Female Fri   0.165296  0.209129  0.199388  2.500000  2.000000  2.111111
       Sat   0.147993  0.163817  0.156470  2.307692  2.200000  2.250000
       Sun   0.165710  0.237075  0.181569  3.071429  2.500000  2.944444
       Thur  0.155971  0.163073  0.157525  2.480000  2.428571  2.468750
Male   Fri   0.138005  0.144730  0.143385  2.000000  2.125000  2.100000
       Sat   0.162132  0.139067  0.151577  2.656250  2.629630  2.644068
       Sun   0.158291  0.173964  0.162344  2.883721  2.600000  2.810345
       Thur  0.165706  0.164417  0.165276  2.500000  2.300000  2.433333
All          0.159328  0.163196  0.160803  2.668874  2.408602  2.569672

要使用其他的聚合函式，將其傳給aggfunc即可，使用count或len可以得到有關分組大小的交叉表：

tips.pivot_table('tip_pct',index=['sex','smoker'],columns='day',aggfunc=len,margins=True)
Out[167]: 
day             Fri   Sat   Sun  Thur    All
sex    smoker                               
Female No       2.0  13.0  14.0  25.0   54.0
       Yes      7.0  15.0   4.0   7.0   33.0
Male   No       2.0  32.0  43.0  20.0   97.0
       Yes      8.0  27.0  15.0  10.0   60.0
All            19.0  87.0  76.0  62.0  244.0

如果存在空的組合，設定一個fill_value

tips.pivot_table('size',index=['time','sex','smoker'],columns='day',aggfunc='sum',fill_value=0)
Out[168]: 
day                   Fri  Sat  Sun  Thur
time   sex    smoker                     
Dinner Female No        2   30   43     2
              Yes       8   33   10     0
       Male   No        4   85  124     0
              Yes      12   71   39     0
Lunch  Female No        3    0    0    60
              Yes       6    0    0    17
       Male   No        0    0    0    50
              Yes       5    0    0    23

交叉表

data=DataFrame({'Sample':range(1,11),'Gender':['Female','Male','Female','Male','Male','Male',
                'Female','Female','Male','Female'],'Handedness':['Right-handed','Left-handed',
'Right-handed','Right-handed','Left-handed','Right-handed','Right-handed','Left-handed','Right-handed','Right-handed']})
data
data1=data[['Sample','Gender','Handedness']]
data1
   Sample  Gender    Handedness
0       1  Female  Right-handed
1       2    Male   Left-handed
2       3  Female  Right-handed
3       4    Male  Right-handed
4       5    Male   Left-handed
5       6    Male  Right-handed
6       7  Female  Right-handed
7       8  Female   Left-handed
8       9    Male  Right-handed
9      10  Female  Right-handed
pd.crosstab(data1.Gender,data1.Handedness,margins=True)
Handedness  Left-handed  Right-handed  All
Gender                                    
Female                1             4    5
Male                  2             3    5
All                   3             7   10
pd.crosstab([data1.Gender,data1.Handedness],data1.Sample,margins=True)       
Out[185]: 
Sample               1  2  3  4  5  6  7  8  9  10  All
Gender Handedness                                      
Female Left-handed   0  0  0  0  0  0  0  1  0   0    1
       Right-handed  1  0  1  0  0  0  1  0  0   1    4
Male   Left-handed   0  1  0  0  1  0  0  0  0   0    2
       Right-handed  0  0  0  1  0  1  0  0  1   0    3
All                  1  1  1  1  1  1  1  1  1   1   10

第九章資料分組與聚合（中）

close_px=pd.read_csv('e:/stock_px.csv',parse_dates=True,index_col=0) close_px[-4:] #計算日收益率與SPX年度相關係數組成的DataFrame rets=close_px.pct_change

第九章資料分組與聚合（下）

import pandas as pd from pandas import Series fec=pd.read_csv("e:/P00000001-ALL.csv") fec[:2] cmte_id cand_id cand

第九章資料分組和聚合（上）

import numpy as np from pandas import DataFrame df=DataFrame({'key1':['a','a','b','b','a'], 'key2':['one','two','one','two

第九章擴充套件你的商店（上）

9 擴充套件你的商店上一章中，你學習瞭如何在商店中整合支付閘道器。你完成了支付通知，學習瞭如何生成CSV和PDF檔案。在這一章中，你會在商店中新增優惠券系統。你將學習如何處理國際化和本地化，並構建一個推薦引擎。本章會覆蓋以下知識點：建立優惠券系統實

[讀書筆記] 第九章專案人力資源管理（上）

第九章專案人力資源管理（上）1.什麼是專案人力資源管理管理與領導專案團隊的各個過程。儘管專案團隊成員被分派了特定的角色和職責，但讓他們全員參與專案規劃和決策仍是有益的。2.專案人力資源管理的各個過程規劃人力資源管理組建專案團隊建設專案團隊管理專案團隊3.什麼是專案管理團隊是

【第九章：模板與群體資料】C9-2 折半查詢

折半查詢 (100/100 分數) 題目描述編寫一個折半查詢的模板函式binSearch()，接收一個數組，陣列長度和要查詢的元素key，按查詢順序輸出查詢過程中訪問的所有元素下標。部分程式碼已給出，請將程式碼填補完整。輸入描述每個測例共 3 行

springcloud系列—Hystrix—第3章-3: Hystrix 服務降級（fallback）與異常處理，Hystrix依賴隔離（命令名稱-分組和執行緒池）、請求快取與清除快取、斷路器

資料參考：《Spring Cloud 微服務實戰》目錄服務降級在HystrixCommand中可以通過過載getFallback（）方法來實現服務降級邏輯。在 HystrixObservableCommand 實現得 Hystrix 命令中，我們可以通過過載 resumenW

Django入門與實踐-第12章：復用模板（完結）

b- htm lin name color lock tar 現在 set http://127.0.0.1:8000/ http://127.0.0.1:8000/boards/1/ http://127.0.0.1:8000/boards/2/ http://127.

Django入門與實踐-第19章：主題回復（完結）

borde comm object created ade tro blank type temp http://127.0.0.1:8000/boards/1/topics/1/reply/ http://127.0.0.1:8000/boards/1/topics/1

資料基礎---《利用Python進行資料分析·第2版》第8章資料規整：聚合、合併和重塑

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。在許多應用中，資料可能分散在許多檔案或資料庫中，儲存的形式也不利於分析。本章關注可以聚合、合併、重塑資料的方法。首先

資料分組與聚合函式

到目前為止我們使用的聚合函式都是對普通結果集進行統計的，我們同樣可以使用聚合函式來對分組後的資料進行統計，也就是統計每一個分組的資料。我們甚至可以認為在沒有使用GROUP BY語句中使用聚合函式不過是在一個整個結果集是一個組的分組資料中進行資料統計分析罷了。讓我們來看一下“檢視每個年齡段的員工的人數”如何

第九章：除錯與測試

文章目錄第一節：斷言與單元測試 ==斷言== ==單元測試== 測試用例測試套件第二節：文件測試與DEBUG

《深入淺出MFC》第九章訊息對映與命令傳遞

Windows程式的本質是藉著訊息來維持脈動。每個訊息都有一個程式碼，並以WM_開頭的常量表示。來自選單和工具欄者，都以WM_COMMAND表示，引數wParam記錄訊息的發出者。 MFC的訊息分為三大類，命令訊息（WM_COMMAND），凡派生自CCmdTarget的類都有資格接收命令訊息。除WM_COM

程式設計與演算法（三）第九周標準模板庫STL（二）（2）

STL演算法（一） STL演算法分類不變序列演算法變值演算法刪除演算法變序演算法排序演算法有序區間演算法數值演算法大多數過載的演算法都是有兩個版本的用“==”判斷元素是否相等，或

演算法班筆記第九章資料結構：區間、陣列、矩陣和樹狀陣列

第九章資料結構：區間、陣列、矩陣和樹狀陣列子陣列與字首和 Subarry PrefixSum[i] = A[0] + A[1] + ... + A[i-1], PrefixSum[0] = 0; 構造花費 O(n) 時間，O(n) 空間 Sum(i to j)

鳥哥的Linux私房菜(伺服器)- 第九章、防火牆與 NAT 伺服器

如果你在安裝的時候選擇沒有防火牆的話，那麼 iptables 在一開始的時候應該是沒有規則的，不過，可能因為你在安裝的時候就有選擇系統自動幫你建立防火牆機制，那系統就會有預設的防火牆規則了！無論如何，我們先來看看目前本機的防火牆規則是如何吧！ [[email protect

第九章資料管理

9.1 Volume 　　Pod是短暫的，Pod在銷燬時，儲存在容器內部的檔案系統各種的資料會被清除。　　為了持久化儲存容器中的的資料，可以使用K8s Volume。　　9.1.1 emptyDir 　　emptyDir：最基礎的Volumne型別，是Host上的一個目錄。　　emptyDI

Windows核心程式設計第九章執行緒與核心物件的同步(上)

第9章執行緒與核心物件的同步上一章介紹瞭如何使用允許執行緒保留在使用者方式中的機制來實現執行緒同步的方法。使用者方式同步的優點是它的同步速度非常快。如果強調執行緒的執行速度，那麼首先應該確

VisualBasic程式設計第九章的學習與自測

一、本章知識點分析 1．程式錯誤的分類　　程式中的錯誤大體可分為三類：即編譯錯誤、實時錯誤和邏輯錯誤。　　編譯錯誤多數是因為不正確的程式碼產生的，即在編寫程式時書寫了錯誤的語法，從而導致VB編譯器無法正確解釋原始碼而產生的錯誤，因此也稱為語法錯誤。

第九章資料查詢基礎

查詢 /****** Script for SelectTopNRows command from SSMS ******/ SELECT TOP 1000 [StudentNo] ,[LoginPwd] ,[Studen

第九章 資料分組與聚合（中）

相關推薦

第九章資料分組與聚合（中）