pandas_cookbook學習（八）

阿新 • • 發佈：2018-11-14

切片一個數據集：

In [122]: df = pd.DataFrame(data={'Case' : ['A','A','A','B','A','A','B','A','A'],
   .....:                         'Data' : np.random.randn(9)})
   .....: 

In [123]: dfs = list(zip(*df.groupby((1*(df['Case']=='B')).cumsum().rolling(window=3,min_periods=1).median())))[-1]

In [124] 
: dfs[0]
Out[124]: 
  Case      Data
0    A  0.174068
1    A -0.439461
2    A -0.741343
3    B -0.079673

In [125]: dfs[1]
Out[125]: 
  Case      Data
4    A -0.922875
5    A  0.303638
6    B -0.917368

In [126]: dfs[2]
Out[126]: 
  Case      Data
7    A -1.624062
8    A -0.758514

資料透視表：

In [127]: df = pd.DataFrame( 
data={'Province' : ['ON','QC','BC','AL','AL','MN','ON'],
   .....:                          'City' : ['Toronto','Montreal','Vancouver','Calgary','Edmonton','Winnipeg','Windsor'],
   .....:                          'Sales' : [13,6,16,8,4,3,1]})
   .....: 

In [128]: table = pd.pivot_table(df,values=[ 
'Sales'],index=['Province'],columns=['City'],aggfunc=np.sum,margins=True)

In [129]: table.stack('City')
Out[129]: 
                    Sales
Province City            
AL       All         12.0
         Calgary      8.0
         Edmonton     4.0
BC       All         16.0
         Vancouver   16.0
MN       All          3.0
         Winnipeg     3.0
...                   ...
All      Calgary      8.0
         Edmonton     4.0
         Montreal     6.0
         Toronto     13.0
         Vancouver   16.0
         Windsor      1.0
         Winnipeg     3.0

[20 rows x 1 columns]

In [130]: grades = [48,99,75,80,42,80,72,68,36,78]

In [131]: df = pd.DataFrame( {'ID': ["x%d" % r for r in range(10)],
   .....:                     'Gender' : ['F', 'M', 'F', 'M', 'F', 'M', 'F', 'M', 'M', 'M'],
   .....:                     'ExamYear': ['2007','2007','2007','2008','2008','2008','2008','2009','2009','2009'],
   .....:                     'Class': ['algebra', 'stats', 'bio', 'algebra', 'algebra', 'stats', 'stats', 'algebra', 'bio', 'bio'],
   .....:                     'Participated': ['yes','yes','yes','yes','no','yes','yes','yes','yes','yes'],
   .....:                     'Passed': ['yes' if x > 50 else 'no' for x in grades],
   .....:                     'Employed': [True,True,True,False,False,False,False,True,True,False],
   .....:                     'Grade': grades})
   .....: 

In [132]: df.groupby('ExamYear').agg({'Participated': lambda x: x.value_counts()['yes'],
   .....:                     'Passed': lambda x: sum(x == 'yes'),
   .....:                     'Employed' : lambda x : sum(x),
   .....:                     'Grade' : lambda x : sum(x) / len(x)})
   .....: 
Out[132]: 
          Participated  Passed  Employed      Grade
ExamYear                                           
2007                 3       2         3  74.000000
2008                 3       3         0  68.500000
2009                 3       2         2  60.666667

以年度資料形式展現：

In [133]: df = pd.DataFrame({'value': np.random.randn(36)},
   .....:                   index=pd.date_range('2011-01-01', freq='M', periods=36))
   .....: 

In [134]: pd.pivot_table(df, index=df.index.month, columns=df.index.year,
   .....:                values='value', aggfunc='sum')
   .....: 
Out[134]: 
        2011      2012      2013
1  -0.560859  0.120930  0.516870
2  -0.589005 -0.210518  0.343125
3  -1.070678 -0.931184  2.137827
4  -1.681101  0.240647  0.452429
5   0.403776 -0.027462  0.483103
6   0.609862  0.033113  0.061495
7   0.387936 -0.658418  0.240767
8   1.815066  0.324102  0.782413
9   0.705200 -1.403048  0.628462
10 -0.668049 -0.581967 -0.880627
11  0.242501 -1.233862  0.777575
12  0.313421 -3.520876 -0.779367

pandas_cookbook學習（八）

切片一個數據集： In [122]: df = pd.DataFrame(data={'Case' : ['A','A','A','B','A','A','B','A','A'], .....: 'Data' : np.rando

JAVA學習（八）

while ring 繼續 break 默認值 tin 都是遍歷次數二重循環一、回顧3種循環結構 1、while 語法條件表達式的初始值； while(條件表達式){ 循環操作；更改條件表達式的語句； } 特點：先判斷，再執行，有可能一次循環都沒有

HBase概念學習（八）開發一個類twitter系統之表設計

至少創建用戶列表 ase wke long 少包 mali 。。這邊文章先將可能的需求分析一下，設計出HBase表，下一步再開始編寫client代碼。 TwiBase系統 1、背景為了加深HBase基本概念的學習，參考HBase實戰這本書實際動手做了這個樣

線程學習--（八）queue

高性能數組 pre clas 並行 lin 性能 sync 緩沖 http://www.cnblogs.com/sigm/p/6186401.html 一、ConcurrentLinkedQueue 是一個適用於高並發場景下的隊列，通過無鎖的方式，實現了高並發狀態下的高性

Halcon學習（八）文本操作

文件的 dmi filename 標簽 add .com all sea min 標簽：學習雜談分類： halcon學習 1.open_file( : : FileName, FileType : FileHand

算法學習（八）

讓我卡片 ans return ack 好的 log 編程其中 1.Combinations Counting（組合計數）說明：我們有一個組合的例子——從給定的集合中選擇幾個元素的不同方法(不考慮順序)。例如，如果這個男孩有4個糖果(不同種類的糖果)，並且只取其中的2

鳥哥的linux私房菜學習-（八）Linux 文件與目錄管理

發現 rec spa 拷貝 order 數據當前註意 blog 1. 目錄與路徑 1.1相對路徑與絕對路徑：絕對路徑：路徑的寫法『一定由根目錄 / 寫起』，例如： /usr/share/doc 這個目錄。相對路徑：路徑的寫法『不是由 / 寫起』，例如由 /usr/

React Native學習（八）—— 對接七魚客服

clas render round 外部文件 bubuko source his 代碼 veh 本文基於React Native 0.52 Demo上傳到Git了，有需要可以看看，寫了新內容會上傳的。Git地址 https://github.com/gingerJY/Rea

Java多線程學習（八）線程池與Executor 框架

技術分享機制 throws rmi 3.6 .get C4D 之前源文件 Java面試通關手冊（Java學習指南，歡迎Star，會一直完善下去，歡迎建議和指導）：https://github.com/Snailclimb/Java_Guide 歷史優質文章推薦： Jav

C++語言學習（八）——操作符重載

換源 fun 並且 img 51cto cal process 基本 alt C++語言學習（八）——操作符重載一、操作符重載基礎 1、操作符重載的語法通過operator關鍵字可以定義特殊的函數，operator本質是通過函數重載操作符。 Type operator

強化學習（八）價值函數的近似表示與Deep Q-Learning

learning 步驟狀態更新任務 eva 學習 max wid 表示　　　　在強化學習系列的前七篇裏，我們主要討論的都是規模比較小的強化學習問題求解算法。今天開始我們步入深度強化學習。這一篇關註於價值函數的近似表示和Deep Q-Learning算法。　　　　De

MyBatis學習（八）

c2c 延遲 bat 文件銷售部 kingdom ati %type eset 本教程對應視頻課程地址：http://edu.51cto.com/sd/3ec2c 1、延遲加載延遲加載的意義在於，雖然是關聯查詢，但是不是及時將關聯的數據查詢出來，而是在需要的時候進行查詢

機器學習之numpy和matplotlib學習（八）

今天來學習第四種畫子圖的方法。也就是plt.subplots( ).注意區別於plt.subplot( )函式。先來看看程式碼： #!/usr/bin/env python # -*- coding: utf-8 -*- # @Author : SundayCoder-俊勇

python基礎學習（八）元組

元組的定義 Tuple（元組）與列表類似，不同之處在於元組的元素不能修改元組表示多個元素組成的序列元組在 Python 開發中，有特定的應用場景用於儲存一串資訊，資料之間使用 , 分隔元組用 () 定義元組的索引從 0 開始

Docker學習（八）：flannel網路

Docker跨主機訪問 flannel 安裝配置etcd 先在主機10.211.55.17上建立並編寫指令碼a.sh sudo vim a.sh ETCD_VER=v2.3.7 DOWNLOAD_URL=https://github.com/coreos

PE檔案格式學習（八）：基址重定位表

1.簡介基址重定位表位於資料目錄表中的第六個，它位於安全表的後面。這個表的作用是用來索引那些需要重定位的資料的。當系統發現DLL的真實載入基址跟PE檔案中的ImageBase中的值不一樣時，就會啟用基址重定位表修復一些資料的地址。我們知道一個程式中可能包含多個DLL，因此有可

pandas_cookbook學習（九）——apply

Apply應用函式： In [135]: df = pd.DataFrame(data={'A' : [[2,4,8,16],[100,200],[10,20,30]], 'B' : [['a','b','c'],['jj','kk'],['ccc']]},index=['I','I

pandas_cookbook學習（七）

根據索引值將每一組資料滯後一項： In [112]: df = pd.DataFrame( .....: {u'line_race': [10, 10, 8, 10, 10, 8], .....: u'beyer': [99, 102, 103, 103,

pandas_cookbook學習（六）

使用resample和apply函式分別變換： In [103]: rng = pd.date_range(start="2014-10-07",periods=10,freq='2min') In [104]: ts = pd.Series(data = list(range(1

pandas_cookbook學習（五）

使用剩下值的均值代替此值，注意transform的用法，與apply相區分： apply返回一個聚類結果，transform分別返回每個處理的結果 In [94]: df = pd.DataFrame({'A' : [1, 1, 2, 2], 'B' : [1, -1, 1, 2]}

pandas_cookbook學習（八）

相關推薦