pandas縱向學習之10 minutes to pandas（四）

阿新 • • 發佈：2018-11-14

時間序列

resample函式的用法：

In [14]: rng = pd.date_range('1/1/2012', periods=100, freq='S')
In [15]: ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng)
#以五分鐘為間隔，並加總。由於是隨機生成的，所以每次結果可能不同
In [16]: ts.resample('5Min').sum()
Out[16]:
2012-01-01    25820
Freq: 5T, dtype: int32

In [17]: ttt = pd.date_range( 
'1/1/2017', periods=12, freq='T')
In [18]: sss = pd.Series(range(12), index=ttt)
In [19]: sss
Out[19]:
2017-01-01 00:00:00     0
2017-01-01 00:01:00     1
2017-01-01 00:02:00     2
2017-01-01 00:03:00     3
2017-01-01 00:04:00     4
2017-01-01 00:05:00     5
2017-01-01 00:06:00     6
2017-01-01 00:07:00     7
2017-01-01 00:08:00     8
2017-01-01 00:09:00     9
2017-01-01 00:10:00    10
2017-01 
-01 00:11:00    11
Freq: T, dtype: int64
# 此間隔與下一個間隔之間的值的和
In [21]: sss.resample('3T').sum()
Out[21]:
2017-01-01 00:00:00     3
2017-01-01 00:03:00    12
2017-01-01 00:06:00    21
2017-01-01 00:09:00    30
Freq: 3T, dtype: int64

利用tz_localize和tz_convert函式轉化時區：

In [111]: rng = pd.date_range('3/6/2012 00:00', periods=5, freq='D')
In [112]: ts = 
 pd.Series(np.random.randn(len(rng)), rng)
In [113]: ts
Out[113]: 
2012-03-06    0.464000
2012-03-07    0.227371
2012-03-08   -0.496922
2012-03-09    0.306389
2012-03-10   -2.290613
Freq: D, dtype: float64

# 定位時區
In [114]: ts_utc = ts.tz_localize('UTC')
In [115]: ts_utc
Out[115]: 
2012-03-06 00:00:00+00:00    0.464000
2012-03-07 00:00:00+00:00    0.227371
2012-03-08 00:00:00+00:00   -0.496922
2012-03-09 00:00:00+00:00    0.306389
2012-03-10 00:00:00+00:00   -2.290613
Freq: D, dtype: float64

#轉換時區，引數也可為'America/New_York'
In [116]: ts_utc.tz_convert('US/Eastern')
Out[116]: 
2012-03-05 19:00:00-05:00    0.464000
2012-03-06 19:00:00-05:00    0.227371
2012-03-07 19:00:00-05:00   -0.496922
2012-03-08 19:00:00-05:00    0.306389
2012-03-09 19:00:00-05:00   -2.290613
Freq: D, dtype: float64

不同時間型別的轉化，參考Python時間轉換：

In [117]: rng = pd.date_range('1/1/2012', periods=5, freq='M')
In [118]: ts = pd.Series(np.random.randn(len(rng)), index=rng)
In [119]: ts
Out[119]: 
2012-01-31   -1.134623
2012-02-29   -1.561819
2012-03-31   -0.260838
2012-04-30    0.281957
2012-05-31    1.523962
Freq: M, dtype: float64

In [120]: ps = ts.to_period()
In [121]: ps
Out[121]: 
2012-01   -1.134623
2012-02   -1.561819
2012-03   -0.260838
2012-04    0.281957
2012-05    1.523962
Freq: M, dtype: float64

In [122]: ps.to_timestamp()
Out[122]: 
2012-01-01   -1.134623
2012-02-01   -1.561819
2012-03-01   -0.260838
2012-04-01    0.281957
2012-05-01    1.523962
Freq: MS, dtype: float64

In [123]: prng = pd.period_range('1990Q1', '2000Q4', freq='Q-NOV')

In [124]: ts = pd.Series(np.random.randn(len(prng)), prng)

In [125]: ts.index = (prng.asfreq('M', 'e') + 1).asfreq('H', 's') + 9

In [126]: ts.head()
Out[126]: 
1990-03-01 09:00   -0.902937
1990-06-01 09:00    0.068159
1990-09-01 09:00   -0.057873
1990-12-01 09:00   -0.368204
1991-03-01 09:00   -1.144073
Freq: H, dtype: float64

分類

In [127]: df = pd.DataFrame({"id":[1,2,3,4,5,6], "raw_grade":['a', 'b', 'b', 'a', 'a', 'e']})
In [128]: df["grade"] = df["raw_grade"].astype("category")

In [129]: df["grade"]
Out[129]: 
0    a
1    b
2    b
3    a
4    a
5    e
Name: grade, dtype: category
Categories (3, object): [a, b, e]

In [130]: df["grade"].cat.categories = ["very good", "good", "very bad"]

In [131]: df["grade"] = df["grade"].cat.set_categories(["very bad", "bad", "medium", "good", "very good"])

In [132]: df["grade"]
Out[132]: 
0    very good
1         good
2         good
3    very good
4    very good
5     very bad
Name: grade, dtype: category
Categories (5, object): [very bad, bad, medium, good, very good]

In [133]: df.sort_values(by="grade")
Out[133]: 
   id raw_grade      grade
5   6         e   very bad
1   2         b       good
2   3         b       good
0   1         a  very good
3   4         a  very good
4   5         a  very good

In [134]: df.groupby("grade").size()
Out[134]: 
grade
very bad     1
bad          0
medium       0
good         2
very good    3
dtype: int64

畫圖

隨機遊走並累計加總：

In [135]: ts = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))
In [136]: ts = ts.cumsum()
In [137]: ts.plot()
Out[137]: <matplotlib.axes._subplots.AxesSubplot at 0x7f213444c048>

在這裡插入圖片描述

In [138]: df = pd.DataFrame(np.random.randn(1000, 4), index=ts.index,
   .....:                   columns=['A', 'B', 'C', 'D'])
   .....: 
In [139]: df = df.cumsum()
In [140]: plt.figure(); df.plot(); plt.legend(loc='best')
Out[140]: <matplotlib.legend.Legend at 0x7f212489a780>

在這裡插入圖片描述

匯入與匯出

簡單瞭解即可：

In [145]: df.to_excel('foo.xlsx', sheet_name='Sheet1')
In [146]: pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values=['NA'])

pandas縱向學習之10 minutes to pandas（一）

10mins官方文件 10 Minutes to pandas 必要的庫匯入： import pandas as pd import numpy as np import matplotlib.pyplot as plt 建立物件 pandas常用資料

pandas縱向學習之10 minutes to pandas（四）

時間序列 resample函式的用法： In [14]: rng = pd.date_range('1/1/2012', periods=100, freq='S') In [15]: ts = pd.Series(np.random.randint(0, 500, len(rn

pandas縱向學習之10 minutes to pandas（三）

pandas縱向學習之10 minutes to pandas（二） pandas縱向學習之10 minutes to pandas（一）操作數學統計 df.mean() #檢視每列的平均值 df.mean(1) #檢視每行的平均值 #每一行減去一列

pandas縱向學習之10 minutes to pandas（二）

pandas縱向學習之10 minutes to pandas（一）布林值索引 df[df.A>0] A B C D 2013-01-02 0.356680 -0.468280 1.293093 -0.752251 2013-01-03 1.179930

panda縱向學習之10 minutes to pandas（一）

10 Minutes to pandas 必要的庫匯入： import pandas as pd import numpy as np import matplotlib.pyplot as plt

機器學習之支持向量機（四）

應用問題計算過程非線性簡單常熟一段約束有關引言：　　SVM是一種常見的分類器，在很長一段時間起到了統治地位。而目前來講SVM依然是一種非常好用的分類器，在處理少量數據的時候有非常出色的表現。SVM是一個非常常見的分類器，在真正了解他的原理之前我們多多少少

Linux學習之多執行緒程式設計（四）

言之者無罪，聞之者足以戒。 ——《詩序》三、Linux執行緒的高階控制 1、一次性初始化有些事需要且只能執行一次（比如互斥量初始化）。通常當初始化應用程式時，可以比較容易地將其放在main函式中。但當你寫一個庫函式時，就不能在main裡面初始化了，你可以用靜態初始化

Spring Boot 學習之快取和 NoSQL 篇（四）

該系列並非完全原創，官方文件、作者一、前言當系統的訪問量增大時，相應的資料庫的效能就逐漸下降。但是，大多數請求都是在重複的獲取相同的資料，如果使用快取，將結果資料放入其中可以很大程度上減輕資料庫的負擔，提升系統的響應速度。本篇將介紹 Spring Boot 中快取和 NoSQ

【python】10 Minutes to pandas

1 Object Creation（建立物件） 1.1 Series 給 list 建立預設索引 import pandas as pd import numpy as np s = pd.Series

python機器學習之10分鐘掌握pandas

微信公眾號：資料探勘與分析學習 1.建立物件通過傳遞值列表來建立Series，讓pandas建立一個預設的整數索引：通過傳遞帶有日期時間索引和標記列的NumPy陣列來建立DataFrame：通過傳遞可以轉換為類似series的物件的dict來建立Data

MQTT的學習之Mosquitto發布-訂閱（2）

creat 訂閱模式 pub 測試方法 ssa clientm art ble 在《MQTT的學習之Mosquitto安裝&使用（1）》一文末尾，我已經模擬了發布-訂閱模式，只是那時在服務器直接模擬的，並不是java代碼模擬的。下面貼出Java代碼 1、首先引入依

機器學習之SVM初解與淺析（一）:最大距離

機器學習 svm 最大距離 2 / ||w|| 這段時間在看周誌華大佬的《機器學習》，在看書的過程中，有時候會搜搜其他人寫的文章，對比來講，周教授講的內容還是比較深刻的，但是前幾天看到SVM這一章的時候，感覺甚是晦澀啊，第一感覺就是比較抽象，特別是對於像本人這種I

機器學習之SVM初解與淺析（一）:

機器學習 svm 最大距離 2 / ||w||sdsshngshan‘gccha 這段時間在看周誌華大佬的《機器學習》，在看書的過程中，有時候會搜搜其他人寫的文章，對比來講，周教授講的內容還是比較深刻的，但是前幾天看到SVM這一章的時候，感覺甚是晦澀啊，第一感覺就

java基礎知識學習--------之枚舉類型（1）

blog 枚舉類型 csdn 相同名稱枚舉類 java string pac 枚舉類型的概念： 1 /** 2 * 目的:枚舉類型 3 * @author chenyanlong 4 * 日期:2017/10/22 5 * 網址:http://blo

【java】java學習之路-01-Linux基礎（一）

x文件字母 at命令超過用戶登錄創建刪除軟連接 nbsp tail linux學習方法：你的程序要在服務器（linux）上執行，服務器沒有桌面系統，學習linux就是學習命令。一、Linux介紹 1、芬蘭大學生，名字叫Linux，因為個人興趣，編寫了一個類Un

機器學習之支持向量機（三）：核函數和KKT條件的理解

麻煩 ron 現在調整所有核函數多項式 err ges 註：關於支持向量機系列文章是借鑒大神的神作，加以自己的理解寫成的；若對原作者有損請告知，我會及時處理。轉載請標明來源。序：我在支持向量機系列中主要講支持向量機的公式推導，第一部分講到推出拉格朗日對偶函數的對

機器學習之支持向量機（一）：支持向量機的公式推導

根據監督式 art 通用利用哪些這就是在線方法註：關於支持向量機系列文章是借鑒大神的神作，加以自己的理解寫成的；若對原作者有損請告知，我會及時處理。轉載請標明來源。序：我在支持向量機系列中主要講支持向量機的公式推導，第一部分講到推出拉格朗日對偶函數的對偶因

vue學習之路 - 4.基本操作（下）

align 過去開始就會 binding 效果不可 exp 功能 vue學習之路 - 4.基本操作（下）簡述：本章節主要介紹 vue 的一些其他常用指令。 Vue 指令　　這裏將 vue 的指令分為系統內部指令（vue 自帶指令）和用戶自定義指令兩種。系統內部指

機器學習之貝葉斯網路（三）

引言　　貝葉斯網路是機器學習中非常經典的演算法之一，它能夠根據已知的條件來估算出不確定的知識，應用範圍非常的廣泛。貝葉斯網路以貝葉斯公式為理論接觸構建成了一個有向無環圖，我們可以通過貝葉斯網路構建的圖清晰的根據已有資訊預測未來資訊。貝葉斯網路適用於表達和分析不確定性和概率性的事件，應用於有條件地依賴多種控

spring原始碼學習之路---IOC實現原理（二）

上一章我們已經初步認識了BeanFactory和BeanDefinition，一個是IOC的核心工廠介面，一個是IOC的bean定義介面，上章提到說我們無法讓BeanFactory持有一個Map package org.springframework.beans.factory.supp

pandas縱向學習之10 minutes to pandas（四）

時間序列

分類

畫圖

匯入與匯出

相關推薦