import pandas as pd
import numpy as np
N = 10
df = pd.DataFrame({
	'A': pd.date_range('2016-11-11',periods=N),
	'C': np.linspace(0,num=N,stop=N-1),
	'X': np.random.rand(N),
	'W': np.random.choice(['Low','Mid','High'],N).tolist(),
	'D': np.random.normal(100,10,size=(N)).tolist(),
	})
for item in df:
	print(item)

A
C
X
W
D

注意： 要遍歷 DataFrame 中的行，使用下面函式。

iteritems()：迭代(key, value)對
iterrows()：將行迭代為（索引，Series）對
itertuples()：以nametuple的形式迭代行

iteritems()示例

將每個列作為鍵，將值與值作為鍵和列值迭代為Series物件

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(3,3), columns=['A','B','C'])
for key, value in df.iteritems():
	print(key)
	print(value)

A
0    0.957009
1    0.501260
2    0.274135
Name: A, dtype: float64
B
0    0.078463
1    0.987697
2    0.781049
Name: B, dtype: float64
C
0    0.733517
1    0.803489
2    0.074316
Name: C, dtype: float64

iterrows()示例

ierrows() 返回迭代器，產生每個索引值以及包含沒行資料的序列

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(3,3), columns=['A','B','C'])
for key, value in df.iterrows():
	print(key)
	print(value)

0
A    0.656146
B    0.214489
C    0.112665
Name: 0, dtype: float64
1
A    0.529889
B    0.261862
C    0.747018
Name: 1, dtype: float64
2
A    0.415430
B    0.525688
C    0.015409
Name: 2, dtype: float64

itertuples()示例

itertuples() 將為DataFrame中每一行返回一個tuplename元組。

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(3,3), columns=['A','B','C'])
for row in df.itertuples():
	print(row)

Pandas(Index=0, A=0.02256113604091181, B=0.4702768374802535, C=0.0965308087405059)
Pandas(Index=1, A=0.8422016872537603, B=0.17994358605628646, C=0.042277440820879364)
Pandas(Index=2, A=0.7924808877865748, B=0.7236640663801537, C=0.5110374703536472)

2、Pandas 排序

Pandas 有兩種排序方式

按標籤
按實際值

按標籤排序

sort_index()：方法預設ascending引數True升序。

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(4,3), index=[1,9,4,5], columns=['A','B','C'])
print(df)
df_sorted = df.sort_index(ascending=False)
print(df_sorted)

          A         B         C
1  0.132607  0.105872  0.875598
9  0.223384  0.362026  0.437898
4  0.638698  0.277726  0.453978
5  0.115070  0.709539  0.835981
          A         B         C
9  0.223384  0.362026  0.437898
5  0.115070  0.709539  0.835981
4  0.638698  0.277726  0.453978
1  0.132607  0.105872  0.875598

按列排序

通過傳遞引數axis引數值為0或1，對標籤進行排序。
預設情況下，axis=0，按行排列。

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(4,3), index=[1,9,4,5], columns=['A','C','B'])
print(df)
df_sorted = df.sort_index(axis=1)
print(df_sorted)

          A         C         B
1  0.988267  0.908142  0.680500
9  0.675936  0.308623  0.249646
4  0.626666  0.162618  0.735269
5  0.490554  0.177270  0.603323
          A         B         C
1  0.988267  0.680500  0.908142
9  0.675936  0.249646  0.308623
4  0.626666  0.735269  0.162618
5  0.490554  0.603323  0.177270

按值排序

像索引排序一樣，sort_values()是按值排序的方法。
接受by引數，將使用要與其排序值的DataFrame的列名稱。

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(4,3), index=[1,9,4,5], columns=['A','C','B'])
df_sorted1 = df.sort_values(by=['C','B'])
df_sorted2 = df.sort_values(by='C')
print(df_sorted1)
print(df_sorted2)

          A         C         B
9  0.902778  0.189340  0.435696
4  0.169302  0.245135  0.647082
5  0.491392  0.372607  0.386437
1  0.294235  0.904643  0.018072
          A         C         B
9  0.902778  0.189340  0.435696
4  0.169302  0.245135  0.647082
5  0.491392  0.372607  0.386437
1  0.294235  0.904643  0.018072

3、Pandas索引和選擇資料

索引運算子[]和屬性運算子.，可以快速訪問Pandas資料結構。
現在支援三種類型的多軸索引

方法索引

索引	描述
.loc()	基於標籤
.iloc()	基於整數
.ix()	基於標籤和整數

注意： 裡面的引數，第一個是行，第二個是列。

loc()

loc() 有多種訪問方式：

單個標量標籤
標籤列表
切片物件
一個布林陣列

loc需要兩個單/列表/範圍運算子，用,分割。第一個表示行，第二個表示列。

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(5,3), index=['a','b','c','d','e'], columns=['A','B','C'])
print(df.loc[:,'A'])
print(df.loc[:,['A','C']])
print(df.loc[['a','c','e'],['A','C']])
print(df.loc['a':'c','A':'B'])

a    0.535062
b    0.037609
c    0.190991
d    0.875407
e    0.234947
Name: A, dtype: float64
          A         C
a  0.535062  0.402936
b  0.037609  0.036611
c  0.190991  0.749456
d  0.875407  0.676398
e  0.234947  0.385565
          A         C
a  0.535062  0.402936
c  0.190991  0.749456
e  0.234947  0.385565
          A         B
a  0.535062  0.004707
b  0.037609  0.473187
c  0.190991  0.947285

iloc()

純整數索引

整數
整數列表
系列值

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(5,3), index=['a','b','c','d','e'], columns=['A','B','C'])
print(df.iloc[:3,:2])
print(df.iloc[:2,[0,2]])

          A         B
a  0.558476  0.962624
b  0.238883  0.116831
c  0.881508  0.411235
          A         C
a  0.558476  0.717169
b  0.238883  0.830214

ix()

進行選擇和子集化物件的混合方法。

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(5,3), index=['a','b','c','d','e'], columns=['A','B','C'])
print(df.ix[:4])
print(df.loc[:,'A'])

          A         B         C
a  0.031052  0.325817  0.118600
b  0.280782  0.990863  0.873839
c  0.488767  0.051455  0.073738
d  0.161729  0.546026  0.542651
a    0.031052
b    0.280782
c    0.488767
d    0.161729
e    0.409365
Name: A, dtype: float64

運算子索引

使用符號來對資料進行索引

物件	索引	描述
Series	s.loc[]	標量值
DataFrame	df.loc[]	標量物件

符號訪問

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(5,3), index=['a','b','c','d','e'], columns=['A','B','C'])
print(df['A'])
print(df[['A','B']])
print(df[2:3])

a    0.410222
b    0.082454
c    0.862867
d    0.010191
e    0.110962
Name: A, dtype: float64
          A         B
a  0.410222  0.402827
b  0.082454  0.508531
c  0.862867  0.747506
d  0.010191  0.357649
e  0.110962  0.118784
          A         B         C
c  0.862867  0.747506  0.292915

屬性訪問

使用屬性運算子.選擇列

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.rand(5,3), index=['a','b','c','d','e'], columns=['A','B','C'])
print(df.A)

a    0.203211
b    0.946038
c    0.467963
d    0.949120
e    0.528867
Name: A, dtype: float64

4、Pandas 統計函式

百分比（pct_change()）

Series、DataFrame都有pct_change()函式
此函式將每個元素與前一個元素進行比較，並計算變化百分比

import pandas as pd
import numpy as np
s = pd.Series(np.arange(1,6))
print(s.pct_change())
df = pd.DataFrame(np.random.rand(5,2))
print(df.pct_change())

0         NaN
1    1.000000
2    0.500000
3    0.333333
4    0.250000
dtype: float64
          0         1
0       NaN       NaN
1 -0.014001 -0.912531
2  0.268638  8.857442
3 -0.527441  0.511108
4  0.280720 -0.566934

資料排名（rank()）

為元素陣列中的每個元素生成排名

import pandas as pd
import numpy as np
s = pd.Series([1,6,3,2])
print(s.rank())

0    1.0
1    4.0
2    3.0
3    2.0
dtype: float64

5、缺失資料處理

Padndas 的缺失值（NA 或NaN）

資料缺失

使用重構索引，建立一個缺失的DataFrame

import pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(12.).reshape(4,3),
index = list('acef'),
columns = ['one', 'two', 'three'])
df = df.reindex(list('abcd'))
print(df)

   one  two  three
a  0.0  1.0    2.0
b  NaN  NaN    NaN
c  3.0  4.0    5.0
d  NaN  NaN    NaN

檢查缺失值

為了檢查缺失值，Pandas提供了isnull()和notnull()函式
也是Series和DataFrame物件的方法

import pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(12.).reshape(4,3),
index = list('acef'),
columns = ['one', 'two', 'three'])
df = df.reindex(list('abcd'))
print(df['one'].isnull())
print(df['one'].notnull())

a    False
b     True
c    False
d     True
Name: one, dtype: bool
a     True
b    False
c     True
d    False
Name: one, dtype: bool

缺少資料的計算

在求和資料時，NA被視為0
資料全是NA，結果就是NA

import pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(12.).reshape(4,3),
index = list('acef'),
columns = ['one', 'two', 'three'])
df = df.reindex(list('abcd'))
print(df['one'].sum())

3.0

清洗/填充缺少資料

fillna()函式通過集中方法用非空資料填充NA值

用標量值替換NaN

使用0來替換NaN

import pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(12.).reshape(4,3),
index = list('acef'),
columns = ['one', 'two', 'three'])
df = df.reindex(list('abcd'))
print(df)
print(df.fillna(0))

   one  two  three
a  0.0  1.0    2.0
b  NaN  NaN    NaN
c  3.0  4.0    5.0
d  NaN  NaN    NaN
   one  two  three
a  0.0  1.0    2.0
b  0.0  0.0    0.0
c  3.0  4.0    5.0
d  0.0  0.0    0.0

填寫NaN的前面/後面值

將空缺的NaN的值，填寫為前面值或後面值

import pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(12.).reshape(4,3),
index = list('acef'),
columns = ['one', 'two', 'three'])
df = df.reindex(list('abcd'))
print(df)
print(df.fillna(method='pad'))  # 前面值
print(df.fillna(method='bfill'))    # 後面值

   one  two  three
a  0.0  1.0    2.0
b  NaN  NaN    NaN
c  3.0  4.0    5.0
d  NaN  NaN    NaN
   one  two  three
a  0.0  1.0    2.0
b  0.0  1.0    2.0
c  3.0  4.0    5.0
d  3.0  4.0    5.0
   one  two  three
a  0.0  1.0    2.0
b  3.0  4.0    5.0
c  3.0  4.0    5.0
d  NaN  NaN    NaN

丟失缺少的值

排除缺少的值，使用dropna函式和axis引數。
預設情況下，axis=0，也就是行記憶體在NA，整行刪除

import pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(12.).reshape(4,3),
index = list('acef'),
columns = ['one', 'two', 'three'])
df = df.reindex(list('abcd'))
print(df.dropna())
print(df.dropna(axis=1))

   one  two  three
a  0.0  1.0    2.0
c  3.0  4.0    5.0
Empty DataFrame
Columns: []
Index: [a, b, c, d]

替換丟失/通用值

用標量替換NA是fillna()函式的等效行為

import pandas as pd
import numpy as np
df = pd.DataFrame({'one':[10,20,30,40,50,2000],
'two':[1000,0,30,40,50,60]})
print(df.replace({1000:10,2000:60}))

   one  two
0   10   10
1   20    0
2   30   30
3   40   40
4   50   50
5   60   60

Pandas入門學習（3）

文章目錄 Pandas 常用功能 1、Pandas 迭代迭代 DataFrame iteritems()示例 iterrows()示例 itertuples()示例 2、Panda

java入門學習（3）—循環，選擇，基礎算法，API概念

思想冒泡方法就是最大的接口兩個循環控制得到 1、順序結構：也就是順著程序的前後關系，依次執行。2、選擇分支：利用if..else , / switch(){case [ 這個必須是常量]：}; / if..else if….. ….else..等語句讓程序在

Pandas入門學習（2）

文章目錄 Pandas 基本功能 1、Series 基本屬性 axes 示例 empty 示例 ndim 示例 size 示例 values 示例 head() 和 tail()

Pandas入門學習（1）

文章目錄 Pandas入門學習 1、Series Series的構造建立Series ndarray建立Series dict建立Series 標量建立Series

Python入門學習（3）

操作列表 1.使用for迴圈來列印魔術師列表中的所有名字： magicians = ['alice','david','carolina'] for magician in magicians: print(magician) 在for迴圈中，想包含多少

mybatis入門學習（3）SAXParseException，對實體 "serverTimezone" 的引用必須以 ';' 分隔符結尾。

我用的是mysql8.0.13` <property name="url" value="jdbc:mysql://localhost:3306/mybatis?characterEncoding=utf8&serverTimezone=UTC" />

pandas系列學習（一）：pandas入門

作者：chen_h 微訊號 & QQ：862251340 微信公眾號：coderpai 介紹 pandas 是一套用於 Python 的快速，高效的資料分析工具。近年來它的受歡迎程度飆升，與資料科學和機器學習等領域的興起同步。正如 Numpy 提供了基礎

Linux真小白入門教程第六集——Bash Shell命令學習（3）

在Linux中，重新命名檔案被稱為移動（moving） mv 命令可以將檔案和目錄移動到另一個位置或者重新命名。 mv file1 file2 將檔名從file1改為file2，檔案的innode號和時間戳保持不變，此時mv隻影響檔名。 mv file1 Picture/ 將fi

linux入門學習（3許可權管理）

許可權管理一：檔案或目錄的許可權檢視 1.檔案許可權的檢視兩種檢視檔案詳細資訊的方法： ls -l file 檢視file檔案的詳細資訊（如果是目錄，則是檢視該目錄下的所有

python資料分析pandas包入門學習（三）彙總和統計描述

本文參考《利用Python進行資料分析》的第五章 pandas入門 pandas擁有一組常用的數學和統計方法。它們大部分屬於約簡和彙總統計，用於從Series中提取單個值（如sum和mean），或從DataFrame的行或列中提取一個Series。跟對應的Numpy陣列

深度學習——入門筆記（3）

此處是硬著頭皮跳過得（反向傳播，因為我發現我看的懂每一句話，每一個推導，但是去細想很多東西卻有種轟然崩塌得感覺，所以繼續進行）改善神經網路的方式：（其實就是將結果優化的方式） 1.交叉成本熵函式錯誤的定義是無意義的，因為人類是從錯誤中學習的，但是根據常識，人犯的錯誤越大，學習效果越好

python資料分析pandas包入門學習（四）處理缺失資料

本文參考《利用Python進行資料分析》的第五章 pandas入門 4 處理缺失資料缺失資料（missing data）在大部分資料分析應用中都很常見。Pandas的設計目標之一就是讓缺失資料的處理任務儘量輕鬆。例如，pandas物件上的所有描述統計都排除了缺失資料

python資料分析pandas包入門學習（二）基本功能

本文參考《利用Python進行資料分析》的第五章 pandas入門 2基本功能介紹操作Series和DataFrame中的資料的基本手段。重新索引reindex 當呼叫Series的reindex將會根據新索引進行重排；當某個索引值當前不存在，就引入缺失值；fill_

菜鳥入門_Python_機器學習（3）_迴歸

@sprt *寫在開頭：博主在開始學習機器學習和Python之前從未有過任何程式設計經驗，這個系列寫在學習這個領域一個月之後，完全從一個入門級菜鳥的角度記錄我的學習歷程，程式碼未經優化，僅供參考。有錯誤之處歡迎大家指正。系統：win7-CPU; 程式

C語言入門學習（3-1）——順序結構程式設計

課程要求：1．掌握程式設計的基本思想2．熟悉及掌握C語言基本資料型別（int，long，float，double）的說明3．掌握格式輸入函式scanf的靈活應用4. 掌握格式輸出函式printf的靈活應用5. 算術表示式在實際問題中應用6. 必須掌握的演算法1.兩數的交

基於Qt的OpenGL可編程管線學習（3）- 使用Instanced方式繪制

qt opengl shader instanced 繪制多個重復的模型時，使用Instanced方式繪制可以大大加快顯然速度。繪制效果如下圖所示：1、Vertex Shader中定義如下：attribute vec3 pos; attribute vec2 coord; attribute

OSChinaclient源代碼學習（3）--輪詢機制的實現

man data 本地變量其它失敗 cbo cancel seh ref 主要以OSChina Androidclient源代碼中Notice的輪詢機制進行解讀。一、基礎知識一般IM（即使通訊）的實現有兩種方式：推送和輪詢，推送就是se

PYTHON設計模式學習（3）：Singleton pattern

blog ora 參考擁有沒有 _屬性 ces cti ttr 參考了其他的博客：http://ghostfromheaven.iteye.com/blog/1562618 #-*- encoding=utf-8 -*- print ‘--------------

tcpdump 學習（3）：MySQL Query

說明 server gen rollback 命令復雜 pro 關於 col 在MySQL線上環境我們一般只打開了binary log，slow log，有時我們需要查看general log呢？因為該log記錄所有的請求，打開該日誌肯定給磁盤造成很大壓力，IO能力有所下

Django學習（3）模板定制

ase 我們頻繁 ping upload shang star 2.0 asc 　　在Django學習（一）一首情詩中，views.py中HTML被直接硬編碼在代碼之中，雖然這樣便於解釋視圖是如何工作的，但直接將HTML硬編碼到視圖卻不算一個好主意。因為：對頁面設計進