一. Series

Series: pandas的長槍(資料表中的一列或一行,觀測向量,一維陣列...)


Series1 = pd.Series(np.random.randn(4))

print Series1,type(Series1) 

print Series1.index

print Series1.values

輸出結果：


0   -0.676256

1    0.533014

2   -0.935212

3   -0.940822

dtype: float64 <class 'pandas.core.series.Series'>

Int64Index([0 
, 1, 2, 3], dtype='int64')

[-0.67625578  0.53301431 -0.93521212 -0.94082195]

np.random.randn() 正態分佈相關。函式說明

Series⽀持過濾的原理就如同NumPy


print Series1>0 

print Series1[Series1>0]

輸出結果如下：


0 0.030480

1 0.072746

2 -0.186607

3 -1.412244

dtype: float64 <class 'pandas.core.series.Series'>

Int64Index([0, 1 
, 2, 3], dtype='int64')

[ 0.03048042 0.07274621 -0.18660749 -1.41224432]

我發現，邏輯表示式，獲得的值就是True或者False。要先取得值，還是要X[y]的形式。

當然也支援廣播Broadcasting

什麼是broadcasting,暫時我也不太清楚，看個栗子：


print Series1*2 

print Series1+5

輸出結果如下：

0 0.06096

1 1 0.145492 

2 -0.373215 

3 -2.824489 

dtype: float64 

0 5.030480 

1 5.072746 

2 4.813393 
 

3 3.587756 

dtype: float64

以及Universal Function

numpy.frompyfunc(out,nin,nout) 返回的是一個函式，nin是輸入的引數個數，nout是函式返回的物件的個數函式說明

在序列上就使用行標，而不是建立1個2列的資料表，能夠輕鬆辨別哪是資料，哪是元資料

這句話的意思，我的理解是序列儘量是一列，不用去建立2列，這樣子，使用index就能指定資料了`


Series2 = pd.Series(Series1.values,index=['norm_'+unicode(i) for i in xrange(4)])

print Series2,type(Series2)

print Series2.index

print type(Series2.index)

print Series2.values

輸出結果如下，可以看到，它是通過修改了index值的樣式，並沒有建立2列。


norm_0   -0.676256

norm_1    0.533014

norm_2   -0.935212

norm_3   -0.940822

dtype: float64 <class 'pandas.core.series.Series'>

Index([u'norm_0', u'norm_1', u'norm_2', u'norm_3'], dtype='object')

<class 'pandas.core.index.Index'>

[-0.67625578  0.53301431 -0.93521212 -0.94082195]

雖然行是有順序的，但是仍然能夠通過行級的index來訪問到資料：

（當然也不盡然像Ordered Dict，因為⾏索引甚⾄可以重複，不推薦重複的行索引不代表不能用）


print Series2[['norm_0','norm_3']]

可以看到，讀取資料時，確實要採用X[y]的格式。這裡X[[y]]是因為，它要讀取兩個資料，指定的是這兩個資料的index值，將index值存放進list中，然後讀取。輸出結果如下：


norm_0   -0.676256

norm_3   -0.940822

dtype: float64

再比如：


print 'norm_0' in Series2

print 'norm_6' in Series2

輸出結果：


True

False

邏輯表示式的輸出結果，布林型值。

從Key不重複的Ordered Dict或者從Dict來定義Series就不需要擔心行索引重複：


Series3_Dict = {"Japan":"Tokyo","S.Korea":"Seoul","China":"Beijing"}

Series3_pdSeries = pd.Series(Series3_Dict)

print Series3_pdSeries

print Series3_pdSeries.values

print Series3_pdSeries.index

輸出結果：


China Beijing

Japan Tokyo

S.Korea Seoul

dtype: object

['Beijing' 'Tokyo' 'Seoul']

Index([u'China', u'Japan', u'S.Korea'], dtype='object')

通過上面的輸出結果就知道了，輸出結果是無序的，和輸入順序無關。

想讓序列按你的排序⽅式儲存？就算有缺失值都毫無問題


Series4_IndexList = ["Japan","China","Singapore","S.Korea"]

Series4_pdSeries = pd.Series( Series3_Dict ,index = Series4_IndexList)

print Series4_pdSeries

print Series4_pdSeries.values

print Series4_pdSeries.index

print Series4_pdSeries.isnull()

print Series4_pdSeries.notnull()

上面這樣的輸出就會按照list中定義的順序輸出結果。

整個序列級別的元資料資訊：name

當資料序列以及index本身有了名字，就可以更方便的進行後續的資料關聯啦！

這裡我感覺就是列名的作用。下面舉例：


print Series4_pdSeries.name

print Series4_pdSeries.index.name

很顯然，輸出的結果都是None，因為我們還沒指定name嘛！


Series4_pdSeries.name = "Capital Series"

Series4_pdSeries.index.name = "Nation"

print Series4_pdSeries

輸出結果：


Nation

Japan Tokyo

China Beijing

Singapore NaN

S.Korea Seoul

Name: Capital Series, dtype: object

"字典"？不是的，⾏index可以重複，儘管不推薦。


Series5_IndexList = ['A','B','B','C']

Series5 = pd.Series(Series1.values,index = Series5_IndexList)

print Series5

print Series5[['B','A']]

輸出結果：


A 0.030480

B 0.072746

B -0.186607

C -1.412244

dtype: float64

B 0.072746

B -0.186607

A 0.030480

dtype: float64

我們可以看出，Series['B']輸出了兩個值，所以index值儘量不要重複呀！

二. DataFrame

DataFrame：pandas的戰錘(資料表，⼆維陣列)

Series的有序集合，就像R的DataFrame一樣方便。

仔細想想，絕大部分的資料形式都可以表現為DataFrame。

從NumPy二維陣列、從檔案或者從資料庫定義：資料雖好，勿忘列名


dataNumPy = np.asarray([('Japan','Tokyo',4000),('S.Korea','Seoul',1300),('China','Beijing',9100)])

DF1 = pd.DataFrame(dataNumPy,columns=['nation','capital','GDP'])

DF1

這裡DataFrame中的columns應該就是列名的意思。現在看print的結果，是不是很舒服啊！Excel的樣式嘛

等長的列資料儲存在一個字典裡（JSON）：很不幸，字典key是無序的


dataDict = {'nation':['Japan','S.Korea','China'],'capital':['Tokyo','Seoul','Beijing'],'GDP':[4900,1300,9100]}

DF2 = pd.DataFrame(dataDict)

DF2

輸出結果可以發現，無序的！

GDP    capital    nation

0 4900 Tokyo Japan

1 1300 Seoul S.Korea

2 9100 Beijing China

PS:由於懶得截圖放過來，這裡沒有了邊框線。

從另一個DataFrame定義DataFrame：啊，強迫症犯了！


DF21 = pd.DataFrame(DF2,columns=['nation','capital','GDP'])

DF21

很明顯，這裡是利用DF2定義DF21，還通過指定cloumns改變了列名的順序。


DF22 = pd.DataFrame(DF2,columns=['nation','capital','GDP'],index = [2,0,1])

DF22

很明顯，這裡定義了columns的順序，還定義了index的順序。


nation capital GDP

2 China Beijing 9100

0 Japan Tokyo 4900

1 S.Korea Seoul 1300

從DataFrame中取出列？兩種方法（與JavaScript完全一致！）

OMG，囧，我竟然都快忘了js語法了，現在想起了，但是物件的屬性既可以obj.x也可以obj[x]。

'.'的寫法容易與其他預留關鍵字產生衝突
'[ ]'的寫法最安全。

從DataFrame中取出行？（至少）兩種⽅法：

方法1和方法2：


print DF22[0:1] #給出的實際是DataFrame

print DF22.ix[0] #通過對應Index給出⾏,**ix**好爽。

輸出結果：


 nation  capital   GDP

2  China  Beijing  9100

nation     Japan

capital    Tokyo

GDP         4900

Name: 0, dtype: object

方法3 像NumPy切片一樣的終極招式：iloc ：


print DF22.iloc[0,:]    #第一個引數是第幾行，第二個引數是列。這裡呢，就是第0行，全部列

print DF22.iloc[:,0]    #根據上面的描述，這裡是全部行，第0列

輸出結果，驗證一下：


nation       China

capital    Beijing

GDP           9100

Name: 2, dtype: object

2      China

0      Japan

1    S.Korea

Name: nation, dtype: object

動態增加列列，但是無法用"."的方式，只能用"[]"

舉個栗子說明一下就明白了：


DF22['population'] = [1600,130,55]

DF22

輸出結果：


nation    capital    GDP    population

2    China    Beijing    9100    1600

0    Japan    Tokyo    4900    130

1    S.Korea    Seoul    1300    55

三. Index：行級索引

Index：pandas進⾏資料操縱的鬼牌（行級索引）

⾏級索引是：

元資料
可能由真實資料產生，因此可以視作資料
可以由多重索引也就是多個列組合而成
可以和列名進行交換，也可以進行堆疊和展開，達到Excel透視表效果

Index有四種...哦不，很多種寫法，⼀些重要的索引型別包括：

pd.Index（普通）
Int64Index（數值型索引）
MultiIndex（多重索引，在資料操縱中更詳細描述）
DatetimeIndex（以時間格式作為索引）
PeriodIndex （含週期的時間格式作為索引）

直接定義普通索引，長得就和普通的Series⼀樣


index_names = ['a','b','c']

Series_for_Index = pd.Series(index_names)

print pd.Index(index_names)

print pd.Index(Series_for_Index)

輸出結果：


Index([u'a', u'b', u'c'], dtype='object')

Index([u'a', u'b', u'c'], dtype='object')

可惜Immutable，牢記！不可變！舉例如下：此處挖坑啊。不明白……


index_names = ['a','b','c'] 

index0 = pd.Index(index_names) 

print index0.get_values() 

index0[2] = 'd'

輸出結果如下：


['a' 'b' 'c']

---------------------------------------------------------------------------

TypeError                                 Traceback (most recent call last)

<ipython-input-36-f34da0a8623c> in <module>()

      2 index0 = pd.Index(index_names)

      3 print index0.get_values()

----> 4 index0[2] = 'd'



C:\Anaconda\lib\site-packages\pandas\core\index.pyc in __setitem__(self, key, value)

   1055 

   1056     def __setitem__(self, key, value):

-> 1057         raise TypeError("Indexes does not support mutable operations")

   1058 

   1059     def __getitem__(self, key):



TypeError: Indexes does not support mutable operations

扔進去一個含有多元組的List，就有了MultiIndex

可惜，如果這個List Comprehension改成小括號，就不對了。


multi1 = pd.Index([('Row_'+str(x+1),'Col_'+str(y+1)) for x in xrange(4) for y in xrange(4)])

multi1.name = ['index1','index2']

print multi1

輸出結果：


MultiIndex(levels=[[u'Row_1', u'Row_2', u'Row_3', u'Row_4'], [u'Col_1', u'Col_2', u'Col_3', u'Col_4']],

           labels=[[0,  
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    Python資料分析入門之pandas總結基礎
      
                

一. Series

Series: pandas的長槍(資料表中的一列或一行,觀測向量,一維陣列...)

Series1 = pd.Series(np.random.randn(4))

print Series1,type(Series1) 

print Seri 

  
 

    

    
    python資料分析處理庫-Pandas之Series結構及Series常用操作方法
      
								
								            
						
                我上上篇部落格說過：Pandas資料結構為DataFrame，裡面可以同時是int、float、object（string型別時）、datatime、bool資料型別。而構成DataFrame結構的每一 

  
 

    

    
    Python資料分析入門知識點總結
      
								
								            
							
							
							入門Python資料分析的知識點總結，也可做速查表。只需要學會下面的知識點就可以在工作中勝任大部分的工作需求。  
Python 版本：3.2.3  
Python工具：jupyter notebook 

  
 

    

    
    7.python資料分析與展示------Pandas庫入門
      
                1.Pandas庫的介紹Pandas是Python第三方庫，提供高效能易用資料型別和分析工具             import    pandas as   pdPandas基於Numpy實現，常與Numpy和Matplotlib一同使用import pandas as  

  
 

    

    
    python資料分析入門(一)----安裝pandas
      
                打算入坑, python資料分析 , 所以下載了 <利用python資料分析>的電子書, 影印版 , 14年出版的 , 現在有很多工具對不上號, 但是整體思想還是不變的 , 所以準備工作要做好, 第一步就是安裝常用個庫,  https://pypi.python. 

  
 

    

    
    Python 資料分析包：pandas 基礎
      

類似於 Numpy 的核心是 ndarray，pandas 也是圍繞著 Series 和 DataFrame 兩個核心資料結構展開的 。Series 和 DataFrame 分別對應於一維的序列和二維的表結構。pandas 約定俗成的匯入方法如下：

from pandas import Series,D 

  
 

    

    
    獨家 | Python資料分析入門指南
       
 
 有一個朋友最近問到這個問題，我覺得把它公開出來對其他人也會有幫助。這是給完全不瞭解Python而想找到從零到一的最簡單的路徑的人的建議： 
   
 1. 在這裡（https://www.continuum.io/downloads）下載適用於你的作業系統的Python 3.X的Anaco 

  
 

    

    
    利用python 資料分析入門，詳細教程，教小白快速入門
      　　這是一篇的資料的分析的典型案列，本人也是經歷一次從無到有的過程，倍感珍惜，所以將其詳細的記錄下來，用來幫助後來者快速入門！ 
　　資料的格式如下： 
　　 
　　 
　　我們設定 一個trem or  typedef為一條標籤，一行為一條記錄或者是鍵值對，以此為標準！ 
　　下面我們來對資料進行 

  
 

    

    
    Python資料分析常用的庫總結
      Python之所以能夠成為資料分析與挖掘領域的最佳語言，是有其獨特的優勢的。因為他有很多這個領域相關的庫可以用，而且很好用，比如Numpy、SciPy、Matploglib、Pandas、ScikitLearn、Keras、Gensim等
    1）Numpy，它給Python提供了真正的陣列功能，包括多 

  
 

    

    
    python資料分析處理庫-Pandas資料讀取、索引與計算
      
								
								            
						
                Pandas資料讀取、索引與計算

Pandas資料結構為DataFrame，裡面可以同時是int、float、object（string型別時）、datatime、bool資料型別

import p 

  
 

    

    
    資料分析工具之Pandas（二）轉載
       
  
  
 一、Pandas統計計算和描述 
 示例程式碼： 
 import numpy as np
import pandas as pd

df = pd.DataFrame(np.random.randn(5,4), columns = ['a', 'b', 'c', 'd'])
print(d 

  
 

    

    
    資料分析工具之Pandas（一）轉載
       
  
  
 第三部分資料分析工具Pandas 
  
  Pandas的名稱來自於面板資料（panel data）和Python資料分析（data analysis）。 
  
 Pandas是一個強大的分析結構化資料的工具集，基於NumPy構建，提供了 高階資料結構 和 資料操作工具，它是使Pytho 

  
 

    

    
    大資料的入門之路——Hadoop基礎學習
      前言 
目前人工智慧和大資料火熱，使用的場景也越來越廣，日常開發中前端同學也逐漸接觸了更多與大資料相關的開發需求。因此對大資料知識也有必要進行一些學習理解。 
基礎概念 
大資料的本質 
一、資料的儲存：分散式檔案系統(分散式儲存) 
二、資料的計算：分部署計算 
基礎知識 
學習大資料需要具備Java知識基 

  
 

    

    
    hive+python資料分析入門
      
                

為什麼要使用hive+python來分析資料

舉個例子,

當年沒有資料庫的時候, 人們程式設計來操作檔案系統, 這相當於 我們編寫mapreduce來分析資料

後來有了資料庫, 再沒人操作檔案系統了(除非有其它需求), 而是直接使用sql和一些語言(php, jav 

  
 

    

    
    python資料分析系列教程——Pandas全解
      
							
							
							起步

Pandas最初被作為金融資料分析工具而開發出來，因此 pandas 為時間序列分析提供了很好的支援。 Pandas 的名稱來自於面板資料（panel data）和python資料分析 （data analysis） 。panel data是經濟學中關於 

  
 

    

    
    大神自學後作《Python資料分析入門——從資料獲取到視覺化》
      
                    

                    

                    
                    
                    本書為資料猿推出的《每週一本書》欄目叢書。歡迎大家推薦好書給我們，讓更多人受益。【資料猿導讀】本 

  
 

    

    
    Python資料分析入門（一）——初探資料視覺化
      
                前言

靜下心算算，當程式設計師已經有好幾年了，不過自大學時代開始，學習對我來說就是個被動接受的過程，學校的課程、當時熱門的移動端開發、資料庫的學習、web學習、PHP後端學習……需要做什麼我便去學什麼，到了今天，突然意識到我是不是該給自己一個明確的發展方向了，畢竟歲月不饒人 

  
 

    

    
    Python資料分析之pandas入門
      一、pandas庫簡介 

 pandas是一個專門用於資料分析的開源Python庫，目前很多使用Python分析資料的專業人員都將pandas作為基礎工具來使用。pandas是以Numpy作為基礎來設計開發的，Numpy是大量Python資料科學計算庫的基礎，pandas以此為基礎，在計算方面具有很高的效能 

  
 

    

    
    《用Python玩轉資料》專案—線性迴歸分析入門之波士頓房價預測（二）
      接上一部分，此篇將用tensorflow建立神經網路，對波士頓房價資料進行簡單建模預測。 
二、使用tensorflow擬合boston房價datasets 
1、資料處理依然利用sklearn來分訓練集和測試集。 
2、使用一層隱藏層的簡單網路，試下來用當前這組超引數收斂較快，準確率也可以。 
3、啟用函式 

  
 

    

    
    Python 資料分析與展示筆記4 -- Pandas 庫基礎
       
 
  
  
 Python 資料分析與展示筆記4 – Pandas 庫基礎 
  
 Python 資料分析與展示系列筆記是筆者學習、實踐Python 資料分析與展示的相關筆記 
 課程連結： Python 資料分析與展示 
 參考文件： Numpy 官方文件（英文） Numpy 官方文件（中文） P