利用Python資料分析：pandas入門（三）

阿新 • • 發佈：2018-12-27

obj  = Series(range(3),index=['a','b','c'])
index = obj.index
index
index[1:]
index[1] = 'd' # index物件是不能被修改的  Index does not support mutable operations
index = pd.Index(np.arange(3))
obj2 = Series([1.5,-2.5,0],index=index)
obj2.index is index # 索引是否為索引？
pop ={'Nevada':{2001:2.4,2002:2.9},
      'Ohio':{2000:1.5,2001:1.7,2002:3.6}} #這是一個巢狀字典
frame3 = DataFrame(pop)# 巢狀字典轉成Dataframe的時候外層的鍵作為列內層的鍵作為索引
frame3
'Ohio' in frame3.columns # 類似於陣列的固定大小的集合方法
2003 in frame3.index
#重新索引
obj = Series([4.5,7.2,-5.3,3.6,],index=['d','b','a','c'])
obj
obj2 = obj.reindex(['a','b','c','d','e'])
obj2
obj.reindex(['a','b','c','d','e'],fill_value=0) #把空值設定成0
obj3 = Series(['blue','purple','yellow'],index=[0,2,4])
obj3.reindex(range(6),method='ffill')#重新索引時候需要做一些插值處理 method引數可以達到這個目的
frame = DataFrame(np.arange(9).reshape((3,3)),index=['a','c','d'],
                  columns=['Ohio','Teaxs','Carlifornia'])
frame
frame2 = frame.reindex(['a','b','c','d']) #如果只傳入一個序列就只重新索引行
frame2
states = ['Teaxs','Utah','Carlifornia'] # 使用columns關鍵字進行列的重新索引
frame.reindex(columns=states)
frame.reindex(index=['a','b','c','d'],method='ffill',
              columns=states) #對行列進行重新索引但是插值只適用與行
frame.ix[['a','b','c','d'],states] #用ix同樣可以做到重新索引

obj = Series(np.arange(5.),index=['a','b','c','d','e']) # 建立一個series
new_obj = obj.drop('c') # 丟棄掉索引C上的元素
new_obj
obj.drop(['d','c'])
data = DataFrame(np.arange(16).reshape((4,4)),
                 index=['Ohio','Colorado','Utah','New York'],
                 columns=['one','two','three','four']) # 建立一個 DataFrame
data.drop(['Colorado','Ohio']) # 丟棄掉索引為這兩個的行
data.drop('two',axis=1) # 丟棄列
data.drop(['two','four'],axis=1) # 在丟棄列的時候需要指定丟棄的軸
# 索引的選取和過濾
#Series的索引是obj[...]
obj = Series(np.arange(4.),index=['a','b','c','d']) # 建立一個series
obj['b']
obj[1] # 這裡和上面是等效的series預設是從0~n-1的索引
obj[2:4] # 這裡使用的是Python的普通的切片 不包含末端也就是開區間
obj[['b','a','d']] # 指定順序
obj[[1,3]]
obj[obj<2] # 布林型的方式進行處理
obj['b':'c'] # 利用標籤進行切片這裡同普通的Python切片不同之處在於它是一個閉區間
obj['b':'c'] = 5 # 進行賦值操作
obj
data = DataFrame(np.arange(16).reshape((4,4)),
                 index=['Ohio','Colorado','Utah','New York'],
                 columns=['one','two','three','four']) # 建立一個 DataFrame
data
data['two'] # 選取‘two這一列’
data[['three','one']] # 選取兩列 同series 一樣的用法
data[:2] # 使用切片選取前兩行
data[data['three']>5] # 內層是一個布林陣列 第三列＜5的行剔除
data<5
data[data<5] = 0
data # 這段程式碼的意義在於讓dataframe更像ndarray
# 使用ix 的索引欄位來選取行列子集
data.ix['Colorado',['two','three']] # Colorado 這一行的‘two’和'three'這兩列
data.ix[['Colorado','Utah'],[3,0,1]] # 和上面的相似，只不過這裡用數字的方法進行選取
data.ix[2] # 選取的是axis = 0軸上的也就是第二行utah的
data.ix[:'Utah','two'] # 喵？
data.ix[data.three>5,:3] # 布林型陣列進行選取而後進行切片
# 算術運算和資料對齊

利用Python資料分析：pandas入門（三）

obj = Series(range(3),index=['a','b','c']) index = obj.index index index[1:] index[1] = 'd' # index物件是不能被修改的 Index does not support mut

利用Python資料分析：pandas入門（二）

import pandas as pd import numpy as np from pandas import Series,DataFrame data = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada'],

利用Python資料分析：pandas入門（五)

from pandas import Series,DataFrame import pandas as pd import numpy as np from numpy import nan as NA df = DataFrame(np.random.randn(7,3

Python資料分析之pandas學習（二）

有關pandas模組的學習與應用主要介紹以下8個部分： 1、資料結構簡介：DataFrame和Series 2、資料索引index 3、利用pandas查詢資料 4、利用pandas的DataFrames進行統計分析 5、利用pandas實現SQL操作 6、利用panda

利用Python資料分析：資料規整化（四)

# 移除重複項 data = DataFrame({'k1':['one'] * 3 +['two'] * 4, 'k2':[1,1,2,3,3,4,4]}) data data.duplicated() # 返回一個布林型別的Serie

利用Python資料分析：資料規整化（五）

import pandas as pd from pandas import Series,DataFrame import numpy as np import re # 計算指標/啞變數（dummy） df = DataFrame({'key':['b','b','a

利用Python資料分析：資料載入、儲存與檔案格式（一)

import pandas as pd from pandas import DataFrame,Series import sys import numpy as np df = pd.read_csv('E:\Python for Data Analysis\pydat

利用Python資料分析：資料規整化（三)

a = Series([np.nan,2.5,np.nan,3.5,4.5,np.nan], index=['f','e','d','c','b','a']) b = Series(np.arange(len(a),dtype=np.float64),

python資料分析、挖掘初學（一）：numpy的簡單使用

開新篇：資料分析學習筆記。直接在可執行程式碼的基礎上進行註釋說明，首先學習numpy的基礎語法 #numpy import numpy as np def main(): lst=[[1,3,5],[2,4,6]] print(type(lst))#型

Python資料分析之pandas入門

一、pandas庫簡介 pandas是一個專門用於資料分析的開源Python庫，目前很多使用Python分析資料的專業人員都將pandas作為基礎工具來使用。pandas是以Numpy作為基礎來設計開發的，Numpy是大量Python資料科學計算庫的基礎，pandas以此為基礎，在計算方面具有很高的效能

Python資料分析之numpy學習（二）

我們接著《Python資料分析之numpy學習（一）》繼續講解有關numpy方面的知識！統計函式與線性代數運算統計運算中常見的聚合函式有：最小值、最大值、中位數、均值、方差、標準差等。首先來看看陣列元素級別的計算： In [94]: arr11 = 5-np.

Python中Flask的基礎入門（三）

如果我們想要在flask中用到資料庫，那麼我們需要配置。下面我們有mysql為例來配置首先你的電腦上要有一個mysql資料庫，然後才可以。下面是我們配置的程式碼 from flask import Flask,render_template from flask_sqlal

資料結構：單鏈表（三）輸出連結串列值最大的節點

/********************************************************* **************新增加功能：輸出連結串列中值的最大節點*********

資料分析系列精彩濃縮（三）

資料分析（三）在分析UCI資料之前，有必要先了解一些決策樹的概念（decision tree）此處推薦一個關於決策樹的部落格地址： http://www.cnblogs.com/yonghao/p/5061873.html 決策樹（decision tree (DT)）的基本特徵

Python刷題：簡單陣列（三）

11.Best Time to Buy and sellStockⅡ Say you have an array for which the ithelement is the price of a given stock on day i. Design an

python資料分析：分類分析（classification analysis）

何為分類分析在機器學習和統計中，分類是基於包含其類別成員資格已知的觀察（或例項）的訓練資料集來識別新觀察所屬的一組類別（子群體）中的哪一個的問題。例如，將給定的電子郵件分配給“垃圾郵件”或“非垃圾郵件”類，並根據觀察到的患者特徵（性別，血壓，某些症狀的存在或不存在等）為給定患者分配

python資料分析：聚類分析（cluster analysis）

何為聚類分析聚類分析或聚類是對一組物件進行分組的任務，使得同一組（稱為聚類）中的物件（在某種意義上）與其他組（聚類）中的物件更相似（在某種意義上）。它是探索性資料探勘的主要任務，也是統計資料分析的常用技術，用於許多領域，包括機器學習，模式識別，影象分析，資訊檢索，生物資訊學，資料

python資料分析：關聯規則學習（Association rule learning）

何為關聯規則學習關聯規則學習是一種基於規則的機器學習方法，用於發現大型資料庫中變數之間的有趣關係。它旨在使用一些有趣的度量來識別在資料庫中發現的強規則。這種基於規則的方法在分析更多資料時也會生成新規則。假設資料集足夠大，最終目標是幫助機器模擬人類大腦的特徵提取和新未分類資料的抽象關

利用python 資料分析入門，詳細教程，教小白快速入門

　　這是一篇的資料的分析的典型案列，本人也是經歷一次從無到有的過程，倍感珍惜，所以將其詳細的記錄下來，用來幫助後來者快速入門！　　資料的格式如下：　　　　　　我們設定一個trem or typedef為一條標籤，一行為一條記錄或者是鍵值對，以此為標準！　　下面我們來對資料進行

python資料分析06--Pandas資料歸整：聚合和重塑

在許多應用中，資料可能分散在許多檔案或資料庫中，儲存的形式也不不利利於分析，應採用聚合、合併、重塑資料的方法進行處理。一、層次化索引層次化索引（hierarchical indexing）是pandas的一項重要功能，它使你能在一個軸上擁有多個（兩個以上）索引級別。 In

利用Python資料分析：pandas入門（三）

相關推薦