python——pandas包的一些功能筆記

阿新 • • 發佈：2019-01-08

pandas

series

import pandas as pd
from pandas import Series,DataFrame

data=Series([4,7,-5,3])
data.values #以陣列的形式呈現
data=Series([4,7,-5,3],index=["d","b","a","c"]) #自定義index
data.index #檢視index
data["a"] #索引查詢
data["a"]=5 #更改
data[data>0] #索引正值
np.exp(data)
"b" in data #返回布林值
data1 = Series(data) #字典轉換成series 

data=Series(data,index=states) #states是一個包含index的list，若沒有對應的，則NaN
pd.isnull(data) #返回都是布林值的series
pd.notnull(data)
data.isnull()
data1+data2 #series在算數運算中會i懂對齊不同索引的資料
data.name="population" #設定series的名字
data.index.name="state" #索引也可以設定名字哦~~
data.index=["bob","steve","jeff"] #修改索引

DataFrame

frame=DataFrame(data) #字典轉化為dataframe，key變列索引 

frame=DataFrame(data,columns=["year","state","pop"],index=["one","two","three"]) #columns是列索引，index是行索引
frame.columns #檢視列索引
frame.one
frame["state"]
frame.ix["three"] #`.ix`用於對行索引
frame["debt"]=16.5 #16.5覆蓋debt列的所有值
frame["debt"]=np.arange(5)
frame["eastern"] = frame.state=="ohio" #得到布林值
frame=DateFrame(pop) #pop為巢狀字典，外層key為列索引，內層key為行索引 

frame.T
frame.index.name="year"
frame.columns.name="state"
frame.values #返回陣列

重新索引

data=Series([4.5,7.2,-5.3,3.6],index=["d","b","a","c"])
data1=data.reindex(["a","b","c","d","e"]) #`.reindex`進行索引排序
data1=data.reindex(["a","b","c","d","e"],fill_value=0) #`fill_value=0`即NaN變為0
data.reindex(range(6),method="ffill") #缺失項，前向填充，若method="bfill",即為後項填充
frame=DataFrame(np.arange(9).reshape((3,3)),index=["a","c","d"],columns=["ohio","texas","california"])
frame.reindex(["a","b","c","d"])
frame.ix[["a","b","c","d"],states] #左行索引，右列索引

丟棄指定軸上的項

frame.drop("c") #丟棄行的一項，預設axis=0，丟棄列是，設定axis=1

frame["b":"c"] #!!!!!!利用標籤的切片運算與普通的python切片運算不同，其末端是包含的。
data<0 #所有都返回布林值
data1.add(data2,fill_value=0)

排序和排名

data.sort_index() #按索引排序，預設axis=0
data.sort_index(axis=1,ascending=False) #列索引按降序排序
data.order() #series按值排序，且缺失值會預設放句末
frame.sort_index(by="b") #按b列順序
frame.sort_index(by=["b","a"])
frame.index.is_unique #索引是否唯一

彙總和計算描述統計

data.sum(axis=1,skipna=False) #skipana排除缺失值，預設為True
data.idxmax() #索引最大值
df.cumsum() #累計加
df.describe() #顯示數量、均值、方差、最小最大值、各分位數，非數值型資料返回：count、unique、top、freq
data.corr() #相關係數
data.cov() #協方差
data.corrwith(data.IBM)

唯一值、值計數以及成員資格

data.unique() #顯示series中的唯一值
data.value_counts() #series中各值出現頻數，預設sort=True
data.isin(["b","c"]) #series是否為b或c

濾除缺失資料

data.dropna() #預設丟棄任何含有缺失值的行
data.dropna(how="all") #how="all"表示只丟棄全為NA的那些行
df.ix[:4,1]=NA #`.ix`函式，若dataframe沒有設定index，包含末端
df.fillna({1:0.5,3:-1})
df.fillna(0,inplace=True)

python——pandas包的一些功能筆記

pandas series import pandas as pd from pandas import Series,DataFrame data=Series([4,7,-5,3]) data.values #以陣列的形式呈現 data=S

python sklearn包——cross validation筆記

preface：做實驗少不了交叉驗證，平時常用from sklearn.cross_validation import train_test_split，用train_test_split()函式將資料集分為訓練集和測試集，但這樣還不夠。當需要除錯引數的時候便要用到K-f

python pandas 庫學習使用筆記

Series資料型別 Series is a one-dimensional labeled array capable of holding any data type (integers, strings, floating

Python---pandas包

來源：http://www.th7.cn/Program/Python/201412/329841.shtml pandas 是基於 Numpy 構建的含有更高階資料結構和工具的資料分析包類似於 Numpy 的核心是 ndarray，pandas 也是圍繞著 Ser

python pandas庫的學習筆記一pandas的資料結構

要使用pandas，首先要熟悉他的兩個主要的資料結構：Series和DataFrame。一、Series Series 是一種類似於一維陣列的物件，由一組資料（各種numpy資料型別）以及一組與之相關的資料標籤（即索引）組成。僅由一組資料即可產生最簡單的Series

python sklearn包——grid search筆記

Preface：演算法不夠好，需要除錯引數時必不可少。比如SVM的懲罰因子C，核函式kernel，gamma引數等，對於不同的資料使用不同的引數，結果效果可能差1-5個點，sklearn為我們提供專門除錯引數的函式grid_search。在sklearn中以API的形式給

python資料分析pandas包入門學習（二）基本功能

本文參考《利用Python進行資料分析》的第五章 pandas入門 2基本功能介紹操作Series和DataFrame中的資料的基本手段。重新索引reindex 當呼叫Series的reindex將會根據新索引進行重排；當某個索引值當前不存在，就引入缺失值；fill_

Python的pandas包的學習

min 註意 table doc max nump obb 顯示 arm 一：pandas的數據類型　　pandas中最重要的數據類型是Series序列和 DataFrame數據框,Series相當於Numpy中的一維數組，不同之處series會自帶索引值。datafr

《Python 數據分析》筆記——pandas

filled 處理追加默認 date ips 變量 style 標準差 Pandaspandas是一個流行的開源Python項目，其名稱取panel data(面板數據)與Python data analysis(Python 數據分析)之意。pandas有兩個重要的數

python:pandas學習筆記

python pandas 人工智能import pandas sub_info = pandas.read_csv("contract.csv") #sub_info #print (sub_info) type(sub_info) #print (sub_info.dtypes) first_row

python功能筆記——圖像處理

python 圖像處理 python圖像處理from PIL import Image"""打開圖片"""pil_im=Image.open(‘test1.jpg‘).convert(‘L‘) #打開圖片，後跟函數功能為轉變成灰色#print

python功能筆記——遠程監控

python 遠程監控 python 監控遠程主機（根據慕課網手打）1.獲取要監控的計算機的信息os.system(‘command‘) 直接輸出結果os.popen(‘command‘) 返回一個文件open(‘/proc/file‘) cpuinfo文件保存的cpu信

python功能筆記——爬蟲

python 爬蟲 python爬蟲from bs4 import BeautifulSoupimport requestsurl=‘http://www.baidu.com‘wb_data = requests.get(url)soup = BeautifulSoup(wb_data.text,‘l