Python常見庫Numpy、Pandas函式使用匯總
C.DataFrame
DataFrame是一個表格型的資料結構,它含有一組有序的列,每列可以是不同的值型別(數值、字串、布林值等)。DataFrame既有行索引也有列索引,它可以被看做由Series組成的字典(共用同一個索引)。
DataFrame可以通過類似字典的方式或者.columnname的方式將列獲取為一個Series。行也可以通過位置或名稱的方式進行獲取。
為不存在的列賦值會建立新列。
>>> del frame['xxx'] # 刪除列
屬性 | 說明 |
values | DataFrame的值 |
index | 行索引 |
index.name | 行索引的名字 |
columns | 列索引 |
columns.name | 列索引的名字 |
ix | 返回行的DataFrame |
ix[[x,y,...], [x,y,...]] | 對行重新索引,然後對列重新索引 |
T | frame行列轉置 |
2.2.C.1 DataFrame常用屬性
函式 | 說明 |
DataFrame(dict, columns=dict.index, index=[dict.columnnum]) DataFrame(二維ndarray) DataFrame(由陣列、列表或元組組成的字典) DataFrame(NumPy的結構化/記錄陣列) DataFrame(由Series組成的字典) DataFrame(由字典組成的字典) DataFrame(字典或Series的列表) DataFrame(由列表或元組組成的列表) DataFrame(DataFrame) DataFrame(NumPy的MaskedArray) | 構建DataFrame 資料矩陣,還可以傳入行標和列標 每個序列會變成DataFrame的一列。所有序列的長度必須相同 類似於“由陣列組成的字典” 每個Series會成為一列。如果沒有顯式制定索引,則各Series的索引會被合併成結果的行索引 各內層字典會成為一列。鍵會被合併成結果的行索引。 各項將會成為DataFrame的一行。索引的並集會成為DataFrame的列標。 類似於二維ndarray 沿用DataFrame 類似於二維ndarray,但掩碼結果會變成NA/缺失值 |
df.reindex([x,y,...], fill_value=NaN, limit) df.reindex([x,y,...], method=NaN) df.reindex([x,y,...], columns=[x,y,...],copy=True) | 返回一個適應新索引的新物件,將缺失值填充為fill_value,最大填充量為limit 返回適應新索引的新物件,填充方式為method 同時對行和列進行重新索引,預設複製新物件。 |
df.drop(index, axis=0) | 丟棄指定軸上的指定項。 |
排序函式 | 說明 |
df.sort_index(axis=0, ascending=True) df.sort_index(by=[a,b,...]) | 根據索引排序 |
彙總統計函式 | 說明 |
df.count() | 非NaN的數量 |
df.describe() | 一次性產生多個彙總統計 |
df.min() df.min() | 最小值 最大值 |
df.idxmax(axis=0, skipna=True) df.idxmin(axis=0, skipna=True) | 返回含有最大值的index的Series 返回含有最小值的index的Series |
df.quantile(axis=0) | 計算樣本的分位數 |
df.sum(axis=0, skipna=True, level=NaN) df.mean(axis=0, skipna=True, level=NaN) df.median(axis=0, skipna=True, level=NaN) df.mad(axis=0, skipna=True, level=NaN) df.var(axis=0, skipna=True, level=NaN) df.std(axis=0, skipna=True, level=NaN) df.skew(axis=0, skipna=True, level=NaN) df.kurt(axis=0, skipna=True, level=NaN) df.cumsum(axis=0, skipna=True, level=NaN) df.cummin(axis=0, skipna=True, level=NaN) df.cummax(axis=0, skipna=True, level=NaN) df.cumprod(axis=0, skipna=True, level=NaN) df.diff(axis=0) df.pct_change(axis=0) | 返回一個含有求和小計的Series 返回一個含有平均值的Series 返回一個含有算術中位數的Series 返回一個根據平均值計算平均絕對離差的Series 返回一個方差的Series 返回一個標準差的Series 返回樣本值的偏度(三階距) 返回樣本值的峰度(四階距) 返回樣本的累計和 返回樣本的累計最大值 返回樣本的累計最小值 返回樣本的累計積 返回樣本的一階差分 返回樣本的百分比數變化 |
計算函式 | 說明 |
df.add(df2, fill_value=NaN, axist=1) df.sub(df2, fill_value=NaN, axist=1) df.div(df2, fill_value=NaN, axist=1) df.mul(df2, fill_value=NaN, axist=1) | 元素級相加,對齊時找不到元素預設用fill_value 元素級相減,對齊時找不到元素預設用fill_value 元素級相除,對齊時找不到元素預設用fill_value 元素級相乘,對齊時找不到元素預設用fill_value |
df.apply(f, axis=0) | 將f函式應用到由各行各列所形成的一維陣列上 |
df.applymap(f) | 將f函式應用到各個元素上 |
df.cumsum(axis=0, skipna=True) | 累加,返回累加後的dataframe |
2.2.C.2 Dataframe常用函式
索引方式 | 說明 |
df[val] | 選取DataFrame的單個列或一組列 |
df.ix[val] | 選取Dataframe的單個行或一組行 |
df.ix[:,val] | 選取單個列或列子集 |
df.ix[val1,val2] | 將一個或多個軸匹配到新索引 |
reindex方法 | 將一個或多個軸匹配到新索引 |
xs方法 | 根據標籤選取單行或者單列,返回一個Series |
icol、irow方法 | 根據整數位置選取單列或單行,並返回一個Series |
get_value、set_value | 根據行標籤和列標籤選取單個值 |
2.2.C.3 Dataframe常用索引方式
運算:
預設情況下,Dataframe和Series之間的算術運算會將Series的索引匹配到的Dataframe的列,沿著列一直向下傳播。若索引找不到,則會重新索引產生並集。
D.Index
pandas的索引物件負責管理軸標籤和其他元資料(比如軸名稱等)。構建Series或DataFrame時,所用到的任何陣列或其他序列的標籤都會被轉換成一個Index。Index物件不可修改,從而在多個數據結構之間安全共享。
主要的Index物件 | 說明 |
Index | 最廣泛的Index物件,將軸標籤表示為一個由Python物件組成的NumPy陣列 |
Int64Index | 針對整數的特殊Index |
MultiIndex | “層次化”索引物件,表示單個軸上的多層索引。可以看做由元組組成的陣列 |
DatetimeIndex | 儲存納秒級時間戳(用NumPy的Datetime64型別表示) |
PeriodIndex | 針對Period資料(時間間隔)的特殊Index |
相關推薦
Python常見庫Numpy、Pandas函式使用匯總
'first' 按值在原始資料中出現的順序排名 C.DataFrame DataFrame是一個表格型的資料結構,它含有一組有序的列,每列可以是不同的值型別(數值、字串、布林值等)。DataFrame既有行索引也有列索引,它可以被看做由Series組成的字典(共用同一個索引)。
python資料處理庫numpy、pandas陣列操作
1.numpy 1.1陣列行列 import numpy as np data_np=np.array(data) data_col=data_np[:,2:] data_row=data_np[] 1.2陣列拼接 按列拼接 data_cat_
Python擴充套件庫numpy中where()函式的三種用法 Python擴充套件庫numpy中where()函式的三種用法
原 Python擴充套件庫numpy中where()函式的三種用法 2018年06月25日 07:43:56 Python_小屋 閱讀數:1000
Ubuntu18.04下安裝機器學習相關Python第三方庫numpy,scipy,pandas,matplotlib
本文主要講述在ubuntu18.04下是如何安裝numpy,scipy,pandas,matplotlib的 一、numpy NumPy(Numeric Python)是用Python進行科學計算的基本軟體包。 NumPy是Pytho
Python資料探勘課程 六.Numpy、Pandas和Matplotlib包基礎知識
前面幾篇文章採用的案例的方法進行介紹的,這篇文章主要介紹Python常用的擴充套件包,同時結合資料探勘相關知識介紹該包具體的用法,主要介紹Numpy、Pandas和Matplotlib三個包。目錄: 一.Python常用擴充套件包
Python常用模組(time、numpy、pandas、matplotlib)之簡單使用
一、time模組 常用的一種獲取當前時間以及格式化模組,模組名稱:time 匯入方式:import time 1. 時間元祖屬性 2. 常用方法 3. 使用 3.1 導包 import time 3.
windows下安裝python及第三方庫numpy、scipy、matplotlib終極版
一、python安裝 進入python官網https://www.python.org/,點選Downloads--Windows下載對應的python2.7或者3.6。 下載點選安裝,預設安裝位置是C盤根目錄C:\,如果C盤空間夠用,不建議換目錄,按照
Python:基本運算、基本函式(包括複數)、Math模組、NumPy模組
基本運算 x**2 : x^2 若x是mat矩陣,那就表示x內每個元素求平方 inf:表示正無窮 邏輯運算子:and,or,not 基本函式 字典的get方法 a.get(k,d) get相當於一條if…else…語句。若k在字典a中,
【Python資料探勘課程】六.Numpy、Pandas和Matplotlib包基礎知識
前面幾篇文章採用的案例的方法進行介紹的,這篇文章主要介紹Python常用的擴充套件包,同時結合資料探勘相關知識介紹該包具體的用法,主要介紹Numpy、Pandas和Matplotlib三
Python資料分析模組安裝---Numpy、Pandas、Matplotlib
如果是沒有python基礎的同學,建議可以直接下載安裝 anaconda,裡面已經集成了各種資料分析所需模組,這裡不做贅述。 下載地址:https://www.continuum.io/downloads/ 下面來介紹用python安裝以及利用python的pip安裝各個
Python資料科學知識體系【 Numpy、Pandas、Matplotlib 】
以簡單、直觀、清晰的思維導圖方式,幫助大家學習和回顧Python資料科學知識體系,原創作者是個萌妹紙。 Numpy (一) Numpy (二) Numpy (三) Pandas (資料結構) Pandas (索引物件) Pandas (
NumPy、Pandas、Matplotlib、 scipy機器學習庫安裝
NumPy系統是Python的一種開源的數值計算擴充套件。這種工具可用來儲存和處理大型矩陣,比Python自身的巢狀列表(nested list structure)結構要高效的多(該結構
Python庫Numpy的argpartition函式淺析
最近在研究用Python實現K鄰近演算法的KD樹,發現一個奇怪的現象,就是為什麼沒有在網上搜到關於numpy的argpartition的任何中文的文章。難道是我搜索方法有問題嗎?所以自己寫一篇簡單的文章說說這個有意思的函式。 這個函式有什麼用呢?我舉幾個例子,
Python安裝numpy、pandas、matplotlib等第三方包
首先開啟cmd,然後進入pip.exe所在的scripts路徑。安裝順序就是numpy,Scipy,matplotlib,sklearn。首先是更新一下pip (確保pip能使用)然後將setuptools, numpy, python-dateutil, pytz, pyp
Ubuntu16.04安裝Python的資料分析庫numpy,pandas,scipy,matplotlib
1. 安裝依賴庫 sudo apt-get install python-dev 2. 使用pip方式安裝 sudo pip install numpy sudo pip install scipy sudo pip install pandas sudo pi
numpy、pandas、scipy介紹
https://blog.csdn.net/LOLITA0164/article/details/80195124 numpy簡介NumPy(Numeric Python)是一個Python包。它是一個由多維陣列物件和用於處理陣列的例程集合組成的庫。Numeric,即NumPy的前身,是由Jim Hugun
Python機器學習Numpy, Scipy, Pandas, Scikit-learn, Matplotlib, Keras, NN速查手冊
Python機器學習Numpy, Scipy, Pandas, Scikit-learn, Matplotlib, Keras, NN速查手冊 Numpy SciPy Scikit-Learn Pandas Keras Matp
python 擴充套件庫 numpy
np.newaxis 用於在指定的維度上增加陣列的維度。通俗的講,每往尾部加一個np.newaxis,就多給最內層元素增加一對[ ] >>> a=np.random.randint(0,5,6) >>> a array([0, 0, 4, 1, 4
python-for迴圈語句、range()函式
1.for迴圈 2.range 1.for迴圈 for 迴圈的語法: for 變數 in range(10): #迴圈0-9次 迴圈需要執行的程式碼 else: 迴圈結束時需要執行的程式碼 2.range()函式: range(stop): 0~stop-1 r
python中的numpy和pandas---機器學習實戰第一篇KNN
http://www.cnblogs.com/prpl/p/5537417.html 熟悉其基本操作 from numpy import * import operator def data(): datas = array([[1.0,1.1],[1.0,1.0],[0,0]