python資料分析之pandas學習一

阿新 • • 發佈：2019-02-16

連結（官網文件）：點選這裡

Pandas是python第三方庫，提供高效能易用資料型別和分析工具。import pandas as pd

pandas基於Numpy實現，常與Numpy和Matplotlib一同使用。

Numpy	pandas（Series+dataframe）
基礎資料型別	擴充套件資料型別
關注資料的結構表達	關注資料的應用表達
維度：資料間關係	資料與索引間關係

一 Series型別

Series型別由一組資料及與之相關的資料索引組成。

0-3是自動索引，int64為Numpy中資料型別。

Series型別可以由如下型別建立

Python列表 /標量值/Python字典/ndarray/其它函式

1 列表已說

2 標量值（可以自定義索引）

3 字典

4 ndarray

Series型別的基本操作

1 Series型別包括index和values兩部分 .index獲得索引，.values獲得資料

2 Series型別的操作類似於ndarray型別。自動索引和自定義索引可以同時存在，兩套索引並存，但不能混用。

3 Series型別的操作類似Python字典型別（通過自定義索引訪問，保留字in操作，使用.get()方法）

Series的name屬性

Series物件和索引都可以有一個名字，儲存在屬性.name中。

Series物件可以隨時修改並即刻生效。

二 DataFrame型別

DataFrame型別由共用相同索引的一組列組成。由索引（行索引：index和列索引: column）和多列資料組成。

行axis=0,列axis=1

DataFrame是一個表格型的資料型別，每列值型別可以不同。常用於表達二維資料，也可以表達多維資料。

DataFrame型別可以由以下型別建立

1）二維ndarray物件

2）由一維ndarray，列表，字典，元組或Series構成的字典

3）Series型別

4）其他的DataFrame型別

由二維ndarray物件建立

由一維ndarray物件字典建立（資料根據行列索引自動補齊）

從列表型別的字典建立

DataFrame是帶標籤的陣列，其基本操作類似於Series，依據行列索引

三資料型別的操作

改變Series和DataFrame物件（增加或重排：重新索引

刪除：drop）

重新索引.reindex()能夠改變或重排Series和DataFrame索引

.reindex(index=None,columns=None,...)的引數

引數	說明
index,columns	新的行列自定義索引
fill_value	重新索引中，用於填充缺失位置的值
method	填充方法，ffill為當前值向前填充，bfill向後填充
limit	最大填充量
copy	預設為True，生成新的物件，False時，新舊相等不復制。

Series和DataFrame的索引都是Index型別，是不可修改的。

索引型別的常用方法

方法	說明
.append(idx)	連線另一個Index物件，產生一個新的Index物件
.diff(idx)	計算差集，產生新的Index物件
.intersection(index)	計算交集
.union(index)	計算並集
.delete(loc)	刪除loc位置處的元素
.insert(loc,e)	在loc位置增加一個元素e

刪除指定索引物件

.drop()能夠刪除Series和DataFrame指定行或列索引

四資料運算

算數運演算法則

算數運演算法則根據行列索引，補齊後運算，運算預設產生浮點數。補齊時缺項值填充NAN（空置）

二維和一維，一維和零維間為廣播運算。採用+-*/符號進行的二元運算產生新的物件。

廣播運算：不同維度之間的運算，低維的元素會作用到高維的每一個元素。

也可以使用方法形式的運算（可以增加引數）

方法	說明
.add(d,**argws)	型別間加法運算，可選引數
.sub(d,**argws)	型別間減法運算，可選引數
.mul(d,**argws)	型別間乘法運算，可選引數
.div(d.**argws)	型別間除法運算，可選引數

不同維度之間為廣播運算，一維Series預設在軸1進行運算。

使用運算方法可以令一維Series參與軸0運算

。

比較運演算法則（只能進行同維度運算，尺寸一致）

比較運算只能比較相同索引的元素，不進行補齊。廣播運算。採用><>=<===!=等符號進行的二元運算產生布爾物件。

五：資料的特徵，統計分析

一組資料表達一個或多個含義。從一組資料提取出摘要（有損地提取資料特徵的過程）。

1 基本統計（含排序）

2 分佈/累計統計

3 資料特徵（相關性，週期性等）

4資料探勘（形成知識）

Pandas庫的資料排序

.sort_index()方法在指定軸上根據索引進行排序，預設升序。

.sort_index(axis=0,ascending=True)

.sort_values()方法在指定軸上根據數值進行排序，預設升序（NaN值同一排放在末尾）

Series.sort_values(axis=0,ascending=True)

DataFrame.sort_valies(by,axis=0,ascending=True)

by:axis軸上的某個索引或索引列表

基本統計分析函式（適用於Series和DataFrame型別）

方法	說明
.sum()	計算資料總和，按照0軸
.count()	非NaN值的數量
.mean() .median()	計算資料的算數平均值，算數中位數
.var() .std()	方差，標準差
.min() .max()	最小/最大值
.argmin() .argmax()	計算資料最大值和最小值所在位置的索引位置（自動索引）
.idxmin() .idxmax()	計算資料最大值，最小值所在位置的索引（自定義索引）
.describe()	針對0軸（各列）的統計彙總

累計統計分析函式（適用於Series和DataFrame型別）

方法	說明
.cumsum()	依次給出前1,2,...n個數之和
.cumprod()	依次給出前1,2,...n個數之積
.cummax()	依次給出前1,2...n個數的最大值
.cummin()	最小值

累計統計分析函式（適用於Series和DataFrame型別，滾動計算（視窗計算））

方法	說明
.rolling(w).sum()	依次計算相鄰w個元素的和
.rolling(w).mean()
.rolling(w).var()
.rolling(w).std()
.rolling(w).min() .rolling(w).max()

相關分析（正相關，負相關，不相關）

Pearson相關係數r

r取值範圍為[-1,1]

0.8-1.0 極強相關

0.6-0.8強相關

0.4-0.6中等相關程度

0.2-0.4弱相關

0-0.2極弱相關或無相關

相關分析函式（適用於Series和DataFrame型別）

方法	說明
.cov()	計算協方差矩陣
.corr()	計算相關係數矩陣（常用）

python資料分析之pandas學習一

連結（官網文件）：點選這裡 Pandas是python第三方庫，提供高效能易用資料型別和分析工具。import pandas as pd pandas基於Numpy實現，常與Numpy和Matplotlib一同使用。 Numpy pandas（Series+dat

Python資料分析之pandas學習（二）

有關pandas模組的學習與應用主要介紹以下8個部分： 1、資料結構簡介：DataFrame和Series 2、資料索引index 3、利用pandas查詢資料 4、利用pandas的DataFrames進行統計分析 5、利用pandas實現SQL操作 6、利用panda

（轉載）Python資料分析之pandas學習

轉載地址：http://www.cnblogs.com/nxld/p/6058591.html Python中的pandas模組進行資料分析。接下來pandas介紹中將學習到如下8塊內容： 1、資料結構簡介：DataFrame和Series 2、資料索引index 3

Python資料分析之pandas學習

Python中的pandas模組進行資料分析。接下來pandas介紹中將學習到如下8塊內容： 1、資料結構簡介：DataFrame和Series 2、資料索引index 3、利用pandas查詢資料 4、利用pandas的DataFrames進行統計分析 5、利用pa

Python資料分析之pandas資料視覺化 python

Python資料視覺化常用的是matplotlib庫，matplotlib是底層庫，今天學了pandas的資料視覺化，相對於matplotlib庫來說，簡單許多。折線圖 %matplotlib inline import numpy as np import

Python資料分析之pandas入門

一、pandas庫簡介 pandas是一個專門用於資料分析的開源Python庫，目前很多使用Python分析資料的專業人員都將pandas作為基礎工具來使用。pandas是以Numpy作為基礎來設計開發的，Numpy是大量Python資料科學計算庫的基礎，pandas以此為基礎，在計算方面具有很高的效能

Python資料分析之numpy學習（二）

我們接著《Python資料分析之numpy學習（一）》繼續講解有關numpy方面的知識！統計函式與線性代數運算統計運算中常見的聚合函式有：最小值、最大值、中位數、均值、方差、標準差等。首先來看看陣列元素級別的計算： In [94]: arr11 = 5-np.

Python資料分析之pandas統計分析

pandas模組為我們提供了非常多的描述性統計分析的指標函式，如總和、均值、最小值、最大值等，我們來具體看看這些函式： 1、隨機生成三組資料 import numpy as np import pandas as pd np.random.seed

Python資料分析之pandas基本資料結構：Series、DataFrame

1引言本文總結Pandas中兩種常用的資料型別：（1）Series是一種一維的帶標籤陣列物件。（2）DataFrame，二維，Series容器 2 Series陣列 2.1 Series陣列構成 Series陣列物件由兩部分構成：值（value）：一維陣列的各元素值，是一個ndarr

「機器學習」Python資料分析之Numpy進階

請點選此處輸入圖片描述進階廣播法則(rule) 廣播法則能使通用函式有意義地處理不具有相同形狀的輸入。廣播第一法則是，如果所有的輸入陣列維度不都相同，一個“1”將被重複地新增在維度較小的陣列上直至所有的陣列擁有一樣的維度。廣播第二法則確定長度為1的陣列沿著特

「機器學習」Python資料分析之Numpy

請點選此處輸入圖片描述 NumPy的主要物件是同種元素的多維陣列。這是一個所有的元素都是一種型別、通過一個正整數元組索引的元素表格(通常是元素是數字)。在NumPy中維度(dimensions)叫做軸(axes)，軸的個數叫做秩(rank)。例如，在3D空間一個點的座標[1,

Python資料處理之（十一）Pandas 選擇資料

首先先建立一個6X4的矩陣 >>> import pandas as pd >>> import numpy as np >>> dates=pd.date_range('20181121',periods=6) >>

Python資料分析與挖掘學習筆記（2）使用pandas進行資料匯入

一、匯入pandas模組： import pandas as pda 二、匯入CSV格式資料： #資料匯入 i=pda.read_csv("E:/hexun.csv") 可對匯入的資料進行統計以及按列排序： #統計 i.describe() #排序 i

Python資料分析與機器學習實戰 Numpy/Pandas/Matplotlib等常用庫精講

課程簡介: 課程風格通俗易懂，真實案例實戰。精心挑選真實的資料集為案例，通過Python資料科學庫numpy,pandas,matplot結合機器學習庫scikit-learn完成一些列的機器學習案例。課程以實戰為基礎，所有課時都結合程式碼演示如何使用這些python

《Python資料分析常用手冊》一、NumPy和Pandas篇

　　　　　　‘first‘　　　　　　按值在原始資料中出現的順序排名　　C.DataFrame 　　　　DataFrame是一個表格型的資料結構，它含有一組有序的列，每列可以是不同的值型別（數值、字串、布林值等）。DataFrame既有行索引也有列索引，它可以被看做由Series組成的字典（共用同一個索引

python 資料分析之用pandas和seaborn繪圖

matplotlib是一個相對底層的工具。pandas自身有內建的視覺化工具。另一個庫seaborn則是用來做一些統計圖形。匯入seaborn會改變matlotlib預設的顏色和繪圖樣式，提高可讀性和美感。即使不適用seaborn的API，也可以利用seabo

python資料分析之numpy初始化（一）

以下都用numpy的標準“import numpy as np” 1.numpy是同構資料多維容器，同構即資料型別相同 2.初始化： 2.1np.arange([start,] end [, step

Python資料分析與挖掘學習筆記一:庫和環境搭建

概念介紹: 資料分析: 用適當的統計分析方法對收集來的大量資料進行詳細研究和概括總結，以求最大化地發揮資料的作用，提取有用資訊和形成結論資料探勘: 從大量資料中通過演算法搜尋隱藏於其中資訊的過程. 資料分析的三大作用：現狀分析、原因分析、預測分析。資料分析的流程

【A-003】python資料分析與機器學習實戰 Python科學計算庫 Pandas資料分析處理庫（四）DataFrame資料結構

pandas資料結構：DataFrame 引入：在上一節中已經介紹過了Series物件，Series物件可以理解為由一列索引和一列值，共兩列資料組成的結構。而DataFrame就是由一列索引和多列值組成的結構，其中，在DataFrame中的每一列都是一個S

python資料分析之（3）pandas

pandas的安裝可以參見前面的博文，http://blog.csdn.net/piaoxuezhong/article/details/54023951pandas 是基於 Numpy 構建的含有更

python資料分析之pandas學習一

一 Series型別

Series型別可以由如下型別建立

Series型別的基本操作

Series的name屬性

二 DataFrame型別

由二維ndarray物件建立

由一維ndarray物件字典建立（資料根據行列索引自動補齊）

從列表型別的字典建立

三 資料型別的操作

重新索引.reindex()能夠改變或重排Series和DataFrame索引

刪除指定索引物件

.drop()能夠刪除Series和DataFrame指定行或列索引

四 資料運算

算數運演算法則

不同維度之間為廣播運算，一維Series預設在軸1進行運算。

比較運演算法則（只能進行同維度運算，尺寸一致）

五：資料的特徵，統計分析

Pandas庫的資料排序

基本統計分析函式（適用於Series和DataFrame型別）

累計統計分析函式（適用於Series和DataFrame型別）

相關分析（正相關，負相關，不相關）

相關推薦

三資料型別的操作

四資料運算