Python 資料分析與展示筆記4 -- Pandas 庫基礎

阿新 • • 發佈：2018-11-30

Python 資料分析與展示筆記4 – Pandas 庫基礎

Python 資料分析與展示系列筆記是筆者學習、實踐Python 資料分析與展示的相關筆記

參考文件：
Numpy 官方文件（英文）
Numpy 官方文件（中文）
PIL 官方文件
 Matplotlib 官方文件
 Pandas 官方文件（英文）
Pandas 官方文件（中文）
Pandas 官方文件PDF下載

一、Pandas

1、安裝、匯入 Pandas

# 安裝
pip3 install pandas

# 匯入
import pandas as pd

2、Pandas 簡介

Pandas 是 Python 第三方庫，提供高效能易用資料型別和分析工具
Pandas 基於 NumPy 實現，提供更多樣的索引，除了自動索引，可以新增自定義索引
使用索引時只能使用自動索引/自定義索引，不能混合使用

二、 Pandas 資料型別

1、Series 型別

Series是帶索引標籤的一維陣列

建立 Series 型別： 可以基於以下型別建立

標量值
Python 列表
Python 字典
一維 ndarray 陣列
其他函式

import pandas as pd
import numpy as np

# 基於標量值建立
s = pd.Series(10, index=['a', 'b'])
print(s)

>>> a    10
	b    10
	dtype: int64

# 基於列表建立
s = pd.Series([1, 2], index=['a', 'b'])
print(s)

>>> a    1
	b    2
	dtype: int64

# 基於字典建立，index 可以從字典的鍵值選擇需要的，沒有的話用 NaN填充
s = pd.Series({'b': 1, 'a': 2, 'c': 3}, index=['a', 'b', 'd'])
print(s)

>>> a    2.0
	b    1.0
	d    NaN
	dtype: float64

# 基於 ndarray 陣列建立，index 也可以是 ndarray 陣列
s = pd.Series(np.arange(3), index=np.arange(5, 0, -2))
print(s)

>>> 5    0
	3    1
	1    2
	dtype: int32

Series 型別的基本操作：

Series 型別包括 index 和 values 兩部分，.index 獲得索引
.values 獲得資料
Series 型別的操作類似 ndarray 型別，索引、切片、使用 numpy 函式
Series 型別的操作類似 Python 字典型別，in、.get()
Series 物件和索引都可以有一個名字，儲存在屬性.name中，可以修改
Series 型別在運算中會自動對齊不同索引的資料，各自沒有的索引其值賦為 NaN 再運算

import pandas as pd
import numpy as np

# 建立一個 Series 陣列
s = pd.Series([1, 2, 3], index=['a', 'b', 'c'])

# 獲得索引
s.index
>>> Index(['a', 'b', 'c'], dtype='object')

# 獲得資料
s.values
>>> [1 2 3]

# 索引訪問資料，自動索引和自定義索引並存，但兩套索引並存，但不能混用
s[['a', 'b']]
>>> a    1
	b    2

s[0]
>>> 1

# 切片
s[:2]
>>> a    1
	b    2

# numpy 運算函式
np.exp(s)
>>> a     2.718282
	b     7.389056
	c    20.085537
	dtype: float64

# in 操作
'b' in s
>>> True

# .get() 操作
s.get('d', 4)
>>> 4

# 修改Series 物件和索引名稱
print(s.name)
print(s.index.name)
s.name = 'series name'
s.index.name = 'index name'
print(s.name)
print(s.index.name)
>>> None
	None
	series name
	index name

#  Series 運算對齊索引
a = pd.Series([1, 2], ['a', 'b'])
b = pd.Series([2, 3], ['b', 'd'])
a + b
>>> a    NaN
	b    4.0
	d    NaN
	dtype: float64

2、DataFrame

DataFrame 是一個表格型的資料型別，每列值型別可以不同，既有行索引、也有列索引，常用於表達二維資料，但可以表達多維資料

建立 Series 型別： 可以基於以下型別建立

二維 ndarray 物件
由一維 ndarray、列表、字典、元組或 Series 構成的字典
Series 型別
其他的 DataFrame 型別

import pandas as pd
import numpy as np

# 基於二維 ndarray 物件建立
d = pd.DataFrame(np.arange(4).reshape(2, 2))
print(d)
>>>    0  1
	0  0  1
	1  2  3

# 基於 Series 字典
d = pd.DataFrame({'one': pd.Series([1, 2], ['a', 'b']),
                  'two': pd.Series([3, 4], ['a', 'b'])})
print(d)
>>>    one  two
	a    1    3
	b    2    4

# 基於列表型別的字典建立
d = pd.DataFrame({'one': [1, 2], 'two': [3, 4]})
print(d)
>>>    one  two
	0    1    3
	1    2    4

DataFrame 索引型別的基本操作：

方法	說明
.reindex()	改變或重排Series和DataFrame索引
.drop()	刪除Series和DataFrame指定行或列索引
.delete(loc)	刪除loc位置處的元素
.insert(loc,e)	在loc位置增加一個元素e
.append(idx)	連線另一個Index物件，產生新的Index物件
.diff(idx)	計算差集，產生新的Index物件
.intersection(idx)	計算交集
.union(idx)	計算並集

DataFrame 算術運算的基本操作：

方法	說明
.add(d, **argws)	加法運算，+
.sub(d, **argws)	減法運算，-
.mul(d, **argws)	乘法運算，*
.div(d, **argws)	除法運算，/

GOOD LUCK!

Python 資料分析與展示筆記4 -- Pandas 庫基礎

Python 資料分析與展示筆記4 – Pandas 庫基礎 Python 資料分析與展示系列筆記是筆者學習、實踐Python 資料分析與展示的相關筆記課程連結： Python 資料分析與展示參考文件： Numpy 官方文件（英文） Numpy 官方文件（中文） P

Python 資料分析與展示筆記3 -- Matplotlib 庫基礎

Python 資料分析與展示筆記3 – Matplotlib 庫基礎 Python 資料分析與展示系列筆記是筆者學習、實踐Python 資料分析與展示的相關筆記課程連結： Python 資料分析與展示參考文件： Numpy 官方文件（英文） Numpy 官方文件（中

Python 資料分析與展示筆記2 -- 影象手繪效果

Python 資料分析與展示筆記2 – 影象手繪效果 Python 資料分析與展示系列筆記是筆者學習、實踐Python 資料分析與展示的相關筆記課程連結： Python 資料分析與展示參考文件： Numpy 官方文件（英文） Numpy 官方文件（中文） PIL 官

Python 資料分析與展示筆記1 -- Numpy 基礎

Python 資料分析與展示筆記1 – NumPy 基礎 Python 資料分析與展示系列筆記是筆者學習、實踐Python 資料分析與展示的相關筆記課程連結： Python 資料分析與展示參考文件： NumPy 官方文件（英文） NumPy 官方文件（中文） PIL

4.python資料分析與展示-----Matplotlib庫入門

1.Matplotlib庫介紹Python優秀的資料視覺化第三方庫2.Matplotlib庫的使用Matplotlib庫由各種視覺化類構成，內部結構複雜，受Matlab啟發，matplotlib.pyplot是繪製各類視覺化圖形的命令子庫，相當於快捷方式。

Python-資料分析與展示學習筆記(二)

前言此次學習的主題是圍繞機器學習所需的python庫展開。在學完了python的基礎語法後，瞭解到機器學習還需要掌握一些python進階知識：利用python爬取資料、資料分析與展示。於是在網上找了許多教程，發現北理工嵩天老師的pyth

7.python資料分析與展示------Pandas庫入門

1.Pandas庫的介紹Pandas是Python第三方庫，提供高效能易用資料型別和分析工具 import pandas as pdPandas基於Numpy實現，常與Numpy和Matplotlib一同使用import pandas as

《Python資料分析與展示》學習筆記（一）numpy入門

一.資料分析的基礎 Python在資料科學領域有一套成熟的工具鏈，numpy就是整個工具鏈的基礎構件，就像數位電路中的與非門，是其他複雜電路的基礎。 numpy在數學中對應的理論就是線性代數，n

python-資料分析與展示（Numpy、matplotlib、pandas）---2

筆記內容整理自mooc上北京理工大學嵩天老師python系列課程資料分析與展示，本人小白一枚，如有不對，多加指正 1.python自帶的影象庫PIL 1.1常用API Image.open() Image.fromarray() im.save()

北京理工python資料分析與展示課單元二總結

一、檔案讀取與儲存： 1:savetxt()與loadtxt()函式 import numpy as np numpy.savetxt(frame, array, fmt='%.18e',

【MOOC】Python資料分析與展示-北京理工大學-【第〇周】資料分析之前奏

課程內容導學主題思想與一組資料相關的那些事兒：如何理解一組資料表達的含義有損地提取資料特徵內容組織全課程包括： • 8個內容單元，共12個單元 • 全課程總長4周，每週3個單元 • 每週包含一個實戰型例項程式

1.python資料分析與展示----Numpy

1.資料的維度一維資料：一維資料由對等關係的有序或無序資料構成，採用線性方式組織，如： 3.1413, 3.1398, 3.1404, 3.1401, 3.1349, 3.1376對應列表、陣列和集合等概念列

2.python資料分析與展示------Numpy資料存取與函式

1.資料的csv檔案存取CSV (Comma‐Separated Value,逗號分隔值) ，CSV是一種常見的檔案格式，用來儲存批量資料csv檔案: np.savetxt(frame, array, fmt='%.18e', delimite

Python資料分析與挖掘實戰（Pandas,Matplotlib常用方法）

作業系統：Windows Python：3.5 歡迎加入學習交流QQ群：657341423 上節講到資料分析和挖掘需要的庫，其中最主要的是Pandas,Matplotlib。 Pandas：主要是對資料分析，計算和統計，如求平均值，方差等。 Matplotl

【MOOC】Python資料分析與展示-北京理工大學-【第一週】資料分析之表示

單元一：NumPy庫入門 1.1 資料的維度維度：一組資料的組織形式一維資料一維資料由對等關係的有序或無序資料構成，採用線性方式組織，對應列表、陣列和集合等概念如：3.1413, 3.1398, 3.1404, 3.1401, 3.13

Python資料分析與展示 | 課程綜合測試(客觀題)

1單選(1分) 一般說，numpy-matplotlib-pandas是資料分析和展示的一條學習路徑，哪個是對這三個庫不正確的說明？ A.pandas僅支援一維和二維資料分析，多維資料分析要用numpy B.matplotlib支援多種資料展示，使用pyp

Python資料分析與展示(二)（基於北理MOOC）

Numpy庫入門 Python資料分析與展示 1.1.2ndarray陣列的變換對於建立後的ndarray陣列，可以對其進行維度變換和元素型別變換 a = np.ones((2,3,4), dtype=np.int32) ndarray陣列的維度變

【MOOC】Python資料分析與展示-北京理工大學-【第三週】資料分析之概要

概要：提取資料的基本特徵單元7：pandas庫入門 Pandas是Python第三方庫，提供高效能易用資料型別和分析工具，Pandas基於NumPy實現，常與NumPy和Matplotlib一同使用。常用引用方法： import pandas

【MOOC】Python資料分析與展示-北京理工大學-【第二週】資料分析之展示

單元4：matplotlib庫入門寫在前面：matplotlib庫非常複雜，我們沒必要花時間去學習所有函式，對於該庫，應該採用：根據我們已有的資料，查詢文件或搜尋，來即時選擇可實現目的的函式，以實踐指導理論學習。 Matplotlib庫由各種視覺化類構

Python資料分析與展示(一)（基於北理MOOC）

NumPy庫入門 Python資料分析與展示 .掌握表示、清洗、統計和展示資料的能力 1.1.1資料的維度 NumPy的主要物件是齊次多維陣列。它是一個元素表（通常是數字），所有相同的型別，由正整數的元組索引。在NumPy維度被稱為軸。軸的數量是等級。

Python 資料分析與展示筆記4 -- Pandas 庫基礎

Python 資料分析與展示筆記4 – Pandas 庫基礎

一、Pandas

1、安裝、匯入 Pandas

2、Pandas 簡介

二、 Pandas 資料型別

1、Series 型別

2、DataFrame

相關推薦