pandas模組篇（之二）

阿新 • • 發佈：2020-09-03

今日內容概要

布林選擇器
索引
資料對齊
資料操作(增出改查)
算術方法
DataFrame(Excel表格資料)

布林選擇器

import numpy as np
import pandas as pd
res = pd.Series([True,False,False,True,False])
price = pd.Series([321321,123,324,5654,645])

# 掌握
price[res]
0    321321
3      5654
dtype: int64

# 瞭解
price|res
0    True
1    True
2    True
3    True
4    True
dtype: bool
 
price&res
0     True
1    False
2    False
3    False
4    False
dtype: bool
    

# 需要掌握    
(price > 100) & (price < 700)
0    False
1     True
2     True
3    False
4     True
dtype: bool

price[(price > 100) & (price < 700)]
1    123
2    324
4    645
dtype: int64

索引及標籤

res1 = pd.Series({'a':111,'b':222,'c':333,'d':444,'e':555})
res1
a    111
b    222
c    333
d    444
e    555
dtype: int64
# 索引取值
res1[0]
111
# 標籤取值
res1['a']
111

# 獲取所有的標籤
res1.index
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

# 給標籤加列名稱
res1.index.name = 'STA'
res1
STA
a    111
b    222
c    333
d    444
e    555
dtype: int64
    
# data_range時間間隔
res2 = pd.date_range('2020-01-01','2020-12-01',freq='M')  # frep後面按照指定的時間間隔(年'Y',月'M',日'D')
res2
DatetimeIndex(['2020-01-31', '2020-02-29', '2020-03-31', '2020-04-30',
               '2020-05-31', '2020-06-30', '2020-07-31', '2020-08-31',
               '2020-09-30', '2020-10-31', '2020-11-30'],
              dtype='datetime64[ns]', freq='M')
# 還可以將日期作為Series的標籤
res3 = pd.Series([111,222,333,444,555],index=res3)
res3
2020-01-31    111
2020-02-29    222
2020-03-31    333
2020-04-30    444
2020-05-31    555
Freq: M, dtype: int64

res3.index.name = '日期'
日期
2020-01-31    111
2020-02-29    222
2020-03-31    333
2020-04-30    444
2020-05-31    555
Freq: M, dtype: int64

整數索引

1 整數索引
x1 = pd.Series(np.arange(11))
x1
0      0
1      1
2      2
3      3
4      4
5      5
6      6
7      7
8      8
9      9
10    10
dtype: int32
x2 = x1[4:]
x2
4      4
5      5
6      6
7      7
8      8
9      9
10    10
dtype: int32

    
    
    
##################################################################################################
# 索引取值
# x1[1] # 報錯
'''針對取值操作，以後需要用特定方法來約束'''
# iloc按照索引的方式取值
# loc按照標籤的方式取值
# x1.iloc[1] # 1
x1.loc[3]  # 3
'''非常重要，一定要記憶'''
###################################################################################################

資料對齊

a1 = pd.Series([12,23,34,45],index=['c','a','d','b'])
a2 = pd.Series([11,20,10,30],index=['d','c','a','b'])
a1 + a2
執行結果：
a    33
b    75
c    32
d    45
dtype: int64
    
# 可以通過這種索引對齊直接將兩個Series物件進行運算
a3 = pd.Series([11,20,10,14],index=['d','c','a','e'])
a1 + a3
執行結果：
a    33.0
b     NaN
c    32.0
d    45.0
e     NaN
dtype: float64
# a1和a3的索引不一致，所以最終的執行會發現e索引對應的值無法運算，就返回了NAN，一個缺失值

'''
疑問：為什麼運算完之後資料型別會由原來的int64變成float64?
因為NaN其實是float型別
type(np.nan)
結果是：float
'''

資料操作

'''增刪改查'''
a3= pd.Series([11,20,10,14],index=['d','c','a','e'])
a3
d    11
c    20
a    10
e    14
dtype: int64
# 查
a3.loc['a']  
10

# 改
a3.iloc[2]= 100 
a3
d     11
c     20
a    100
e     14
dtype: int64
    
# 增
# 方式1：append不修改原資料
a3.append(pd.Series([66],index=['e']))
d     11
c     20
a    100
e     14
e     66
dtype: int64
#方式2：set_value直接修改原資料
a3.set_value('f',999)  # 會有一個提示 如果不想有這個提示需要配置
C:\ProgramData\Anaconda3\lib\site-packages\ipykernel_launcher.py:1: FutureWarning: set_value is deprecated and will be removed in a future release. Please use .at[] or .iat[] accessors instead
d     11
c     20
a    100
e     14
f    999
dtype: int64
a3
d     11
c     20
a    100
e     14
f    999
dtype: int64
    
# 刪: del關鍵字作用的也是原資料
del a3['f']
a3
d     11
c     20
a    100
e     14
dtype: int64

靈活的算術方法

"""
針對加減乘除等數學運算
可以直接使用符號
也可以使用提供的方法名(可以有額外的功能)
add
sub
div
mul
"""
b1 = pd.Series([12,23,34], index=['c','a','b'])
b3 = pd.Series([11,20,10,14], index=['d','c','a','b'])
b1
c    12
a    23
b    34
dtype: int64
b3
d    11
c    20
a    10
b    14
dtype: int64
tes = b1 + b3
tes
a    33.0
b    48.0
c    32.0
d     NaN
dtype: float64
tes1 = b1*b3
tes1
a    230.0
b    476.0
c    240.0
d      NaN
dtype: float64
b1.add(b3,fill_value=666)
b1
c    12
a    23
b    34
dtype: int64
b3
d    11
c    20
a    10
b    14
dtype: int64
fill_value
b1.add(b3,fill_value=0) # 在執行之前找出呼叫該方法的Series當中的缺失值補全後再運算
a    33.0
b    48.0
c    32.0
d    11.0
dtype: float64
b1.mul(b3,fill_value=1)
a    230.0
b    476.0
c    240.0
d     11.0
dtype: float64

DataFrame

表格型資料結構，相當於一個二維陣列，含有一組有序的列也可以看作是由Series組成

基本使用

# 建立Dataframe有很多中方式，但是一般情況下我們都不需要自己建立DataFrame而是將excel檔案直接引導成DataFrame

# 方式1 傳字典字典的鍵會變成表格的列名稱 行名稱預設是索引
import numpy as np
import pandas as pd
res = pd.DataFrame({'one':[1,2,3,4],'two':[4,3,2,1]})
res
one	two
0	1	4
1	2	3
2	3	2
3	4	1

# 取值
res['one']  # 預設是Series的展示形式
0    1
1    2
2    3
3    4
Name: one, dtype: int64
res[['two']] # 再加[]就會變成表格的形式
two
0	4
1	3
2	2
3	1
res['two'][1] # 第一個中括號裡面是列 第二個中括號裡面是行
3

# 方式2： 直接傳Series 如果Series有自定義的標籤 那麼生成的DataFrame列名稱採用的就是標籤名
res1 = pd.DataFrame({'one':pd.Series([1,2,3],index=['c','b','a']),'two':pd.Series([1,2,3],index=['b','a','c'])})
res1
one	two
a	3	2
b	2	1
c	1	3

# 方式3：自定義行列 index行 columns列
pd.DataFrame(np.array([[10,20,30],[40,50,60]]),index=['a','b'],columns=['c1','c2','c3'])
c1	c2	c3
a	10	20	30
b	40	50	60
arange

# 方式4：列表中有幾個元素就會生成幾行資料  不指定行列預設都是用索引表示
pd.DataFrame([np.arange(1,8),np.arange(11,18),np.arange(21,28)])
0	1	2	3	4	5	6
0	1	2	3	4	5	6	7
1	11	12	13	14	15	16	17
2	21	22	23	24	25	26	27

# 方式5：會自動找行列的對應位置 沒有的用NaN表示缺失值
s1 = pd.Series(np.arange(1,9,2))
s2 = pd.Series(np.arange(2,10,2))
s3 = pd.Series(np.arange(5,7),index=[1,2])
s1
0    1
1    3
2    5
3    7
dtype: int32
s2
0    2
1    4
2    6
3    8
dtype: int32
s3
1    5
2    6
dtype: int32
df5 = pd.DataFrame({'c1':s1,'c2':s2,'c3':s3})
df5
c1	c2	c3
0	1	2	NaN
1	3	4	5.0
2	5	6	6.0
3	7	8	NaN
'''以上建立房事後都僅僅做一個瞭解即可，因為工作在中dataframe的資料一般都是來自於讀取外部檔案資料'''

常見屬性及方法

1.index  行索引
2.columns 列索引
3.T        轉置
4. values  值索引
5.describe 快速統計

# index獲取行索引
df5.index
Int64Index([0,1,2,3],dtype='int64')
# columns獲取列索引
df5.columns
Index(['c1', 'c2', 'c3'], dtype='object')
# T轉置 行列互換
df5.T
0	1	2	3
c1	1.0	3.0	5.0	7.0
c2	2.0	4.0	6.0	8.0
c3	NaN	5.0	6.0	NaN
df5
c1	c2	c3
0	1	2	NaN
1	3	4	5.0
2	5	6	6.0
3	7	8	NaN
values
# values獲取表格資料 組織成二維陣列的形式
df5.values
array([[ 1.,  2., nan],
       [ 3.,  4.,  5.],
       [ 5.,  6.,  6.],
       [ 7.,  8., nan]])
# describe常見的數學統計
df5.describe()
c1	c2	c3
count	4.000000	4.000000	2.000000
mean	4.000000	5.000000	5.500000
std	2.581989	2.581989	0.707107
min	1.000000	2.000000	5.000000
25%	2.500000	3.500000	5.250000
50%	4.000000	5.000000	5.500000
75%	5.500000	6.500000	5.750000
max	7.000000	8.000000	6.000000

pandas模組篇（之二）

今日內容概要布林選擇器索引資料對齊資料操作(增出改查) 算術方法 DataFrame(Excel表格資料)

pandas模組篇（終章）及初識mataplotlib

今日內容概要時間序列針對表格資料的分組與聚合操作其他函式補充(apply) 練習題(為了加深對DataFrame操作的印象)

Spring+SpringMVC+MyBatis+easyUI整合優化篇（十二）資料層優化-explain關鍵字及慢sql優化

本文提要從編碼角度來優化資料層的話，我首先會去查一下專案中執行的sql語句，定位到瓶頸是否出現在這裡，首先去優化sql語句，而慢sql就是其中的主要優化物件，對於慢sql，顧名思義就是花費較多執行時間的語句，它帶

pandas模組篇(之三）

今日內容概要目標:將Pandas儘量結束如何讀取外部excel檔案資料到DataFrame中針對DataFrame的常用資料操作

spring cloud微服務快速教程之（十二）分散式ID解決方案（mybatis-plus篇）

0-前言　　分散式系統中，分散式ID是個必須解決的問題點；　　雪花演算法是個好方式，不過不能直接使用，因為如果直接使用的話，需要配置每個例項workerId和datacenterId，在微服務中，例項一般動態配置，直接指定

從零寫一個編譯器（十二）：程式碼生成之生成邏輯

專案的完整程式碼在 C2j-Compiler 前言在上一篇解釋完了一些基礎的Java位元組碼指令後，就可以正式進入真正的程式碼生成部分了。但是這部分先說的是程式碼生成依靠的幾個類，也就是用來生成指令的操作。

空間寶石（巧用線段樹之二）

題目題面 \\(zP1nG\\)很清楚自己打不過滅霸，所以只能在自己出的題裡欺負他。

SAP UI5學習筆記之（十二）虛擬伺服器配置-Mock Server Configuration

在開發和測試中，我們一般不會使用生產用的真實的遠端伺服器，因為這樣可能對真實伺服器增加負載，而且很不安全。

大資料實戰（十二）：電商數倉（五）之使用者行為資料採集（五）元件安裝（一）之hadoop安裝

1）叢集規劃：伺服器hadoop102 伺服器hadoop103 伺服器hadoop104 HDFS NameNode DataNode DataNode

大資料實戰（十九）：電商數倉（十二）之使用者行為資料採集（十二）元件安裝（八）kafka tools

Kafka 視覺化工具使用Kafka的小夥伴，有沒有為無法直觀地檢視 Kafka 的 Topic 裡的內容而發過愁呢？

大資料實戰（五十六）：電商數倉（三十九）之系統業務資料倉庫（十二）新付費使用者數

1 DWS層 1.1 建表語句 drop table if exists dws_pay_user_detail; create external table dws_pay_user_detail(

實時電商數倉（三十三）之實時計算（十二）dws層（四）訂單明細實付金額分攤（三）釋出資料介面

釋出資料介面 1程式碼清單控制層 PublisherController 實現介面的web釋出服務層 ClickhouseService

淺嘗輒止 FreeBSD之安裝篇（完整圖解）

FreeBSD是一種類UNIX作業系統，是由經過BSD、386BSD和4.4BSD發展而來的Unix的一個重要分支。FreeBSD 為不同架構的計算機系統提供了不同程度的支援。並且一些原來BSD UNIX的開發者後來轉到FreeBSD的開發，

會議及作用篇--專案管理（十二）

(質量)回溯會議（來自MBA智庫文件）介紹：質量回溯 = 根本原因（以下簡稱根因）分析 + 解決方案 + 持續整合。

GIS開發進階之路（十二）載入柵格、根據WKID進行投影、部分CENTOS指令

載入柵格、根據WKID進行投影通過自定義WKID json對應檔案，使用projectiontool來定義投影型別 //獲取WKID

[LeetCode] 45. Jump Game Ⅱ（跳躍遊戲之二）

Difficulty: Hard Related Topics: Array, Greedy Link: https://leetcode.com/problems/jump-game-ii/ Description

leetcode 685. Redundant Connection II（多餘的連線之二）

技術標籤：leetcode演算法leetcode In this problem, a rooted tree is a directed graph such that, there is exactly one node (the root) for which all other nodes are descendants of this node, plus eve

專案實戰從0到1之hive（44）大資料專案之電商數倉（使用者行為資料）（十二）

第17章需求六：流失使用者數流失使用者：最近7天未登入我們稱之為流失使用者

【JavaDebug（十二）】之NoSuchMethodError，使用arthas工具查詢jar包，maven命令搜尋jar包

技術標籤：JavaDebugJava學習筆記# JavaEE反編譯javaspringmaven 本文章由公號【開發小鴿】釋出！歡迎關注！！！

【MySQL學習筆記（十二）】之查詢優化器基於規則的優化與子查詢優化

技術標籤：MYSQL資料庫mysql索引本文章由公號【開發小鴿】釋出！歡迎關注！！！

pandas模組篇（之二）

今日內容概要

布林選擇器

索引及標籤

整數索引

資料對齊

資料操作

靈活的算術方法

DataFrame

基本使用

常見屬性及方法

相關推薦