Python資料分析--Pandas知識點(二)

阿新 • • 發佈：2018-11-26

13. 簡單計算

新建一個數據表df

1 import pandas as pd
2 
3 df = pd.DataFrame({"地區": ["A區","B區", "C區"],
4                    "前半年銷量": [3500, 4500,3800],
5                    "後半年銷量": [3000, 6000,5000],
6                    "單價": [10, 18, 15]})
7 df

13.1 加法計算

有兩種方式, 一種是利用add()函式: a.add(b) 表示a與b之和, 另一種是直接利用加法運算子號"+"

1 #第一種方式: 利用add()函式
2 # df["總銷量"] = df["前半年銷量"].add(df["後半年銷量"])
3 #第二種方式: "+"
4 df["總銷量"] = df["前半年銷量"] + df["後半年銷量"]
5 df

兩者運算的結果都是相同的:

對於累加求和上述兩種方法同樣適用, 還有一種方式就是採用apply()函式, 參考文件: https://blog.csdn.net/luckarecs/article/details/72869051

這裡介紹apply(func, axis = 0)函式的兩個引數, apply()函式官方文件:

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.apply.html?highlight=apply#pandas.DataFrame.apply

第一個引數func就是指用於每行或者每列的函式, 這裡將採用lambda函式: 接收任意多個引數並返回單個計算結果.

第二個引數axis=0則表示計算行與行的資料, axis=1則表示計算列與列的資料

1 #由於地區不能參與運算, 因此在df1資料表中刪除地區
2 df1 = df.drop(["地區","單價"], axis = 1, inplace = False)
3 #對df1資料表進行累加運算, 隨後新增到df表中.
4 df["總銷量"] = df1.apply(lambda x: x.sum(), axis = 1)
5 df

1 #刪除地區和單價,分別計算前半年與後半年的三個地區總和.
2 df2 = df.drop(["地區","單價"], axis = 1, inplace = False)
3 #利用apply函式計算之後,新增至資料表中
4 df.loc["Sum"] = df2.apply(lambda x: x.sum(), axis = 0 )
5 df

13.2 減法運算

同樣有兩種方式: 一種是採用sub()函式, A.sub(B)表示A-B, 另一種是採用減法運算子 "-"

1 #函式法: 注意A.sub(B)表示A-B
2 df["銷量增長"] = df["後半年銷量"].sub(df["前半年銷量"])
3 #運算子: "-"
4 df["銷量增長"] = df["後半年銷量"] - df["前半年銷量"] 
5 df

兩種方式, 同樣的結果:

13.3 乘法運算

同樣是兩種方式: 一種是採用mul()函式: A.mul(B)表示: A與B之積, 另一種則是乘法運算子 "*"

1 #函式法: A.mul(B)
2 df["前半年銷售額"] = df["前半年銷量"].mul(df["單價"])
3 #運算子: "*"
4 df["後半年銷售額"] = df["後半年銷量"] * df["單價"]
5 df

13.4 除法運算

同樣是兩種: 一種是採用div()函式: A.div(B)表示: A除以B, 第二種則是採用除法運算子"/"

1 #函式法
2 df["前半年銷量1"] = df["前半年銷量"].div(100)
3 #運算子法
4 df["前半年銷量2"] = df["前半年銷量"] / 1000
5 df

13.5 其他運算

13.5.1 取整和取餘

1 #取整符號: "//"
2 df["後半年銷量1"] = df["後半年銷量"] // 1000
3 #取餘符號: "%"
4 df["前半年銷量1"] = df["前半年銷量"] // 100 % 10
5 df

13.5.2 聚合運算

採用聚合函式對一組資料進行運算, 並返回單個值, 比如最大值max()函式, 最小值min()函式, 平均值mean()函式

1 #求前半年銷量最大值
2 df1 = df["前半年銷量"].max()
3 #求後半年銷量最小值
4 df2 = df["後半年銷量"].min()
5 #求單價的平均值
6 df3 = df["單價"].mean()
7 df1, df2 ,df3

(4500, 3000, 14.333333333333334)

14. 0-1標準化

0-1標準化是對原始資料進行線性變換, 使其結果對映成[0,1]區間的值, 計算公式為: 新資料 = (原資料 - 最小值) / (最大值 - 最小值)

1 import pandas as pd
2 df = pd.DataFrame({"地區": ["A區","B區", "C區", "D區", "E區", "F區"],
3                    "銷量": [3500, 4500,3800,3000, 6000,5000]})
4 #利用公式對原始資料進行0-1標準化處理
5 df["0-1"] = (df["銷量"] - df["銷量"].min()) / (df["銷量"].max() - df["銷量"].min())
6 df

15. 資料分組

資料分組是根據統計研究的需求, 對原始資料按照某種標準劃分為不同的組別. 主要目的是觀察資料的分佈特徵. 在資料分組後再計算出各組中資料出現的的頻數, 最終形成頻數分佈表.

pandas中資料分組採用的函式是cut(x, bins, right = True, labels = None)函式:

第一個引數x指的是要分組的資料

第二個引數bins指的是劃分標準, 也就是定義組的上限與下限

第三個引數right = True表示右邊閉合, 左邊不閉合; 當right = False時表示右邊不閉合, 左邊閉合, 預設為True.

第四個引數則是自定義分組的內容

更多cut()函式相關參考官方文件: http://pandas.pydata.org/pandas-docs/stable/generated/pandas.cut.html?highlight=cut#pandas.cut

1 import pandas as pd
2 df = pd.DataFrame({"地區": ["A區","B區", "C區", "D區", "E區", "F區", "G區"],
3                    "單價": [ 8 , 20, 15, 7, 34, 25, 30]})
4 #對單價進行編組: (5,15),(15,25),(25,35)
5 bins = [5, 15, 25, 35]
6 #利用cut()函式對單價進行分組, 並新增至原資料表中
7 df["分組"] = pd.cut(df.單價, bins)
8 df

自定義labels:

1 import pandas as pd
2 df = pd.DataFrame({"地區": ["A區","B區", "C區", "D區", "E區", "F區", "G區"],
3                    "單價": [ 8 , 20, 15, 7, 34, 25, 30]})
4 bins = [5, 15, 25, 35]
5 #自定義labels
6 labels = ["15以下", "15到25", "25以上"]
7 df["分組"] = pd.cut(df.單價, bins, labels = labels)
8 df

16. 日期轉換

日期轉換是指將字元型別轉換成日期格式.

16.1 to_datetime方法

可使用to_datetime(arg, format = None)函式轉換

第一個引數arg則是需要轉化的字串, 比如"2018/09/01"

第二個引數format則是原字串中日期的格式, 比如"2018/09/01"的格式為 "%Y/%m/%d"

常用的格式有: %y表示兩位數的年份, %Y表示四位數的年份, %m表示月份, %d表示月中的某一天, %H表示24小時制時數, %I表示12小時制時數, %M表示分鐘, %S表示秒

to_datetime()函式官方文件: http://pandas.pydata.org/pandas-docs/stable/generated/pandas.to_datetime.html?highlight=to_datetime#pandas.to_datetime

1 import pandas as pd
2 df = pd.DataFrame({"name":["A","B","D"],
3                   "BirthDate": ["2011/10/20","2009/3/5","2010/5/6"]})
4 #轉成日期格式
5 df["BD"] = pd.to_datetime(df.BirthDate,format = "%Y/%m/%d")
6 df

1 #檢視資料型別
2 df.dtypes

16.2 datetime.strptime()方法

藉助datetime模組中datetime類的strptime()方法, 將字元型別轉化為日期格式.

strptime(date_string, format)方法中有兩個引數, 第一個引數則是要轉化的字串, 第二個引數則為字串中日期的格式

1 import pandas as pd
2 from datetime import datetime
3 df = pd.DataFrame({"name":["A","B","D"],
4                   "BirthDate": ["2011/10/20","2009/3/5","2010/5/6"]})
5 #轉化為日期格式
6 df["BD"] = df["BirthDate"].apply(lambda x: datetime.strptime(x, "%Y/%m/%d"))
7 df

17. 日期格式化

日期格式化就是將日期按照指定的格式輸出成字元型別, 這裡藉助datetime模組中datetime類的strftime()方法實現:

1 import pandas as pd
2 from datetime import datetime
3 df = pd.DataFrame({"name":["A","B","D"],
4                   "BirthDate": ["2011/10/20","2009/3/5","2010/5/6"]})
5 #轉化為日期格式
6 df["BD"] = df["BirthDate"].apply(lambda x: datetime.strptime(x, "%Y/%m/%d"))
7 #日期格式化
8 df["BD1"] = df["BD"].apply(lambda x: datetime.strftime(x, "%d-%m-%Y %H:%M:%S"))
9 df

18.日期抽取

從日期格式中抽取日期的部分內容, 比如抽取年份, 月份等. 語法: 轉換為日期格式的列.dt.要抽取的屬性.

 1 import pandas as pd
 2 from datetime import datetime
 3 df = pd.DataFrame({"name":["A","B","D"],
 4                   "BirthDate": ["2011/10/20","2009/3/5","2010/5/6"]})
 5 df["BD"] = df["BirthDate"].apply(lambda x: datetime.strptime(x, "%Y/%m/%d"))
 6 df["year"] = df["BD"].dt.year
 7 df["month"] = df["BD"].dt.month
 8 df["day"] = df["BD"].dt.day
 9 df["hour"] = df["BD"].dt.hour
10 df["minute"] = df["BD"].dt.minute
11 df["second"] = df["BD"].dt.second
12 df["weekday"] = df["BD"].dt.weekday
13 df

原文來自：https://www.cnblogs.com/star-zhao/p/9715307.html

Python資料分析--Pandas知識點(二)

13. 簡單計算新建一個數據表df 1 import pandas as pd 2 3 df = pd.DataFrame({"地區": ["A區","B區", "C區"], 4 "前半年銷量": [3500, 4500,3800], 5

Python數據分析--Pandas知識點(二)

符號 time 就是 fun 參考 blank ref 除法簡單本文主要是總結學習pandas過程中用到的函數和方法, 在此記錄, 防止遺忘. Python數據分析--Pandas知識點(一) 下面將是在知識點一的基礎上繼續總結. 13. 簡單計算新建一個數據表df

Python資料分析Pandas庫之熊貓(10分鐘二)

pandas 10分鐘教程(二) 重點發法分組 groupby('列名') groupby(['列名1','列名2',.........]) 分組的步驟 (Splitting) 按照一些規則將資料分為不同的組,拆分 (Applying) 對於每組資料分別

python資料分析pandas包入門學習（二）基本功能

本文參考《利用Python進行資料分析》的第五章 pandas入門 2基本功能介紹操作Series和DataFrame中的資料的基本手段。重新索引reindex 當呼叫Series的reindex將會根據新索引進行重排；當某個索引值當前不存在，就引入缺失值；fill_

Python資料分析-Pandas（Series與DataFrame）

Pandas介紹：　　pandas是一個強大的Python資料分析的工具包，是基於NumPy構建的。 Pandas的主要功能：　　1)具備對其功能的資料結構DataFrame、Series 　　2)整合時間序列功能　　3)提供豐富的數學運算和操作　　4)靈活處理缺失資料 pyhton裡面安裝、引

Python-資料分析-Pandas統計分析基礎2

前些日子一直在忙實驗，結束後又去忙其他事情，看完了Pandas一直沒有時間寫筆記，今天忙裡偷閒再寫一篇Pandas DataFrame是最常用的Pandas物件，類似於Microsoft Office Excel表格，完成資料讀取後，DataFrame資

Python資料分析基礎（二）——NumPy基礎

NumPy最重要的特點就是其N維陣列物件（即ndarray），該物件是一個快速而靈活的大資料集容器。陣列建立函式函式說明 array 將輸入資料（列表、元組、陣列或其他序列型別）轉換為ndarray。 asarray 將輸入轉換為ndarray ara

python資料分析pandas包入門學習（三）彙總和統計描述

本文參考《利用Python進行資料分析》的第五章 pandas入門 pandas擁有一組常用的數學和統計方法。它們大部分屬於約簡和彙總統計，用於從Series中提取單個值（如sum和mean），或從DataFrame的行或列中提取一個Series。跟對應的Numpy陣列

Python資料分析入門知識點總結

入門Python資料分析的知識點總結，也可做速查表。只需要學會下面的知識點就可以在工作中勝任大部分的工作需求。 Python 版本：3.2.3 Python工具：jupyter notebook

python資料分析pandas包入門學習（四）處理缺失資料

本文參考《利用Python進行資料分析》的第五章 pandas入門 4 處理缺失資料缺失資料（missing data）在大部分資料分析應用中都很常見。Pandas的設計目標之一就是讓缺失資料的處理任務儘量輕鬆。例如，pandas物件上的所有描述統計都排除了缺失資料

Python資料分析與展示(二)（基於北理MOOC）

Numpy庫入門 Python資料分析與展示 1.1.2ndarray陣列的變換對於建立後的ndarray陣列，可以對其進行維度變換和元素型別變換 a = np.ones((2,3,4), dtype=np.int32) ndarray陣列的維度變

利用Python資料分析：pandas入門（二）

import pandas as pd import numpy as np from pandas import Series,DataFrame data = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada'],

Python資料分析之pandas學習（二）

有關pandas模組的學習與應用主要介紹以下8個部分： 1、資料結構簡介：DataFrame和Series 2、資料索引index 3、利用pandas查詢資料 4、利用pandas的DataFrames進行統計分析 5、利用pandas實現SQL操作 6、利用panda

利用 Python 進行資料分析（十二）pandas：資料合併

原文地址 pandas 提供了三種主要方法可以對資料進行合併： pandas.merge()方法：資料庫風格的合併；pandas.concat()方法：軸向連線，即沿著一條軸將多個物件堆疊到一起；例項方法combine_first()方法：合併重疊資料。 pandas

小白學 Python 資料分析（3）：Pandas （二）資料結構 Series

在家為國家做貢獻太無聊，不如跟我一起學點 Python 順便問一下，你們都喜歡什麼什麼樣的文章封面圖，老用這一張感覺有點醜人生苦短，我用 Python 前文傳送門：小白學 Python 資料分析（1）：資料分析基礎小白學 Python 資料分析（2）：Pandas （一）概述引言先介

小白學 Python 資料分析（13）：Pandas （十二）資料表拼接

![](https://cdn.geekdigging.com/python/spider-blog/Python_logo.jpg) > 人生苦短，我用 Python 前文傳送門： [小白學 Python 資料分析（1）：資料分析基礎](https://www.geekdigging.com/2020

Python數據分析--Pandas知識點(三)

比例第一步 csv文件 labels 高度 .py 五個 size 使用本文主要是總結學習pandas過程中用到的函數和方法, 在此記錄, 防止遺忘. Python數據分析--Pandas知識點(一) Python數據分析--Pandas知識點(二) 下面將是在知識點一

python資料分析新手入門課程學習——（二）探索分析與視覺化（來源：慕課網）

一，單因子與對比分析視覺化資料 import pandas as pd df = pd.read_csv('./HR.csv') #檢視前十條資料 df.head(10) 以下為顯示的結果我們可以看出：第一個屬性satisf

Python 資料分析與展示筆記4 -- Pandas 庫基礎

Python 資料分析與展示筆記4 – Pandas 庫基礎 Python 資料分析與展示系列筆記是筆者學習、實踐Python 資料分析與展示的相關筆記課程連結： Python 資料分析與展示參考文件： Numpy 官方文件（英文） Numpy 官方文件（中文） P

Cris 的 Python 資料分析筆記 07：Pandas 中的 Series 資料結構

文章目錄 1. DataFrame 和 Series 關係 2. 新建 Series 資料結構（key 和 value） 3. Series 的排序 4. 區間求值 5. 根據 in

Python資料分析--Pandas知識點(二)

13. 簡單計算

13.1 加法計算

13.2 減法運算

13.3 乘法運算

13.4 除法運算

13.5 其他運算

13.5.1 取整和取餘

13.5.2 聚合運算

14. 0-1標準化

15. 資料分組

16. 日期轉換

16.1 to_datetime方法

16.2 datetime.strptime()方法

17. 日期格式化

18.日期抽取

相關推薦