Pandas系列教程（4）Pandas新增資料列

阿新 • • 發佈：2020-10-21

Pandas新增資料列

在進行資料分析時，經常需要按照一定的條件建立新的資料列，然後進行進一步分析

直接複製
df.apply方法
df.assign方法
按照條件選擇分組分別賦值

1、讀取csv資料到dataframe

import pandas as pd

file_path = "../files/beijing_tianqi_2018.csv"
df = pd.read_csv(file_path)
print(df.head())

2、直接賦值方法

例項：清理溫度列，變成數字列

# 設定索引為日期，方便按日期篩選
df.set_index('ymd', inplace=True)
 
# 替換溫度的字尾℃
df.loc[:, 'bWendu'] = df.loc[:, 'bWendu'].str.replace('℃', '').astype('int32')
df.loc[:, 'yWendu'] = df.loc[:, 'yWendu'].str.replace('℃', '').astype('int32')

例項：計算溫度差

# 注意df['bWendu']其實是一個Series,後面的減法返回的是Series
df.loc[:, 'wencha'] = df['bWendu'] - df['yWendu']

完整程式碼：

import pandas as pd

file_path  
= "../files/beijing_tianqi_2018.csv"
df = pd.read_csv(file_path)

# 替換溫度的字尾℃, 並轉為int32（修改列）
df.loc[:, 'bWendu'] = df.loc[:, 'bWendu'].str.replace('℃', '').astype('int32')
df.loc[:, 'yWendu'] = df.loc[:, 'yWendu'].str.replace('℃', '').astype('int32')

print(df.head())
print('*' * 50, '\n')

# 計算溫度差(新增列)
# 
 注意df['bWendu']其實是一個Series,後面的減法返回的是Series
df.loc[:, 'wencha'] = df['bWendu'] - df['yWendu']
print(df.head())

3、df.apply方法

例項：新增一列溫度型別

如果溫度大於33度就是高溫
低於-10度就是低溫
否則是常溫

import pandas as pd

file_path = "../files/beijing_tianqi_2018.csv"
df = pd.read_csv(file_path)

# 替換溫度的字尾℃, 並轉為int32（修改列）
df.loc[:, 'bWendu'] = df.loc[:, 'bWendu'].str.replace('℃', '').astype('int32')
df.loc[:, 'yWendu'] = df.loc[:, 'yWendu'].str.replace('℃', '').astype('int32')

print(df.head())
print('*' * 50, '\n')


def get_wendu_type(x):
    if x['bWendu'] > 33:
        return "高溫"
    elif x['yWendu'] < -10:
        return "低溫"
    else:
        return "常溫"


# 注意需要設定axis--1,這時Series的index是columns
df.loc[:, 'wendu_type'] = df.apply(get_wendu_type, axis=1)
# 列印前幾行資料
print(df.head())
print('*' * 50, '\n')
# 檢視溫度型別的計數
print(df['wendu_type'].value_counts())

4、df.assign方法

例項：將溫度從攝氏度變成華氏度

import pandas as pd

file_path = "../files/beijing_tianqi_2018.csv"
df = pd.read_csv(file_path)

# 替換溫度的字尾℃, 並轉為int32（修改列）
df.loc[:, 'bWendu'] = df.loc[:, 'bWendu'].str.replace('℃', '').astype('int32')
df.loc[:, 'yWendu'] = df.loc[:, 'yWendu'].str.replace('℃', '').astype('int32')

print(df.head())
print('*' * 50, '\n')

df_huashi = df.assign(
    yWendu_huashi=lambda x: x['yWendu'] * 9 / 5 + 32,
    bWendu_huashi=lambda x: x['bWendu'] * 9 / 5 + 32
)

print(df_huashi.head())
print('*' * 50, '\n')

5、按條件選擇分組分別賦值

按條件先選擇資料，然後對著部分資料賦值新列

例項：高低溫差大於10度，則認為溫差較大

import pandas as pd

file_path = "../files/beijing_tianqi_2018.csv"
df = pd.read_csv(file_path)

# 替換溫度的字尾℃, 並轉為int32（修改列）
df.loc[:, 'bWendu'] = df.loc[:, 'bWendu'].str.replace('℃', '').astype('int32')
df.loc[:, 'yWendu'] = df.loc[:, 'yWendu'].str.replace('℃', '').astype('int32')

# 列印前幾行資料
print(df.head())
print('*' * 50, '\n')

# 先建立空列（這是第一種建立新列的方法）
df['wencha_type'] = ""

df.loc[df['bWendu'] - df['yWendu'] > 10, 'wencha_type'] = "溫差大"
df.loc[df['bWendu'] - df['yWendu'] <= 10, 'wencha_type'] = "溫差正常"

# 列印前幾行資料
print(df.head())
print('*' * 50, '\n')

# 檢視溫差型別的計數
print(df['wencha_type'].value_counts())

Pandas系列教程（4）Pandas新增資料列

Pandas新增資料列在進行資料分析時，經常需要按照一定的條件建立新的資料列，然後進行進一步分析

Pandas系列教程（1）Pandas資料讀取

1. 下載安裝pandas pip install pandas pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple

Pandas系列教程（2）Pandas資料結構

Pandas資料結構 DataFrame: 二維陣列，整個表格，多行多列 Series: 一維資料，一行或一列

Pandas系列教程（3）Pandas資料查詢

Pandas資料查詢 pandas 查詢資料的幾種方法 df.loc方法，根據行，列的標籤值查詢 df.iloc方法，根據行，列的數字位置查詢

Pandas系列教程（5）Pandas資料統計函式

Pandas資料統計函式 1、讀取csv資料 import pandas as pd file_path = \"../../datas/files/beijing_tianqi_2018.csv\"

Pandas系列教程（6）Pandas缺失值處理

Pandas缺失值處理 Pandas使用這些函式處理缺失值： isnull和notnull: 檢測是否是空值，可用於df和Series

Pandas系列教程（7）Pandas的SettingWithCopyWarning

Pandas的SettingWithCopyWarning 1、讀取資料 import pandas as pd file_path = \"../datas/files/beijing_tianqi_2018.csv\"

Pandas系列教程（10）Pandas的axis引數

Pandas的axis引數 1、axis = 0 或者 axis = \'index\' 如果是單行操作，就是指某一行如果是聚合操作，指的就是跨行corss rows

Pandas系列教程（9）Pandas字串處理

Pandas字串處理前面我們已經使用了字串處理函式：　　df[\'bWendu\'].try.replace(\'℃\', \'\').astype(\'int32\')

Pandas系列教程（8）pandas資料排序

pandas資料排序 1. Series的排序： Series.sort_values(ascending=True, inplace=Flase) 引數說明：

Pandas系列教程（11）Pandas的索引index

Pandas的索引index 把資料儲存於普通的column列也能用於資料查詢，那使用index有什麼好處？

Angular入門到精通系列教程（4）- 開發環境搭建以及入手專案

1. 本地開發環境搭建 1.1. node.js 1.2. Angular CLI 2. 開發工具 - Visual Studio Code 第一個Anuglar專案

Pandas將列表（List）轉換為資料框（Dataframe）

Python中將列表轉換成為資料框有兩種情況：第一種是兩個不同列表轉換成一個數據框，第二種是一個包含不同子列表的列表轉換成為資料框。

WINFORM許可權系統開發系列教程（八）角色管理模組

實現過程 1 角色列表頁和資訊頁面佈局 2 功能實現分析載入所有角色列表新增 --角色資訊頁面許可權分配--入口--角色選單設定頁面

Java NIO系列教程（六） Selector

Selector（選擇器）是Java NIO中能夠檢測一到多個NIO通道，並能夠知曉通道是否為諸如讀寫事件做好準備的元件。這樣，一個單獨的執行緒可以管理多個channel，從而管理多個網路連線。

Java NIO系列教程（十）client和server 示例

//客戶但package com.example.demo.nio;import java.io.IOException;import java.net.InetSocketAddress;import java.nio.ByteBuffer;import java.nio.channels.SelectionKey;import java.nio.channels.Selector;imp

Selenium系列教程（十）BasePage 封裝

之前寫的程式碼中都沒有加入異常處理，規範寫法，應該在每次查詢元素或操作時加上異常處理、日誌資訊、失敗截圖等，如下：

Java NIO系列教程（一） Java NIO 概述

>>> Java NIO 由以下幾個核心部分組成： Channels Buffers Selectors 雖然Java NIO 中除此之外還有很多類和元件，但在我看來，Channel，Buffer 和 Selector 構成了核心的API。其它元件，如Pip

UAVCAN教程（4）釋出訂閱實現

技術標籤：UAVCAN 講一下libuavcan如何通過釋出訂閱模式實現程序通訊。釋出者對應uavcan::Publisher類，這是一個模板類，模板引數指定要釋出的資料型別，釋出者類構造時需要一個引數，就是我們前面介紹的節點No

J20航模遙控器開源專案系列教程（七）PPM輸出 | 關於按鍵版本和旋轉編碼器版本的相容說明、佈局建議 | 關於MINI版PCB的相容說明

我們的開源宗旨：自由協調開放合作共享擁抱開源，豐富國內開源生態，開展多人運動，歡迎加入我們哈~

Pandas系列教程（4）Pandas新增資料列

Pandas新增資料列

1、讀取csv資料到dataframe

2、直接賦值方法

3、df.apply方法

4、df.assign方法

5、按條件選擇分組分別賦值

相關推薦