Pandas之五資料操作

阿新 • • 發佈：2021-09-16

Pandas之五資料操作

前面我們聊過了物件建立、資料檢視、資料選擇的相關操作，現在就要進入到資料分析階段了。使用pandas主要原因就是其提供的資料分析功能，能實現大部分的資料統計分析工作。對資料進行操作主要有四種類型：

資料統計：常用的就是計數、平均值、最大值、最小值、標準差、分位數等等
函式應用：依次對dataframe每行執行某個函式
數值計數：統計每個值出現的次數，在製作直方圖時可能會用到
字串函式：pandas支援字串，自然地支援對字串進行各種操作

下面我們以圖中的資料來演示上述各項功能。

1. 資料統計

使用pandas經常會要用到資料統計功能，常用的有計數count、平均值mean

、最大值max、最小值min、標準差std、分位數quantile等，其使用方法基本一致，此處以均值和標準差為例進行演示。

注：預設情況在統計時會忽略缺失值np.nan。

1.1 平均值(mean)

計算平均值時可以按行計算或者按列計算，通過設定方法引數axis控制。

按列計算（預設情況下就是按列計算）

按行計算

1.2 標準差(std)

和計算平均值時一樣，可以按行計算或者按列計算，通過設定方法引數axis控制。

按列計算（預設情況下按列計算）

按行計算

2. 函式應用

可以對dataframe應用某個函式，也可以對指定的行或列應用，以累計和函式np.cumsum為例。

2.1 全域性應用

對整個df按列逐行計算累加和值，axis預設為0

2.2 對某行應用

從df中擷取某行，設定axis=1計算各列的累加和值，

2.3 對某列應用

從df中擷取某列，計算各行的累加和值

3. 數值計數

有時需要統計某些值出現的次數來繪製直方圖，可以使用value_count實現。value_counts有點類似於sql中的group by ... count。預設情況下做統計會忽略np.nan值，可以使用dropna=False統計np.nan值。

3.1 對所有列統計

下圖表示每行資料都不相同，只出現1次。

3.2 對某列做統計

同時統計E列中的數字和缺失值。

4. 字串函式

pandas為series提供了針對字串的操作方法.str，其包括諸如大小寫轉換lower,upper、字串替換replace等各種常用的字串操作函式。以replace為例：

歡迎關注微信公眾號：資料研發技術，收穫各類乾貨

Pandas之五資料操作

Pandas之五資料操作前面我們聊過了物件建立、資料檢視、資料選擇的相關操作，現在就要進入到資料分析階段了。使用pandas主要原因就是其提供的資料分析功能，能實現大部分的資料統計分析工作。對資料進行操作主要有

SQL語句之DML資料操作語言（insert、delete、update）

1.insert 命令 1.查看錶結構 mysql> desc student; +----------+---------------------+------+-----+-------------------+----------------+

MySQL 之 json 資料操作

背景：開發一個自定義模板的需求，針對資料庫設計，我想到了json，慶幸使用的MySQL版本為5.7，因為MySQL正是從5.7版本開始引入的json資料結構。

Pandas之缺失資料的實現

前言本章介紹pandas中的缺失資料，主要內容有： pandas中對np.nan的操作：統計、刪除、填充、插值

pandas之concat連結操作

Pandas 通過 concat() 函式能夠輕鬆地將 Series 與 DataFrame 物件組合在一起，函式的語法格式如下：

實時電商數倉（二十）之實時資料儲存與查詢（十) Clickhouse (五) SQL操作

1 SQL操作基本上來說傳統關係型資料庫（以MySQL為例）的SQL語句，基本支援但是也有不一樣的地方。這裡不會從頭講解SQL語法只介紹Clickhouse與標準SQL（MySQL）不一致的地方。

大資料Elasticsearch之Elasticsearch基本操作

文章目錄 1.索引的基本操作 1.1新建 Index 1.2刪除 Index 1.3新增記錄

MySQL操作之JSON資料型別操作詳解

上一篇文章我們介紹了mysql資料儲存過程引數例項詳解，今天我們看看MySQL操作之JSON資料型別的相關內容。

使用pandas實現連續資料的離散化處理方式(分箱操作)

Python實現連續資料的離散化處理主要基於兩個函式，pandas.cut和pandas.qcut，前者根據指定分界點對連續資料進行分箱處理，後者則可以根據指定箱子的數量對連續資料進行等寬分箱處理，所謂等寬指的是每個箱子中的資料

mysql資料表的基本操作之表結構操作，欄位操作例項分析

本文例項講述了mysql資料表的基本操作之表結構操作，欄位操作。分享給大家供大家參考，具體如下：

Python 分散式快取之Reids資料型別操作

目錄 1、Redis API 2、String 操作 3、Hash 操作 4、List 操作 1、Redis API 1.操作模式 redis-py提供兩個類Redis和StrictRedis用於實現Redis的命令，StrictRedis用於實現大部分官方的命令，並使用官方的語法和命令

Python 分散式快取之Reids資料型別操作詳解

1、Redis API 1.安裝redis模組 $ pip3.8 install redis 2.使用redis模組 import redis # 連線redis的ip地址/主機名，port，password=None

Vue生命週期activated之返回上一頁不重新請求資料操作

activated: 英文原意：使活動、觸發在Vue的生命週期函式中，這個好像用的不是特別多？（也許只是在我的工作中這個用的不多，或者說叫幾乎不用這個）

pandas之資料重塑與透視

資料重塑與透視 •資料重塑資料重塑表示轉換一個表格或者向量的結構，使其適合於進一步的分析。

Pandas之資料規整清理

資料規整（資料預處理，資料清洗）資料規整的一般分類：清理轉換合併重塑

python3:excel操作之讀取資料並返回字典 + 寫入的案例

excel寫入資料，使用openpyxl庫 class WriteExcel: def __init__(self,path): self.path = path def write_excel(self,sheet_name,content):

離線電商數倉（五十七）之元資料管理（五）Atlas（五）編譯Atlas原始碼

1.1.1 安裝Maven 1）Maven下載：https://maven.apache.org/download.cgi 2）把apache-maven-3.6.1-bin.tar.gz上傳到linux的/opt/software目錄下

離線電商數倉（五十九）之元資料管理（七）Ranger （二）安裝

1Ranger的安裝 1.1 環境準備 Ranger2.0要求對應的Hadoop為3.x以上，Hive為3.x以上版本，JDK為1.8以上版本！

《SeleniumBasic 3.141.0.0 - 在VBA中操作瀏覽器》系列文章之五：網頁元素的屬性和方法

SeleniumBasic中的IWebElement代表一個網頁元素。關於如何獲取網頁元素，上一節已經講過。

資料庫之表操作，資料操作

注意的幾點： 1.如果你在cmd中書命令的時候，輸入錯了就用\\c跳出 2.\\s檢視配置資訊

Pandas之五資料操作

Pandas之五資料操作

1. 資料統計

1.1 平均值(mean)

1.2 標準差(std)

2. 函式應用

2.1 全域性應用

2.2 對某行應用

2.3 對某列應用

3. 數值計數

3.1 對所有列統計

3.2 對某列做統計

4. 字串函式

相關推薦