tidyverse|資料分析常規操作-分組彙總（sumamrise+group_by)

阿新 • • 發佈：2020-07-07

| 本文首發於 “生信補給站” https://mp.weixin.qq.com/s/tQt0ezYJj3H7x3aWZmKVEQ

使用tidyverse進行簡單的資料處理：

盤一盤Tidyverse| 篩行選列之select，玩轉列操作

盤一盤Tidyverse| 只要你要只要我有-filter 篩選行

Tidyverse|資料列的分分合合，一分多，多合一

Tidyverse| XX_join ：多個數據表（檔案）之間的各種連線

本次介紹變數彙總以及分組彙總。

一 summarise 彙總

彙總函式 summarize()，可以將資料框摺疊成一行 ,多與group_by()

結合使用

1.1 `summarize`完成指定變數的彙總

統計均值，標準差，最小值，個數和邏輯值

library(dplyr)
iris %>%
    summarise(mean(Petal.Length), #無命名
              sd_pet_len = sd(Petal.Length,na.rm = TRUE), #命名
              min_pet_len = min(Petal.Length),
              n = n(),
             any(Sepal.Length > 5))

#  mean(Petal.Length) sd_pet_len min_pet_len   n any(Sepal.Length > 5)
#1              3.758   1.765298           1 150                  TRUE

常用函式：

Center 位置度量 : mean(), median()
Spread 分散程度度量 : sd(), IQR(), mad()
Range 秩的度量 : min(), max(), quantile()
Position 定位度量 : first(), last(), nth(),
Count 計數 : n(), n_distinct()
Logical 邏輯值的計數和比例 : any(), all()

1.2 , `summarise_if`完成一類變數的彙總

iris %>%
    summarise_if(is.numeric, ~ mean(., na.rm = TRUE))

#  Sepal.Length Sepal.Width Petal.Length Petal.Width
#1     5.843333    3.057333        3.758    1.199333

1.3，`summarise_at`完成指定變數的彙總

summarise_at配合vars，可以更靈活的篩選符合條件的列，然後進行彙總

iris %>%
    summarise_at(vars(ends_with("Length"),Petal.Width),
    list(~mean(.), ~median(.)))

#  Sepal.Length_mean Petal.Length_mean Petal.Width_mean Sepal.Length_median Petal.Length_median
#1          5.843333             3.758         1.199333                 5.8                4.35
#  Petal.Width_median
#1                1.3

1593878034794

二結合`group_by` 彙總

group_by() 和 summarize() 的組合構成了使用 dplyr 包時最常用的操作之一：分組摘要

2.1 按照Species分組，變數彙總

iris %>%
    group_by(Species) %>%
    summarise(avg_pet_len = mean(Petal.Length),
              sd_pet_len = sd(Petal.Length),
              min_pet_len = min(Petal.Length),
              first_pet_len = first(Petal.Length),
             n_pet_len = n())

# A tibble: 3 x 6
#  Species    avg_pet_len sd_pet_len min_pet_len first_pet_len n_pet_len
#  <fct>            <dbl>      <dbl>       <dbl>         <dbl>     <int>
#1 setosa            1.46      0.174         1             1.4        50
#2 versicolor        4.26      0.470         3             4.7        50
#3 virginica         5.55      0.552         4.5           6          50

2.2 計數

n() ：無需引數返回當前分組的大小；
sum(!is.na(x)) ：返回非缺失值的梳理；
n_distinct(x)：返回唯一值的數量。

iris %>%
    group_by(Species) %>%
    summarise( n_pet_len = n(),
              noNA_n_pet_len =  sum(!is.na(Petal.Length)),
              Petal.Length_uniq_n = n_distinct(Petal.Length)
             )
# A tibble: 3 x 4
#  Species    n_pet_len noNA_n_pet_len Petal.Length_uniq_n
#  <fct>          <int>          <int>               <int>
#1 setosa            50             50                   9
#2 versicolor        50             50                  19
#3 virginica         50             50                  20

除此之外，還可以用dplyr的count函式進行計數：

iris %>%
    count(Species)

# A tibble: 3 x 2
#  Species        n
#  <fct>      <int>
#1 setosa        50
#2 versicolor    50
#3 virginica     50

2.3 邏輯值的計數和比例

當與數值型函式一同使用時， TRUE 會轉換為 1， FALSE 會轉換為 0。

這使得 sum() 和 mean() 非常適用於邏輯值： sum(x) 可以找出 x 中 TRUE 的數量， mean(x) 則可以找出比例

iris %>%
    group_by(Species) %>%
    summarise( n_pet_len = n(),
              noNA_n_pet_len =  sum(!is.na(Petal.Length)),
              Petal.Length_uniq_n = n_distinct(Petal.Length),
              Petal.Length_uniq_n2 = sum(n_distinct(Petal.Length) >= 20)
             )

# A tibble: 3 x 5
#  Species    n_pet_len noNA_n_pet_len Petal.Length_uniq_n Petal.Length_uniq_n2
#  <fct>          <int>          <int>               <int>                <int>
#1 setosa            50             50                   9                    0
#2 versicolor        50             50                  19                    0
#3 virginica         50             50                  20                    1

參考資料：

https://r4ds.had.co.nz/

書籍：《R資料科學》

【覺得不錯，右下角點個“在看”，期待您的轉發，謝謝！】

tidyverse|資料分析常規操作-分組彙總（sumamrise+group_by)

| 本文首發於 “生信補給站” https://mp.weixin.qq.com/s/tQt0ezYJj3H7x3aWZmKVEQ 使用tidyverse進行簡單的資料處理：盤一盤Tidyverse| 篩行選列之select，玩轉列操作盤一盤Tidyverse| 只要你要只要我

資料分析中的分組分析法（二）

我們在上面的內容中為大家解釋了資料分析中的分組分析方法，我們根據屬性指標分組分析法和數量指標分組分析法的定義給大家進行了詳細的說明。但是對於數量指標分組分析法沒有給大家詳細地說明，今天我們給大家好好講解一下這方面的內容，希望這篇文章能夠幫助到大家。數量指標分組分析法有單項式分組和組距式分組。現在我們給

python資料分析pandas包入門學習（三）彙總和統計描述

本文參考《利用Python進行資料分析》的第五章 pandas入門 pandas擁有一組常用的數學和統計方法。它們大部分屬於約簡和彙總統計，用於從Series中提取單個值（如sum和mean），或從DataFrame的行或列中提取一個Series。跟對應的Numpy陣列

Python學習筆記015——文件file的常規操作之二（二進制文件）

cde enc blog 模式 1byte 二進制文件整數 style rst 1 字節(byte)的單位 1KB = 2*10 Bytes 1MB = 1KB * 1024 = 2**20 Bytes 1GB = 1KB * 1K * 1K = 2**30 Bytes

Python資料分析----Python3操作Excel-以豆瓣圖書Top250為例

本文利用Python3爬蟲抓取豆瓣圖書Top250，並利用xlwt模組將其儲存至excel檔案，圖片下載到相應目錄。旨在進行更多的爬蟲實踐練習以及模組學習。工具 1.Python 3.5 2.BeautifulSoup、xlwt模組開始動手首先檢視目標網頁的url：&nbs

資料分析系列教程之pandas（一）

之前講了資料分析numpy庫，今天開始講資料分析教程pandas庫，可以說，python在資料分析領域獨樹一幟，離不開pandas的強有力支撐，之前教程中也說過了，numpy主要處理數值型資料，pandas不但能處理數值型，字元型等也能處理，而且相比numpy，pandas會更好用，一般情況

資料分析系列教程之numpy（四）

前面幾節講了numpy中資料型別建立，選取，修改，今天是numpy的最後一節，繼續講一些更常見的一些計算方法 1、求和函式求和函式，用sum（），當然下圖中我是直接選取哪些資料，就對哪些資料求和 sum函式裡面有引數，當然下面的函式同樣也包含該引數axis，axis代表軸

python資料分析新手入門課程學習——（二）探索分析與視覺化（來源：慕課網）

一，單因子與對比分析視覺化資料 import pandas as pd df = pd.read_csv('./HR.csv') #檢視前十條資料 df.head(10) 以下為顯示的結果我們可以看出：第一個屬性satisf

python資料分析新手入門課程學習——（一）資料獲取（來源：慕課網）

一、資料獲取手段 1.資料倉庫（DW）：將所有業務資料經彙總處理構成 1）特點：全部事實的記錄；部分維

Python 資料分析如何安裝第三方庫（親測適用win10）

本人最近完整學了2個數據分析專案（股票分析專案，蒙特卡洛方法求π），其中有涉及到一些資料分析第三方庫，現記錄一下第三方庫的安裝過程，po出來也可以供大家參考。 I. 需要安裝的庫：根據我目前做過的專案，我安裝瞭如下7個庫： Numpy Pandas Ma

python資料分析：關聯規則學習（Association rule learning）

何為關聯規則學習關聯規則學習是一種基於規則的機器學習方法，用於發現大型資料庫中變數之間的有趣關係。它旨在使用一些有趣的度量來識別在資料庫中發現的強規則。這種基於規則的方法在分析更多資料時也會生成新規則。假設資料集足夠大，最終目標是幫助機器模擬人類大腦的特徵提取和新未分類資料的抽象關

資料分析處理問題小例子（wine資料集）

剛學資料分析時做的小例子，從notebook上覆制過來，留個紀念~ 資料集是從UCI上download下來的Wine資料集，下載地址，這是一個多分類問題，類別標籤為1,2,3。先瞅瞅資料， import numpy as np import pandas as pd from sk

Python資料分析numpy庫方法簡介（一）

Numpy功能簡介: 1.官網:www.numpy.org 2.特點:(1)高效的多維矩陣/陣列; 　　　(2);複雜的廣播功能　　　(3):有大量的內建數學統計函式矩陣(多維陣列): 一維陣列: ([ 值1,值2,值3]) 維維陣列:　([[1,2,3],[4,5,6]])

資料分析筆試——常見概率題（from牛客）

1、殺人遊戲，6個人互相投票，有一個人被其他5個人一起投死的概率是多少（）？假設每個人都不會投自己，投其他每個人是等概率的。答：分母：每個人可以投其他5個人，共5^6種可能；分子：C(1,6)六種可能，六個人選一個死，所以p=6/3125 2、20個員工被安排為4排，每

Python資料分析與挖掘學習筆記（2）使用pandas進行資料匯入

一、匯入pandas模組： import pandas as pda 二、匯入CSV格式資料： #資料匯入 i=pda.read_csv("E:/hexun.csv") 可對匯入的資料進行統計以及按列排序： #統計 i.describe() #排序 i

Python資料分析與挖掘學習筆記（4）淘寶商品資料探索與清洗實戰

一、相關理論：資料探索的核心：（1）資料質量分析（跟資料清洗密切聯絡）（2）資料特徵分析（分佈、對比、週期性、相關性、常見統計量等）資料清洗的步驟：（1）缺失值處理（通過describe與len直接發現、通過0資料發現）（2）異常值處理（通過散點圖發現

Python資料分析與挖掘學習筆記（5）資料規範化與資料離散化實戰

一、相關理論： 1、資料規範化的常見方法：（1）離差標準化（最小-最大標準化）--消除量綱（單位）影響以及變異大小因素的影響。（最小-最大標準化） x1=（x-min）/（max-min）（2）標準差標準化--消除單

Python資料分析如何安裝第三方庫（親測適用win10）

本人最近完整學了2個數據分析專案（股票分析專案，蒙特卡洛方法求π），其中有涉及到一些資料分析第三方庫，現記錄一下第三方庫的安裝過程，po出來也可以供大家參考。 I. 需要安裝的庫：根據我目前做過的專案，我安裝瞭如下7個庫： Numpy Pandas Matp

學資料分析需要知道的知識（二）

我們在上一篇文章中給大家講到了資料分析的動機、商業模式以及好的資料指標是什麼。這些內容都是比較重要的，此外大家在進行資料分析工作的時候還是需要注意很多的內容，下面我們就給大家講一講更深入的知識，希望能夠給大家帶來幫助。那麼我們怎麼找出正確的資料指標呢？這就需要重視幾個細節，那就是定性指標與量化指標。那

資料分析需要的工具介紹（二）

我們在上一篇文章中給大家介紹了資料分析軟體中的Excel和SAS軟體，但是這些軟體還是不夠的，我們還需要學習很多的工具，在這篇文章中我們會為大家介紹一下資料分析工具中的其他工具。希望這篇文章能夠給大家帶來幫助。首先我們給大家說一下R軟體，R是一套完整的資料處理、計算和製圖軟體系統。r語言的主要優點有資

tidyverse|資料分析常規操作-分組彙總（sumamrise+group_by)

一 summarise 彙總

1.1 summarize完成指定變數的彙總

1.2 , summarise_if完成一類變數的彙總

1.3，summarise_at完成指定變數的彙總

二 結合group_by 彙總

2.1 按照Species分組，變數彙總

2.2 計數

2.3 邏輯值的計數和比例

參考資料：

相關推薦

1.1 `summarize`完成指定變數的彙總

1.2 , `summarise_if`完成一類變數的彙總

1.3，`summarise_at`完成指定變數的彙總

二結合`group_by` 彙總