dataframe進行常用統計、分組統計平均絕對偏差等操作函式。

阿新 • • 發佈：2022-05-04

pandas在dataframe中提供了豐富的統計、合併、分組、缺失值等操作函式。

1.統計函式

df.count() #非空元素計算 df.min() #最小值 df.max() #最大值 df.idxmin() #最小值的位置，類似於R中的which.min函式 df.idxmax() #最大值的位置，類似於R中的which.max函式 df.quantile(0.1) #10%分位數 df.sum() #求和 df.mean() #均值 df.median() #中位數 df.mode() #眾數 df.var() #方差 df.std() #標準差 df.mad() #平均絕對偏差 df.skew() #偏度 df.kurt() #峰度 df.describe() #一次性輸出多個描述性統計指標

2.分組統計依託group by 單列如：df.groupby(‘sex’).sum() 通過多個列進行分組形成一個層次索引，然後執行函式：df.groupby([‘sex’,’B’]).sum()

案例：

#!usr/bin/env python
#_*_ coding:utf-8 _*_

import pandas as pd
import pymysql

def get_data():
    conn=pymysql.connect(
                 host='192.168.1.xxx',
                 port=3306,
                 user='root',
                 passwd='xxx',
                 db='kmind',
                 charset='utf8'
             )
    sqldb="SELECT socre,review_star,review_author_id,review_author_level as count2 FROM source_mg_mfw_socre_ljon_01 WHERE
            review_author_id IN (select review_author_id from (SELECT review_author_id,COUNT(*) AS count1 FROM
            source_mg_mfw_socre_ljon_01 GROUP BY review_author_id HAVING count1>3)A)and socre!=' '"
    pd_data=pd.read_sql(sqldb,conn)
    pd_data["subtract"]=(pd_data["socre"]-pd_data["review_star"]*2)**2
    print(pd_data.head(5))
    #獲取對應統計效果描述
    print(pd_data.groupby("review_author_id").mean().describe())
    print(pd_data.groupby("review_author_id").mad().describe())
    print(len(pd_data.loc[pd_data["subtract"]<0.983275]))
    print(pd_data.loc[pd_data["subtract"]<0.983275])


if __name__=="__main__":
    get_data()

對應的原始資料結構

對應的部分資料描述

dataframe進行常用統計、分組統計平均絕對偏差等操作函式。

pandas在dataframe中提供了豐富的統計、合併、分組、缺失值等操作函式。 1.統計函式

Django中日期時間型欄位進行年月日時分秒分組統計

1.資料結構說明：資料結構如下：modification欄位為修改資料時間欄位，格式為年，月，日，時，分，秒。

Java 8 （lambda）表示式 Collectors中的統計、分組、排序、過濾等

lambda 表示式 Collectors #使用filter()過濾List //新增測試資料 List<User> userList = new ArrayList<>();

mysql 5.7.20常用下載、安裝和配置方法及簡單操作技巧(解壓版免安裝)

話說凌晨剛折騰完一臺MySQL 5.7.19版本的安裝，未曾料到早上MySQL官方就釋出了最新的5.7.20版本。這個版本看似更新不多，但是加入了一個我們所急需的功能。

MSE（均方誤差）、RMSE （均方根誤差）、MAE （平均絕對誤差）

MSE（均方誤差）、RMSE （均方根誤差）、MAE （平均絕對誤差） 1、MSE（均方誤差）（Mean Square Error）

django框架之聚合、分組查詢和原生SQL等相關內容-69

0 前後端分離和混合開發 1 模板語言：每個語言的web框架都會有模板語言，django---》dtl2 模板語言的渲染，是再後端完成的3 用php寫前端（html，css,js）(不對的)4 前後端分離：前後端互動，統一全用json格式5

js獲取陣列，進行迴圈處理，新增，刪除，查詢等操作

//js迴圈新增that.workTypeActiveIds.forEach(function (value, key, iterable) { console.log(key, value, iterable);

Python操作列表常用方法例項小結【建立、遍歷、統計、切片等】

本文例項講述了Python操作列表常用方法。分享給大家供大家參考，具體如下：

Java8進行多個欄位分組統計的例項程式碼

Java8進行多個欄位分組統計實現程式碼如下： // 分組統計 Map<String,Long> countMap = records.stream().collect(Collectors.groupingBy(o -> o.getProductType() + \"_\" + o.getCountry(),Collectors.

JAVA8 stream中三個引數的reduce方法對List進行分組統計操作

背景平時在編寫前端程式碼時，習慣使用lodash來編寫‘野生\'的JavaScript; lodash提供來一套完整的API對JS物件（Array,Object,Collection等）進行操作，這其中就包括_.groupBy 和 _.reduce，即分組和\'聚合\'（redu

mysql按照某一個條件進行分組統計，同時又要保證一個相同欄位的資料只統計一次

SELECT n.pk_id, count( DISTINCT r.user_id ) forwardNum FROM news_info n INNER JOIN news_info_record r ON r.type = 1

MySQL groud by 不對 null 進行分組統計

MySQL groud by 不對 null 進行分組統計在使用 groud by某列名進行分組統計時，該列名的資料有些為 null, 因而會出現 null 的資料行全部分成一組導致資料錯誤，所以 null 列名的資料行不能執行 groud by

SqlServer根據某列來分組後，再依據另一列來排序，選取第一行，後再依據另一列進行篩選，之後再統計數量

一開始我寫的sql類似於 select COUNT(*) from (selectmax(inspect_date) as newest_inspect_date,conclusion from single_card

pandas：聚合統計、資料分箱、分組視覺化

1、聚合統計 1.1描述統計 #df.describe(),對資料的總體特徵進行描述 df.groupby(\'team\').describe()

java8 Stream 多天條件分組統計

SettleVO類 @Data@ToStringpublic class SettleVO implements Serializable {private Long id;/*** 日期*/private String sendDate;/*** 始發中心所在的城市*/private String startCityId;/*** 始發城市名稱*/privat

list分組統計

/** * @ProjectName: rrl_service * @Copyright: 2011 by Beijing Faxuan Information Technology co.,ltd. * @address: http://www.faxuan.net * @Description:* @author yhyi * @date: 2020/7/23 16:04 * @Title:

MySql 按日，按周，按月分組統計資料

知識關鍵詞：DATE_FORMAT 按天統計： SELECT DATE_FORMAT(create_time,\'%Y%m%d\') days, COUNT(caseid) count FROM tc_case GROUP BY days;

python資料分析（八） python pandas--series和dataframe的方法，排序，統計

排序根據條件對結果進行排序，是pandas當中的一個重要方法，pandas提供了兩種排序方式，根據index值，或是根據其中的value進行排序

Nginx的狀態統計、目錄保護、訪問控制

1.nginx的狀態統計 #vim /usr/local/nginx/conf/nginx.conf #在server塊中新增： location /nginx_status{

java8 集合多欄位分組統計個數程式碼

1.user實體 package com.demo.dto; public class User { private Integer id; private String userName; private String password;

dataframe進行常用統計、分組統計平均絕對偏差等操作函式。

相關推薦