1. 程式人生 > >pandas描述性統計 (1)

pandas描述性統計 (1)

本文使用IPython自動生成的md檔案匯入

#使用pandas完成描述性統計
#通常拿到一組資料的第一步便是對資料的認識與探索,在這個過程中,描述性統計能夠幫助我們快速地對資料有一個大致的瞭解
#本節主要講解如何利用pandas實現資料的描述性統計
import pandas as pd
import numpy as np
type_specified={"trip_id":"object","bikeid":"object","from_station_id":"object","to_station_id":"object",
               "hour"
:"object","weekday":"object"} ridership=pd.read_csv(r"E:\chicago_bikes_data\txt&csv\ridership_2016.txt", nrows=10000,dtype=type_specified,usecols=range(1,12))
#ridership資料集是芝加哥公共自行車DivvyTrips使用記錄的一部分,
ridership.head()
.dataframe thead tr:only-child th { text-align: right; } .dataframe thead th { text-align: left; } .dataframe tbody tr th { vertical-align: top; }
trip_id starttime stoptime bikeid tripduration from_station_id from_station_name to_station_id to_station_name usertype gender
0 9080551 3/31/2016 23:53 4/1/2016 0:07 155 841 344 Ravenswood Ave & Lawrence Ave 458 Broadway & Thorndale Ave Subscriber Male
1 9080550 3/31/2016 23:46 3/31/2016 23:57 4831 649 128 Damen Ave & Chicago Ave 213 Leavitt St & North Ave Subscriber Male
2 9080549 3/31/2016 23:42 3/31/2016 23:46 4232 210 350 Ashland Ave & Chicago Ave 210 Ashland Ave & Division St Subscriber Male
3 9080548 3/31/2016 23:37 3/31/2016 23:55 3464 1045 303 Broadway & Cornelia Ave 458 Broadway & Thorndale Ave Subscriber Male
4 9080547 3/31/2016 23:33 3/31/2016 23:37 1750 202 334 Lake Shore Dr & Belmont Ave 329 Lake Shore Dr & Diversey Pkwy Subscriber Male
#首先,可以通過info方法,獲取資料集的基本資訊,該方法可以簡要描述資料各列的型別,非缺失的欄位數目
ridership.info()
#info()方法返回的資訊,顯示gender列存在缺失值,除過tripduration列是數值列外,其他列都是字元型別(object,和str型別是同一個意思)
#使用describe能夠方便的對Series,DataFrame型別的資料完成簡單的統計
#在此需要注意的是,有的資料列型別為數值,有的則為字元型別,describe函式對這兩種型別的資料描述統計分析也是不同的
#describe函式預設只對數值型資料進行描述性統計,為了對字元型資料進行描述性統計,可設定引數include
ridership.describe()
.dataframe thead tr:only-child th { text-align: right; } .dataframe thead th { text-align: left; } .dataframe tbody tr th { vertical-align: top; }
tripduration
count 10000.000000
mean 807.512700
std 2232.133671
min 62.000000
25% 352.000000
50% 571.500000
75% 912.000000
max 81702.000000
ridership.describe(include=["object"])
.dataframe thead tr:only-child th { text-align: right; } .dataframe thead th { text-align: left; } .dataframe tbody tr th { vertical-align: top; }
trip_id starttime stoptime bikeid from_station_id from_station_name to_station_id to_station_name usertype gender
count 10000 10000 10000 10000 10000 10000 10000 10000 10000 8975
unique 10000 1538 1547 2817 431 431 430 430 2 2
top 9070628 3/31/2016 17:18 3/30/2016 17:09 4341 91 Clinton St & Washington Blvd 174 Canal St & Madison St Subscriber Male
freq 1 29 32 13 184 184 222 222 8977 7047
#可以看出,兩種型別的資料,描述性統計的描述方式是不同的
#除了以上兩種最基本的方法外,pandas還提供了計算均值,標準差,方差,分位數等一系列專門的方法,
#以計算均值為例,可以使用如下方法
ridership.var()
tripduration    4.982421e+06
dtype: float64

相關推薦

pandas描述性統計 (1)

本文使用IPython自動生成的md檔案匯入 #使用pandas完成描述性統計 #通常拿到一組資料的第一步便是對資料的認識與探索,在這個過程中,描述性統計能夠幫助我們快速地對資料有一個大致的瞭解 #本節主要講解如何利用pandas實現資料的描

R語言實戰 - 基本統計分析(1)- 描述性統計分析

4.3 summary eas 方法 func -- 4.4 1.0 6.5 > vars <- c("mpg", "hp", "wt") > head(mtcars[vars]) mpg hp wt Maz

pandas 學習彙總12 - 描述性統計(比較全 tcy)

描述性統計 2018/12/4 1.統計函式說明:  大部分是聚合函式(因此產生低維結果)採用 軸引數(通過名稱或整數) 可選level引數,該引數僅在物件具有分層索引時才適用 可選skipna引數,一般預設排除系列輸入上的NA值。   2.視窗函式: 

pandas入門:描述性統計的概述與計算

1描述性統計的概述與計算 pandas物件裝配了一個常用數學、統計學方法的集合。其中大部分屬於歸約或彙總統計的類別,這些方法從DataFrame的行或列中抽取一個Series或一系列的單個值(如總和或平均值)。與NumPy陣列中的類似方法相比,它們內建了處理缺失值的功能。考慮一個小型Da

pandas Series KeyError: -1

start pac sed except call hide cti con img 前幾天寫分析方法,遇到的一個錯誤: 具體我已經在stackoverflow 裏面得到了詳細的解答,下面我把問題和解決辦法總結一下,方便日後的回顧 問題: sql = "selec

233. Number of Digit One(統計1出現的次數)

BE question because cti action git scrip ase pear Given an integer n, count the total number of digit 1 appearing in all non-negative

描述性統計的matlab實現

pre tool nes http 調用 一點 bsp log 文件 理論講的再多不會做也白弄 直接上手 一.針對接近正態分布的(均值,方差,標準差,極差,變異系數,偏度,峰度) 這裏我必須提前說明一點就是,你在寫好函數後,函數的名是dts,你保存的文件名也必須是dts.m

第二章 描述性統計

nbsp 頻率 高度 相對 個數 常用 定性 中心 定義 2.1 描述定性數據的圖形法和數值法 定義2.1 類(或組)頻數:落入這個類中的觀測值的個數 類(或組)相對頻率:落入這個類中的觀測值的個數相對於觀測值總數的比例 定性數據描述常用條形圖和餅圖 條形圖:給出每一類的頻

R-基本統計分析--描述性統計分析

及其 pre dice 數據集 returns length 平均值 sun 52.0 描述性統計分析主要包括 基本信息:樣本數、總和 集中趨勢:均值、中位數、眾數 離散趨勢:方差(標準差)、變異系數、全距(最小值、最大值)、內四分位距(25%分位數、75%分位數) 分布

pandas層級索引1

pre 創建 直接 ng- inner 1.5 表示 獲取 and 層級索引(hierarchical indexing) 下面創建一個Series, 在輸入索引Index時,輸入了由兩個子list組成的list,第一個子list是外層索引,第二個list是內層索引。

pandas庫簡介(1)--pandas的三種資料結構

/****************持續更新中**************************/ pandas有三種資料結構形式,分別是Series,DataFrame和索引物件。 1.Series Series和一維陣列很像,只是它的每一個值都有一個索引,輸出顯示時索引在左,值在右。

R-描述性統計

RT。。。老實說這一章我是抖的。。。但是,加油~ # 從1:100中均勻抽取size個數據,replace=TRUE指有放回抽樣,資料可以重複 x = sample(1:100, size = 100, replace = TRUE) y = x # 隨機設定y中有20%的缺失值 y[sample

Pandas分組統計函式:groupby、pivot_table及crosstab

利用python的pandas庫進行資料分組分析十分便捷,其中應用最多的方法包括:groupby、pivot_table及crosstab,以下分別進行介紹。 0、樣例資料 df = DataFrame({'key1':['a','a','b','b','a

隨機產生1-6共10萬次,統計1-6分別出現的次數

<!doctype html> <html> <head> <meta charset="utf-8"> <title>無標題文件</title> </head> <body>

python描述性統計分析

1、 數值分析 from numpy import array from numpy.random import normal, randint list_data = [1, 2, 3] #使用List來創造一組資料 array_data = array([1, 2

learn numpy & pandas 學習筆記1

import numpy as np array = np.array([[1,2,3],[2,3,4]]) #列表轉化為矩陣 print(array) print('number of dim:',array.ndim) # 維度 print('sh

Pandas 分組統計

– Start import pandas as pd pd.set_option('display.max_columns', 100) pd.set_option('display.max_rows', 500) pd.set_option('displa

python學習(二)——Pandas篇(1

   Pandas 一個數據分析處理的庫,基於Python 底層是基於numpy的,Pandas的核心結構是DataFrame。 此篇簡單學習了Pandas的基礎操作,主要包括對.csv檔案的讀取(pandas.read_csv(“path”));讀取資料的前幾行(.head

二進位制位交換,反轉,與統計1的個數

問題一:給一個整數v,求它的二進位制表示中從右往左數第x位和第y位交換後的值(從0開始計數)。 分析:舉個例子,如果v的二進位制表示為XXXXaXXXXXXbX,我們交換第1位和第8位。我們是這樣做

統計1-n 中1 的次數

package offer; /** * @Package Name : ${PACKAG_NAME} * @Creation Date : 2018年12月27日上午7:19 * @Function : todo */ public class calculate_1_count {