pandas描述性統計 (1)
本文使用IPython自動生成的md檔案匯入
#使用pandas完成描述性統計
#通常拿到一組資料的第一步便是對資料的認識與探索,在這個過程中,描述性統計能夠幫助我們快速地對資料有一個大致的瞭解
#本節主要講解如何利用pandas實現資料的描述性統計
import pandas as pd
import numpy as np
type_specified={"trip_id":"object","bikeid":"object","from_station_id":"object","to_station_id":"object",
"hour" :"object","weekday":"object"}
ridership=pd.read_csv(r"E:\chicago_bikes_data\txt&csv\ridership_2016.txt",
nrows=10000,dtype=type_specified,usecols=range(1,12))
#ridership資料集是芝加哥公共自行車DivvyTrips使用記錄的一部分,
ridership.head()
.dataframe thead tr:only-child th {
text-align: right;
}
.dataframe thead th {
text-align: left;
}
.dataframe tbody tr th {
vertical-align: top;
}
trip_id | starttime | stoptime | bikeid | tripduration | from_station_id | from_station_name | to_station_id | to_station_name | usertype | gender | |
---|---|---|---|---|---|---|---|---|---|---|---|
0 | 9080551 | 3/31/2016 23:53 | 4/1/2016 0:07 | 155 | 841 | 344 | Ravenswood Ave & Lawrence Ave | 458 | Broadway & Thorndale Ave | Subscriber | Male |
1 | 9080550 | 3/31/2016 23:46 | 3/31/2016 23:57 | 4831 | 649 | 128 | Damen Ave & Chicago Ave | 213 | Leavitt St & North Ave | Subscriber | Male |
2 | 9080549 | 3/31/2016 23:42 | 3/31/2016 23:46 | 4232 | 210 | 350 | Ashland Ave & Chicago Ave | 210 | Ashland Ave & Division St | Subscriber | Male |
3 | 9080548 | 3/31/2016 23:37 | 3/31/2016 23:55 | 3464 | 1045 | 303 | Broadway & Cornelia Ave | 458 | Broadway & Thorndale Ave | Subscriber | Male |
4 | 9080547 | 3/31/2016 23:33 | 3/31/2016 23:37 | 1750 | 202 | 334 | Lake Shore Dr & Belmont Ave | 329 | Lake Shore Dr & Diversey Pkwy | Subscriber | Male |
#首先,可以通過info方法,獲取資料集的基本資訊,該方法可以簡要描述資料各列的型別,非缺失的欄位數目
ridership.info()
#info()方法返回的資訊,顯示gender列存在缺失值,除過tripduration列是數值列外,其他列都是字元型別(object,和str型別是同一個意思)
#使用describe能夠方便的對Series,DataFrame型別的資料完成簡單的統計
#在此需要注意的是,有的資料列型別為數值,有的則為字元型別,describe函式對這兩種型別的資料描述統計分析也是不同的
#describe函式預設只對數值型資料進行描述性統計,為了對字元型資料進行描述性統計,可設定引數include
ridership.describe()
.dataframe thead tr:only-child th {
text-align: right;
}
.dataframe thead th {
text-align: left;
}
.dataframe tbody tr th {
vertical-align: top;
}
tripduration | |
---|---|
count | 10000.000000 |
mean | 807.512700 |
std | 2232.133671 |
min | 62.000000 |
25% | 352.000000 |
50% | 571.500000 |
75% | 912.000000 |
max | 81702.000000 |
ridership.describe(include=["object"])
.dataframe thead tr:only-child th {
text-align: right;
}
.dataframe thead th {
text-align: left;
}
.dataframe tbody tr th {
vertical-align: top;
}
trip_id | starttime | stoptime | bikeid | from_station_id | from_station_name | to_station_id | to_station_name | usertype | gender | |
---|---|---|---|---|---|---|---|---|---|---|
count | 10000 | 10000 | 10000 | 10000 | 10000 | 10000 | 10000 | 10000 | 10000 | 8975 |
unique | 10000 | 1538 | 1547 | 2817 | 431 | 431 | 430 | 430 | 2 | 2 |
top | 9070628 | 3/31/2016 17:18 | 3/30/2016 17:09 | 4341 | 91 | Clinton St & Washington Blvd | 174 | Canal St & Madison St | Subscriber | Male |
freq | 1 | 29 | 32 | 13 | 184 | 184 | 222 | 222 | 8977 | 7047 |
#可以看出,兩種型別的資料,描述性統計的描述方式是不同的
#除了以上兩種最基本的方法外,pandas還提供了計算均值,標準差,方差,分位數等一系列專門的方法,
#以計算均值為例,可以使用如下方法
ridership.var()
tripduration 4.982421e+06
dtype: float64
相關推薦
pandas描述性統計 (1)
本文使用IPython自動生成的md檔案匯入 #使用pandas完成描述性統計 #通常拿到一組資料的第一步便是對資料的認識與探索,在這個過程中,描述性統計能夠幫助我們快速地對資料有一個大致的瞭解 #本節主要講解如何利用pandas實現資料的描
R語言實戰 - 基本統計分析(1)- 描述性統計分析
4.3 summary eas 方法 func -- 4.4 1.0 6.5 > vars <- c("mpg", "hp", "wt") > head(mtcars[vars]) mpg hp wt Maz
pandas 學習彙總12 - 描述性統計(比較全 tcy)
描述性統計 2018/12/4 1.統計函式說明: 大部分是聚合函式(因此產生低維結果)採用 軸引數(通過名稱或整數) 可選level引數,該引數僅在物件具有分層索引時才適用 可選skipna引數,一般預設排除系列輸入上的NA值。 2.視窗函式:
pandas入門:描述性統計的概述與計算
1描述性統計的概述與計算 pandas物件裝配了一個常用數學、統計學方法的集合。其中大部分屬於歸約或彙總統計的類別,這些方法從DataFrame的行或列中抽取一個Series或一系列的單個值(如總和或平均值)。與NumPy陣列中的類似方法相比,它們內建了處理缺失值的功能。考慮一個小型Da
pandas Series KeyError: -1
start pac sed except call hide cti con img 前幾天寫分析方法,遇到的一個錯誤: 具體我已經在stackoverflow 裏面得到了詳細的解答,下面我把問題和解決辦法總結一下,方便日後的回顧 問題: sql = "selec
233. Number of Digit One(統計1出現的次數)
BE question because cti action git scrip ase pear Given an integer n, count the total number of digit 1 appearing in all non-negative
描述性統計的matlab實現
pre tool nes http 調用 一點 bsp log 文件 理論講的再多不會做也白弄 直接上手 一.針對接近正態分布的(均值,方差,標準差,極差,變異系數,偏度,峰度) 這裏我必須提前說明一點就是,你在寫好函數後,函數的名是dts,你保存的文件名也必須是dts.m
第二章 描述性統計
nbsp 頻率 高度 相對 個數 常用 定性 中心 定義 2.1 描述定性數據的圖形法和數值法 定義2.1 類(或組)頻數:落入這個類中的觀測值的個數 類(或組)相對頻率:落入這個類中的觀測值的個數相對於觀測值總數的比例 定性數據描述常用條形圖和餅圖 條形圖:給出每一類的頻
R-基本統計分析--描述性統計分析
及其 pre dice 數據集 returns length 平均值 sun 52.0 描述性統計分析主要包括 基本信息:樣本數、總和 集中趨勢:均值、中位數、眾數 離散趨勢:方差(標準差)、變異系數、全距(最小值、最大值)、內四分位距(25%分位數、75%分位數) 分布
pandas層級索引1
pre 創建 直接 ng- inner 1.5 表示 獲取 and 層級索引(hierarchical indexing) 下面創建一個Series, 在輸入索引Index時,輸入了由兩個子list組成的list,第一個子list是外層索引,第二個list是內層索引。
pandas庫簡介(1)--pandas的三種資料結構
/****************持續更新中**************************/ pandas有三種資料結構形式,分別是Series,DataFrame和索引物件。 1.Series Series和一維陣列很像,只是它的每一個值都有一個索引,輸出顯示時索引在左,值在右。
R-描述性統計
RT。。。老實說這一章我是抖的。。。但是,加油~ # 從1:100中均勻抽取size個數據,replace=TRUE指有放回抽樣,資料可以重複 x = sample(1:100, size = 100, replace = TRUE) y = x # 隨機設定y中有20%的缺失值 y[sample
Pandas分組統計函式:groupby、pivot_table及crosstab
利用python的pandas庫進行資料分組分析十分便捷,其中應用最多的方法包括:groupby、pivot_table及crosstab,以下分別進行介紹。 0、樣例資料 df = DataFrame({'key1':['a','a','b','b','a
隨機產生1-6共10萬次,統計1-6分別出現的次數
<!doctype html> <html> <head> <meta charset="utf-8"> <title>無標題文件</title> </head> <body>
python描述性統計分析
1、 數值分析 from numpy import array from numpy.random import normal, randint list_data = [1, 2, 3] #使用List來創造一組資料 array_data = array([1, 2
learn numpy & pandas 學習筆記1
import numpy as np array = np.array([[1,2,3],[2,3,4]]) #列表轉化為矩陣 print(array) print('number of dim:',array.ndim) # 維度 print('sh
Pandas 分組統計
– Start import pandas as pd pd.set_option('display.max_columns', 100) pd.set_option('display.max_rows', 500) pd.set_option('displa
python學習(二)——Pandas篇(1)
Pandas 一個數據分析處理的庫,基於Python 底層是基於numpy的,Pandas的核心結構是DataFrame。 此篇簡單學習了Pandas的基礎操作,主要包括對.csv檔案的讀取(pandas.read_csv(“path”));讀取資料的前幾行(.head
二進位制位交換,反轉,與統計1的個數
問題一:給一個整數v,求它的二進位制表示中從右往左數第x位和第y位交換後的值(從0開始計數)。 分析:舉個例子,如果v的二進位制表示為XXXXaXXXXXXbX,我們交換第1位和第8位。我們是這樣做
統計1-n 中1 的次數
package offer; /** * @Package Name : ${PACKAG_NAME} * @Creation Date : 2018年12月27日上午7:19 * @Function : todo */ public class calculate_1_count {