基於R統計分析——樣本與分佈

阿新 • • 發佈：2019-01-21

1 資料抽樣
（1）簡單隨機抽樣

sample(x,size,replace=FALSE,prob=NULL)

其中，x表示待抽取物件，一般情況下以向量形式表示；size為非負整數，表示想要抽取樣本的個數；replace表示是否為可放回抽樣，預設不放回；prob用於設定各個抽樣樣本的抽樣概率，預設等概率抽樣。

例子：

library(MASS)
data(Insurance)
sub1=sample(nrow(Insurance),10,replace=T) 
sub2=sample(nrow(Insurance),10)  
sub3=sample(nrow(Insurance 
),10,replace=T,prob=c(rep(0,nrow(Insurance)-1),1)) 
#設定最後一個樣本的抽樣概率為1，其他樣本被抽到的概率為0

備註：sample為自帶函式

（2）分層抽樣

strata(data, stratanames=NULL, size, method=c(“srswor”,”srswr”,”poisson”,”systematic”), description=FALSE)

其中，data為待抽樣資料集；stratanames中放置進行分層所依據的變數名稱；size用於設定各層中將要抽出的觀測樣本數，其順序應該與資料集中變數各水平出現順序一致，且在使用該函式前，應當首先對資料集按照該變數進行升序排列；method引數用於選擇抽樣方法，分別對應於無放回、有放回、泊松、系統抽樣，預設無放回；pik用於設定各層中各樣本的抽樣概率；description引數用於選擇是否輸出含有各層基本資訊的結果。

sub4=strata(Insurance,stratanames="District",size=c(1,2,3,4),method="srswor")
#按照街區進行分層，且1~4個街區中無放回抽取1-4個樣本

這裡寫圖片描述

（3）整群抽樣

cluster(data, clustername, size, method=c(“srswor”,”srswr”,”poisson”,”systematic”), description=FALSE)

與分層抽樣稍微不同的是，clustername指用來劃分群的變數的名稱，而size不再為分層抽樣中的一個向量，這裡僅為一個正整數，表示需要抽取的群數。

sub5=cluster(Insurance,clustername="District",size=2,method="srswor")

這裡寫圖片描述

備註：strata和cluster函式需要載入sampling包

2 概率分佈
R中提供了18個分佈函式
這裡寫圖片描述
對於所給的分佈名稱，加字首“d”(代表密度函式, density)就得到R的密度函式(對於離散分佈, 指分佈律); 加字首“p”(代表分佈函式或概率, CDF)就得到R的分佈函式; 加字首“q”(代表分位函式, quantile)就得到R的分位數函式; 加字首“r”(代表隨機模擬, random)就得到R的隨機數發生函式.

基於R統計分析——樣本與分佈

基於R統計分析——樣本與分佈

統計分析與R軟件-chapter2-2

【R統計】基於相似系數的聚類分析

統計分析之引數檢驗與非引數檢驗、匹配樣本與獨立樣本、2樣本與K樣本介紹----附SPSS操作指南

分享《機器學習與資料科學(基於R的統計學習方法)》高清中文PDF+原始碼

分享《機器學習與數據科學(基於R的統計學習方法)》高清中文PDF+源代碼

分享《機器學習與數據科學(基於R的統計學習方法)》+PDF+源碼+Daniel+施翔

基於R的資料探勘方法與實踐（3）——決策樹分析

Excel在統計分析中的應用—第六章—抽樣分佈-小樣本的抽樣分佈（F分佈概率密度函式圖）

Excel在統計分析中的應用—第六章—抽樣分佈-小樣本的抽樣分佈（t分佈）

機器學習與資料科學基於R的統計學習方法（一)-第1章機器學習綜述

R資料探勘技術-基於R語言的資料探勘和統計分析技術

R語言與統計分析---湯銀才

數據的統計分析與描述

bug統計分析續（一）基於SQL的Bug統計方法

R語言統計分析技術研究——嶺回歸技術的原理和應用

基於MapReduce的手機流量統計分析

BioNano生物納米分子的“原始數據到完成裝配和組裝分析”管線與基於序列的基因組FASTA映射

R語言實戰 - 基本統計分析（1）- 描述性統計分析

基於HBase的MapReduce實現大量郵件信息統計分析

基於R統計分析——樣本與分佈

相關推薦