R教材5 統計

阿新 • • 發佈：2018-11-26

summary()，統計描述，因子向量和邏輯向量的頻數統計，包括缺失值統計，同樣作用的有
1. Hmisc包中的describe()
2. pastecs包中的stat.desc()
3. psych包中的describe()
4. 多個包中有相同名的函式，執行最後載入的，可用包名::函式()來使用
分組計算描述性統計量
1. aggregate(x,by,FUN)，單返回值函式
2. by(x,indices,FUN)，indices分組因子列表list，可以返回多個值
3. 分組計算的拓展
  1. doBy包中的summaryBy(formula,data=dataframe,FUN)，其中formula可以是y~x，y是數值型變數，x是類別型分組變數
  2. psych包中的describeBy(dataframe,list(x))，不允許指定任意函式，適普性較低，且分組變數交叉後不出現空白單元格時才有效
頻數表和列聯表：類別型變數，交叉的分類
1. 頻數統計表table()、prop.table()（其中的margins=1為按行計算、=2為按列計算）
  1. 二維列聯表table(row,col)
  2. xtabs(formula,data)，公式風格建立列聯表，formula是~A+B，交叉分類變數在~右邊
  3. margin.table()其中的margins=1代表按行新增邊際列表，=2為按列新增邊際列表
  4. 前面複雜的方法可以用addmargins()來為表格新增邊際和
  5. table()預設忽略缺失值NA
2. 多維列聯表ftable()
3. 獨立性檢驗
  1. 卡方獨立性檢驗：chisq.test()對二維表的行列進行獨立性檢驗，用卡方，H0：獨立
  2. Fisher精確檢驗：fisher.test()，H0：邊界固定的列聯表中的行列是相互獨立的，R中的Fisher檢驗必須用於行列數>=2，但不能2*2
  3. mantelhaen.test()，H0：兩個名義變數在第三個變數的每一個水平下都是條件獨立的
4. 相關性度量：獨立性的檢驗後，必須要相關性的檢驗檢視相關性
  1. vcd包中的assocstats
相關
1. 相關的型別
  1. Pearson相關：兩個定量變數之間的線性相關程度
  2. Spearman相關：分級定序變數間的相關程度
  3. Kendall's Tau相關：非引數的等級相關度量
2. 相關函式cor()，協方差cov()
  1. cor(x,use=,method=)
    1. use=：
      1. all.obs遇到缺失資料時報錯
      2. everything遇到缺失資料時將結果設為missing，預設
      3. complete.obs行刪除
      4. pairwise.complete.obs成對刪除
    2. method=：
      1. pearson，預設
      2. spearman
      3. kendall
3. 偏相關ggm包中的pcor(u,S)，u是數值向量，前兩個數值是計算相關係數的變數下標，其他為排除影響的變數，S為變數的協方差矩陣cov(dataframe)
  1. psych包中的pcor.test(r,q,n)偏相關檢驗，r是由pcor()計算得到的偏相關係數，q是控制的變數數值位置，n為樣本大小
4. 相關性的顯著性檢驗cor.test(x,y,alternative=,method=)，H0：不相關，只能檢驗一對
  1. alternative=
    1. two.sided雙側，預設
    2. less或greater單側
  2. method=pearson，……
  3. psych包中的corr.test(x,use="",method=“”)，多個變數的檢驗
    1. use=
      1. pairwise成對刪除
      2. complete行刪除
t檢驗：樣本間是否有差別，R中的t檢驗預設方差不相等，var.equal=T假定方差相等且可用合併方差估計，預設雙側檢驗，H0：=
1. 獨立樣本t.test(y~x,data)，y是數值型變數，x是二分變數
  1. t.test(y1,y2)，y1、y2是數值型向量
2. 非獨立樣本t檢驗，假定組間的差異呈正態分佈t.test(y1,y2,paired=T)
3. 多於兩個組之間的比較用ANOVA方差分析
組間差異的非引數檢驗，當資料不能確定分佈時，用非引數
1. 兩組比較
  1. 資料獨立wilcox.test(y~x,data)、wilcox.test(y1,y2)
  2. 資料不獨立wilcox.test(……,paired=T)
2. 多於兩組的比較，均值的多重比較，控制第1類錯誤的重複疊加
  1. 資料獨立kruskal.test(y~A,data)，y是數值結果變數，A是一個擁有多個水平的分組變數
  2. 資料不獨立friedman.test(y~A|B,data)，y是數值型結果變數，A是分組變數，B是區組變數

R教材5 統計

summary()，統計描述，因子向量和邏輯向量的頻數統計，包括缺失值統計，同樣作用的有 Hmisc包中的describe() pastecs包中的stat.desc() psych包中的describe() 多個包中有相同名的函式，執行最後載入

R語言- 基本統計分析

kruskal 最大的 turn clas 技術 ria 大於 stat pair 目的: 　　1.描述性統計分析　　2.頻數表和;列連表　　3.相關系數和協方差　　4.t檢驗　　5.非參數統計在上一節中使用了圖形來探索數據,下一步就是給出具體的數據來描述每個變量

#R.Table區間統計

blog post bsp numeric mes num 實現結果 name ：：table table（d），table（cut（d,c(1,2,3,4,,,)）） table：次數統計，prob_table()頻率統計； table與cut的聯合使用，實現區間頻率的

（數據科學學習手劄19）R中基本統計分析技巧總結

misc 總結 4.6 內部 red margin adjust 條件置信區間在獲取數據，並且完成數據的清洗之後，首要的事就是對整個數據集進行探索性的研究，這個過程中會利用到各種描述性統計量和推斷性統計量來初探變量間和變量內部的基本關系，本篇筆者便基於R，對一些常用的數

CentOS 6.X安裝 R-3.5.0

centos 6 R-3.5.0 1、系統環境：CentOS release 6.8 (Final) 2、安裝包下載： wget https://cran.r-project.org/src/base/R-3/R-3.5.0.tar.gz 3、解壓並安裝：tar xf R-3.5.0.tar.gz

R教材11.2 隨機森林與支援向量機

隨機森林是組成式監督學習演算法，同時使用多個預測模型，將模型的結果彙總以提升分類準確率；對樣本單元和屬性進行抽樣，產生大量的決策樹，再對檢驗的樣本單元進行依次分類，從而得到未知樣本單元的類演算法：訓練集中有N個樣本單元，M個變數從訓練集中隨機有放

R教材11.1 分類與決策樹

分類目的：根據一組預測變數來預測相對應的分類結果，實現對新出單元的準確分類有監督學習：基於已知類的資料樣本，將全部資料分為訓練集和驗證集用到的包：rpart，rpart.plot，party，randomForest，e1071 隨機抽樣： set.se

R教材10 聚類分析

營銷研究人員根據消費者的人口統計特徵和購買行為的相似性制定客戶細分戰略聚類的一般步驟：選擇對聚類結果有效的資料對每個變數標準化：z分數scale()，分位數或（x-μ）/平均絕對偏差；變數間數值差距較大時必須標準化尋找異常點並去除（或研究）：

R教材8 功效分析

在給定置信度下，判斷檢測到給定值時所需要的樣本量；也能計算在某樣本量內能檢測到給定效應值的概率功效是1-二類錯誤，1-β，看做真實效應發生的概率效應值是在備選或研究假設下效應的量對於每個函式，使用者設定（樣本大小n，顯著性水平α，功效，效應值）中的三

R教材7 方差分析

方差分析：組間差別分析aov(formula,data)，將組別因子加入到函式雙因素方差分析中，若不同的分組中組內觀測數不同則模型的順序具有唯一性；ANOVA模型的順序很重要，模型Y~A+B+A:B，其中Y為因變數，A,B為分組量序貫型：後面對線出現的效應做調整，A

R教材6 迴歸

大部分情況下，我們用OLS（最小二乘法）來得出迴歸模型 lm(formula,data)擬合迴歸模型，data是資料框 y~x，左邊為響應變數，右邊為解釋變數；+分隔預測變數 :表示互動項，x:y *表示所有可能互動項的簡潔方式，x*z=x+z+x:

R教材4 高階資料管理

數值與字元處理函式數學函式，物件非單個數值時，會作用於每個數值絕對值abs() 平方根sqrt() 舍入小數round(,digits=) 對數 log(

R教材3 資料管理

根據原物件建立新變數，物件=transform(物件,新變數) 變數的重編碼variable[condition]<-expression，變數的下標運算子設定條件，當condition為T時則執行賦值；within(物件,{新變數[原變數的判斷條件]=新值})，建立新物件，{}內

[深度學習]Object detection物體檢測之Faster R-CNN(5)

目錄 1.綜述 2.Region Proposal Networks （RPN） Anchor（錨） loss function Training RPNs 3.Sharing Features for RPN and Fast R-CNN 1.交替訓練&nb

【c語言】設圓半徑r = 1.5，圓柱高h = 3，求圓周長，圓面積，圓球表面積，圓球體積，圓柱體積

要求scanf輸入資料，並有相應文字說明 #include<stdio.h> int main() { float r,h,pi=3.141592 ; printf("請輸入圓半徑r和圓柱高h:"); scanf("%f%f",&r,&h); printf(

10.3.5統計n-k特殊集的數

描述：如果由正整數構成的集合X滿足以下條件，我們稱它為n-k特殊集： (1)集合X中的每個元素x均不超過n，即1<=x<=n. (2)集合X中所有元素之和大於k。 (3)集合X中不包含任意一對相鄰的自然數。給出n,k,求n-k特殊集合有多少個。1&l

4.5 統計stats模組

NumPy庫已經提供了一些基本的統計函式，如求期望、方差、中位數、最大值和最小值等。示例程式碼： import numpy as np #構建一個1000個隨機變數的陣列 x = np.random.randn(1000) #對陣列元素的值進行統計 mean = x.mean() s

【R語言視覺化】我教你15分鐘學會用R畫各種統計圖

data:2015-10-17 author:laidefa 有同學讓我開始教他R語言,就先分享點東西把。學習R的曲線是陡峭的，有人教你才是正道，沒人教你你至少要安靜學習三個月甚至遠遠不止，才會駕輕

R語言與統計分析---湯銀才

關於R中的函式或關鍵字元命令 > help(fun) 或 ?fun 會立即顯示名為“fun”函式的幫助頁 > apropos(fun) 或 apropos("fun") 找出所有在名字中含有指定字串“fun”的函式，但只會在被載入

[R分析] 描述統計：頻數和頻率分佈直方圖

n<-round(runif(1000,0,100)) #生成0到100的1000個隨機數 hist(n) #頻數分佈直方圖，縱座標名字為frequency hist(n,freq =

R教材5 統計

相關推薦