R語言與統計分析---湯銀才

阿新 • • 發佈：2019-01-09

關於R中的函式或關鍵字元

命令

> help(fun) 或 ?fun

會立即顯示名為“fun”函式的幫助頁

> apropos(fun) 或 apropos("fun")

找出所有在名字中含有指定字串“fun”的函式，但只會在被載入
記憶體中的程式包中進行搜尋.

> help.search("char")

列出所有在幫助頁面含有字元“char”的函式, 它的搜尋範圍
比apropos(“fun”)更廣

> find(fun) 或 find("fun")

得到名為“fun”函式所在的程式包

> args(fun) 或 args("fun")

得到名為“fun”函式的自變數列表.

資料的瀏覽與編輯

資料的瀏覽

> mtcars

顯示mtcars中的32個觀測值

> head(mtcars)

顯示資料集中前7行

> ==names==(mtcars)

僅顯示資料集中的變數，此處未是一個，也就是data.frame中的列名（INDEX ）

資料的編輯

> ==data.entry==(mtcars)

通過R的資料編輯器開啟資料集mtcars, 除了瀏覽資料集外，這裡
我們還可以對變數及其觀測值進行修改.

> MTcars <- edit(mtcars)

同樣啟動R的資料編輯器, 在此可對原來的資料集mtcars進行編輯,
完成後將生成的新的資料集賦給MTcars, 而原來的資料集保持不變.
如果你要修改原來的資料集，使命令edit( )前後的資料集同名即
可. 因此命令edit

(mtcars) 將無法完成對資料的修改.

> xnew <- edit(data.frame( ))

可以編輯生成新的資料集xnew. 另外, 對於一維的資料, edit( )打
開的是R Editor. 試比較下面的例子中兩個命令的區別

> fix(mtcars) **等價於** > mtcars <- edit(mtcars)

可以完成資料集mtcars的直接修改. 因此它等價於命令

注意：
- 命令data.entry( )和edit( )都可用於編輯向量、矩陣、資料
  框和列表，前者啟用的都是R的資料編輯器, 後者有所不同: 對於向量、
  列表和陣列edit( )啟用的是R Editor.
- 儘管我們在R中可以瀏覽與編輯資料集mtcars, 但它們還無法對此資料
  集進行操作(分析), 例如命令

>  attach(mtcars)

無法看到變數mpg(每加侖公里數)的具體數值. 這時我們需要啟用或掛
接(attach)資料集mtcars. 命令

> attach(mtcars)

資料的屬性分析

變數cyl(汽缸數)為屬性變數, 命令

> table(cyl)

告訴我們變數cyl取3個值：4，6，8，相應的頻數為11, 7, 14. 而命令

> barplot(table(cyl))

> barplot

顯示了cyl的頻數直方圖. 要注意的是, 命令

> barplot(cyl)

> barplot

在此不適用, 它僅適用於數值型變數.

數值型資料的分析

統計分析中主要涉及數值型資料. 對此我們可考查它們的圖形特徵及常用
的特徵量.

畫莖葉圖(stem-and-leaf plot), 命令為

> stem(mpg)

  10 | 44
  12 | 3
  14 | 3702258
  16 | 438
  18 | 17227
  20 | 00445
  22 | 88
  24 | 4
  26 | 03
  28 | 
  30 | 44
  32 | 49

畫直方圖, 命令為

 > hist(mpg)

> hist

畫框須圖(stem-and-leaf plot), 命令為

> boxplot(mpg)

> boxplot

計算平均值, 命令為

>mean(mpg)

計算截去10%的平均值, 命令為

> mean(mpg, trim = .1)

按分組變數cyl計算mpg的分組平均值, 命令為

> tapply(mpg,cyl,mean)

4        6        8 
26.66364 19.74286 15.10000

計算cyl為4的那些mpg的平均值, 命令為
> mean(mpg[cyl == 4])
計算四分位數的極差(interquartile range), 命令為

> IQR(mpg)

計算樣本常用的分位數: 極小、極大、中位數及兩個四分位數, 命令為

> quantile(mpg)
或者
> fivenum(mpg)

計算由向量prob給定的各概率處的樣本分位數, 命令為

> quantile(mpg, probs)

例如probs = c(0.1, 0.5, 99.5)/100. 可見, quantile( )比fivenum( )更
為一般.

計算常用的描述性統計量, 它們分別是最小值(Min.)、第一四分位數(1st
Qu.)、中位數(Median)、平均值(Mean)、第三分位數(3rd Qu.)和最大
值(Max.), 命令為

> summary(mpg)

Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
10.40   15.43   19.20   20.09   22.80   33.90

計算標準差, 命令為

> sd(mpg)

計算中位絕對離差(median absolute deviation), 命令為

> mad(mpg)

尋找二元關係

畫二維散點圖, 例如cyl與mpg的散點圖, 可通過下面的命令得到.

> plot(cyl,mpg)

cyl,mpg

注意: 相仿命令

> plot(hp,mpg)

hp,mpg

可得到hp與mpg的散點圖. 但32個點對應了不同的汽缸, 因此按**cyl為圖
例(不同cyl用不用符號區分)**作出散點圖更清晰, 命令為

> plot(hp,mpg,pch=cyl)
#> legend(250,30,pch=c(4,6,8),
#> legend=c("4 cylinders","6 cylinders","8 cylinders"))
> legend(250,30,pch=c(4,6,8),
legend=c("4 cylinders","6 cylinders","8 cylinders"))

圖例函式legend中的legend引數是必填，是標註每個圖例的名稱的

R語言與統計分析---湯銀才

關於R中的函式或關鍵字元命令 > help(fun) 或 ?fun 會立即顯示名為“fun”函式的幫助頁 > apropos(fun) 或 apropos("fun") 找出所有在名字中含有指定字串“fun”的函式，但只會在被載入

R語言- 基本統計分析

kruskal 最大的 turn clas 技術 ria 大於 stat pair 目的: 　　1.描述性統計分析　　2.頻數表和;列連表　　3.相關系數和協方差　　4.t檢驗　　5.非參數統計在上一節中使用了圖形來探索數據,下一步就是給出具體的數據來描述每個變量

R語言與迴歸分析學習筆記（bootstrap method）

Bootstrap方法在之前的博文《R語言與點估計學習筆記（EM演算法與Bootstrap法）》裡有提到過，簡而言之，bootstrap方法就是重抽樣。為什麼需要bootstrap方法呢？因為bootstrap方法使得我們無需分佈理論的知識也可以進行假

R語言與資料分析之九：時間內序列--HoltWinters指數平滑法

今天繼續就指數平滑法中最複雜的一種時間序列：有增長或者降低趨勢並且存在季節性波動的時間序列的預測演算法即Holt-Winters和大家分享。這種序列可以被分解為水平趨勢部分、季節波動部分，因此這兩個因素應該在演算法中有對應的引數來控制。 Holt-Winters演算法中提供

R語言與資料分析之三：分類演算法2

上期與大家分享的傳統分類演算法都是建立在判別函式的基礎上，通過判別函式值來確定目標樣本所屬的分類，這類演算法有個最基本的假設：線性假設。今天繼續和大家分享下比較現代的分類演算法：決策樹和神經網路。這兩個演算法都來源於人工智慧和機器學習學科。首先和小夥伴介紹下資料探勘領域比

R語言與資料分析之五：主成分分析

主成份分析歷史： Pearson於1901年提出，再由Hotelling（1933）加以發展的一種多變數統計方法。通過析取主成分顯出最大的個別差異，也用來削減迴歸分析和聚類分析中變數的數目，可以使用樣本協方差矩陣或相關係數矩陣作為出發點進行分析。通過對原始變數進行線性組合

R語言大資料分析工具的安裝與應用

實驗名稱 R語言大資料分析工具的安裝與應用專業軟體工程姓名學

R語言數據分析系列之五

r語來看 tab barplot code 繪制 ber map lib R語言數據分析系列之五 —— by comaple.zhang 本節來討論一下R語言的基本圖形展示,先來看一張效果圖吧。這是一張用R語言生成的，虛擬的wordcloud雲圖，詳細

R語言學習-詞頻分析

切分 mov ace pos document segment vector 庫類 con 概念 1、語料庫-Corpus 　　語料庫是我們要分析的所有文檔的集合，就是需要為哪些文檔來做詞頻 2、中文分詞-Chinese Word Segmentation 　　指的是將一個

R語言--時間序列分析步驟

align 如何 -- list arima test bsp nat 建立大白。（1）根據趨勢定差分 plot(lostjob,type="b") 查看圖像總體趨勢，確定如何差分 df1 = diff(lostjob) d=1階差分 s4_df1=diff(df1,

R語言與顯著性檢驗學習筆記

sdn view 是否通過相等 oar p值 nor pro 一、何為顯著性檢驗顯著性檢驗的思想十分的簡單，就是認為小概率事件不可能發生。雖然概率論中我們一直強調小概率事件必然發生，但顯著性檢驗還是相信了小概率事件在我做的這一次檢驗中沒有發生。

R語言數據分析過程

ngs sum ade 利用 actor csv 分割 classes mar R語言數據分析前期：預處理過程，供自己查閱，歡迎大家指正。利用R語言導入數據： taobao<-read.csv("taobao.csv",stringsAsFactors = F)

R語言-方差分析

評估 car 方差 bsp rac 一個 grey pla span 方差分析指的是不同變量之間互相影響從而導致結果的變化 1.單因素方差分析: 　　案例:50名患者接受降低膽固醇治療的藥物,其中三種治療條件使用藥物相同(20mg一天一次,10mg一天兩次,5mg一天四次)

R語言速成實戰 R語言數據分析實戰

賬號 learning 標準博客系統高可用 style elastics security 設計詳情請交流 QQ 709639943 00、R語言速成實戰 00、R語言數據分析實戰 00、Python+Django+Ansible Playbook自動化運

R語言-主成分分析

方法 var warning 參數使用 with pro null 圖形 1.PCA 使用場景:主成分分析是一種數據降維,可以將大量的相關變量轉換成一組很少的不相關的變量,這些無關變量稱為主成分　　步驟: 數據預處理(保證數據中沒有缺失值) 選擇因子模型(判斷是PCA

（數據科學學習手劄19）R中基本統計分析技巧總結

misc 總結 4.6 內部 red margin adjust 條件置信區間在獲取數據，並且完成數據的清洗之後，首要的事就是對整個數據集進行探索性的研究，這個過程中會利用到各種描述性統計量和推斷性統計量來初探變量間和變量內部的基本關系，本篇筆者便基於R，對一些常用的數

R語言與.net 集成開發入門

from test args enc cannot nbsp 控制 instance pre 首先：R語言的基本教程： https://www.yiibai.com/r/r_environment_setup.html 下載R語言的安裝包：https://cran.r-pr

R語言——電視劇資料分析

對如下資料進行描述性分析，其中包括：最大值，最小值，中位數，眾數等，求表的行數、列數。讀入資料 > mydata<-read.csv("C:\\Users\\adwar\\Desktop\\soapdata.csv") 求表的行數： >

R語言學習-第三課-R語言與MATLAB程式設計比較

求餘 y = 5 ; x = 2; y%%x = 1; matlab mod(y,x); R　　　　y%%x; 取行數 matlab size(m,1); R　　　　nrow(m); 重複矩陣 1 2 3

R 語言主成分分析案例demo

某市13個工業部門8個指標的案例； # Title : TODO # Objective : TODO # Created by: fuguowen # Created on: 2018/12/4 #讀取資料 hangye<-read.table("1.txt"); print(h

R語言與統計分析---湯銀才

關於R中的函式或關鍵字元

得到名為“fun”函式的自變數列表.

資料的瀏覽與編輯

資料的屬性分析

數值型資料的分析

尋找二元關係

相關推薦