資料分析:分析性圖表
·ANALYTIC GRAPHS分析性圖表:
塔夫特的基本原則:
- 明確參照物Show comparisons 這一點基本是 所有科學的一個基本思想,也就是支援某一假設或某個對世界的思考之證據,一定與另一個假設是相對的 , 證據總是相對的。
箱線圖 (boxplot)
-
體現出因果關係或機制 Show causality, mechanism, explanation, systematic structure: 闡明其系統結構,因果關係並非是形式上的,而是你的認識 你對世界執行方式的看法
-
展示多元資料 (multivariate data)
-
整合你所擁有的證據 Integration of evidence :基本思路是,用盡可能多的方式展現證據
-
第五條原則是對你所呈現的證據進行描述和文件化,打上標籤 標記好來源:
Describe and document the evidence with appropriate labels, scales, sources, etc
- 你使用的資料是任何圖表裡最重要的元素:
Content is king
構建圖表的意義有:
- 理解資料的性質data properties
- 從資料的基本模式中尋找合適的模式patterns
- 提出一些建模策略modeling strategies, 比如我們要使用線性還是非線性模型
- 找出分析中的錯誤 "debug"
- 以圖表的形式向別人展示一些資訊 To communicate results
·一維的資料理解資料的步驟有:
Five-number summary
summary(data)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.38 8.55 10.00 9.84 11.40 18.40
Boxplots (箱型圖):也可以在箱型圖上新增不同的線來。
boxplot(pollution$pm25, col = "blue")
Histograms (直方圖)
hist(pollution$pm25, col = "green") rug(pollution$pm25)
Density plot (密度估計)
Barplot
barplot(table(pollution$region), col = "wheat", main = "Number of Counties in Each Region")
二維的
Multiple/overlayed :1-D plots (Lattice/ggplot2)
Multiple Boxplots ;Multiple Boxplots
Scatterplots :Multiple Scatterplots Multiple Scatt
Using Color
#Scatterplot Scatterplot
with(pollution, plot(latitude, pm25))
abline(h = 12, lwd = 2, lty = 2)
Smooth scatterplots
總結:
利用 R 繪製資料的一維和二維圖,還有利用顏色和圖表組合,做出比二維圖更好的三維圖。首先 這些探索性圖表通常都是 “快速而粗略” 的,注意 我沒有在調整座標軸與設定標註上花任何時間。大多數時候,我僅僅是用 R 中的預設值,但是探索性圖表的一個優點就是:可以讓你彙總資料,並且突出資料中一些可能會感興趣的廣泛特點,你可以探索一些基本的問題和假設。這些圖也為下一步研究 如更多的詳細分析和模型擬合,提供了有用的模型策略