1. 程式人生 > >資料分析:分析性圖表

資料分析:分析性圖表

·ANALYTIC GRAPHS分析性圖表:

塔夫特的基本原則:

  1. 明確參照物Show comparisons 這一點基本是 所有科學的一個基本思想,也就是支援某一假設或某個對世界的思考之證據,一定與另一個假設是相對的 , 證據總是相對的。

    箱線圖 (boxplot)

  2. 體現出因果關係或機制 Show causality, mechanism, explanation, systematic structure:                                闡明其系統結構,因果關係並非是形式上的,而是你的認識 你對世界執行方式的看法

  3. 展示多元資料 (multivariate data)

  4. 整合你所擁有的證據 Integration of evidence :基本思路是,用盡可能多的方式展現證據

  5. 第五條原則是對你所呈現的證據進行描述和文件化,打上標籤 標記好來源:

    Describe and document the evidence with appropriate labels, scales, sources, etc

  6. 你使用的資料是任何圖表裡最重要的元素:

        Content is king 

構建圖表的意義有:

  • 理解資料的性質data properties
  • 從資料的基本模式中尋找合適的模式patterns 
  • 提出一些建模策略modeling strategies, 比如我們要使用線性還是非線性模型
  • 找出分析中的錯誤 "debug"
  • 以圖表的形式向別人展示一些資訊 To communicate results 

·一維的資料理解資料的步驟有:

Five-number summary

summary(data)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.38 8.55 10.00 9.84 11.40 18.40

Boxplots (箱型圖):也可以在箱型圖上新增不同的線來。

boxplot(pollution$pm25, col = "blue")

Histograms (直方圖)

hist(pollution$pm25, col = "green")
rug(pollution$pm25)

Density plot (密度估計)

Barplot

barplot(table(pollution$region), col = "wheat", main = "Number of Counties in Each Region")

二維的

Multiple/overlayed :1-D plots (Lattice/ggplot2)

                                  Multiple Boxplots ;Multiple Boxplots

Scatterplots :Multiple Scatterplots Multiple Scatt

                        Using Color

#Scatterplot Scatterplot
with(pollution, plot(latitude, pm25))
abline(h = 12, lwd = 2, lty = 2)

Smooth scatterplots

總結:

利用 R 繪製資料的一維和二維圖,還有利用顏色和圖表組合,做出比二維圖更好的三維圖。首先 這些探索性圖表通常都是 “快速而粗略” 的,注意 我沒有在調整座標軸與設定標註上花任何時間。大多數時候,我僅僅是用 R 中的預設值,但是探索性圖表的一個優點就是:可以讓你彙總資料,並且突出資料中一些可能會感興趣的廣泛特點,你可以探索一些基本的問題和假設。這些圖也為下一步研究 如更多的詳細分析和模型擬合,提供了有用的模型策略