統計學方法與資料分析學習筆記1
用於質量改進和再造工程的統計工具、技術和方法:
直方圖
數值描述量(均值、標準差、比例等)
散點圖
線圖(在散點圖中用線連線各點)
控制圖:(樣本均值),r(樣本極差),及s(樣本標準差)
抽樣方案
試驗設計
收集資料要有意識的做好以下幾步:
詳細說明研究、調查或試驗的目標
確定所關心的變數
為調查或科學研究選擇適當的設計方案
收集資料
抽樣的方法:
簡單隨機抽樣
分層隨機抽樣
比估計
整體抽樣
系統抽樣
統計領域可以分為兩個主要分支:描述統計與推斷統計
適當的概括性度量可以為原始測量值的集合提供一幅良好的、粗線條的描繪。通過把一大堆測量值縮減到幾個這樣的描述性統計量,我們可以理解資料所包含的資訊
單個變數的資料數值描述性度量
最常用的兩類數值描述性度量是 中心趨勢度量 和 變異性度量。也就是說,我們希望描述測量值分佈的中心,並弄清測量值是如何相對於分佈中心變化的。為了把總體的數值描述性度量和樣本的數值描述性度量區別開來,稱前者為 引數,後者為 統計量。在統計推斷的有關問題中,不能計算各種引數的數值,但可以計算來自樣本的相應的統計量,並用得到的數值去估計相應的總體引數。
中心趨勢度量
眾數
中位數
算術平均值
均值 是對一組測量值中心的常用的度量,但它會由於在集合中一個或多個極端值的出現而發生失真。在這樣的情況下,極端值(又稱作 離群值)會使均值偏向自己一方以找到資料的平衡點,因此而歪曲了均值最為中心值度量的意義。對均值的一種變通方法是截尾均值,即去掉最大和最小的若干數值,對其餘的數作平均。
記 眾數Mo 中位數Md 均值μ 截尾均值TM
這些中心趨勢度量之間有何聯絡
答案依賴於資料的 偏倚程度(偏度)
要記住的重要一點是:我們不能侷限於僅用一種中心趨勢度量。對某些資料集合,有必要用多種度量,才能對資料的中心趨勢做出準確的描述性的概括。
變異性度量:
極差 最大與最小的差值
百分位數 n個按大小排列的測量值集合的p%分位數 是指這樣的一個數值,集合中至多 p%的測量值比它小,有至多(100-p)%的測量值比它大。
四分位數間距(IQR)
指在四分之三和四分之一分數位之間的差異,即
IQR = 75%的分位數 - 25%的分位數
離差 (測量值與平均值的差)
方差
標準差
變異係數 = 標準差/|均值|
參考文獻:
統計學方法與資料分析 R.L.奧特、M.朗格內克