1. 程式人生 > >統計學方法與資料分析學習筆記1

統計學方法與資料分析學習筆記1

用於質量改進和再造工程的統計工具、技術和方法:

直方圖

數值描述量(均值、標準差、比例等)

散點圖

線圖(在散點圖中用線連線各點)

控制圖:(樣本均值),r(樣本極差),及s(樣本標準差)

抽樣方案

試驗設計

收集資料要有意識的做好以下幾步:

詳細說明研究、調查或試驗的目標

確定所關心的變數

為調查或科學研究選擇適當的設計方案

收集資料

抽樣的方法:

簡單隨機抽樣

分層隨機抽樣

比估計

整體抽樣

系統抽樣

統計領域可以分為兩個主要分支:描述統計與推斷統計

適當的概括性度量可以為原始測量值的集合提供一幅良好的、粗線條的描繪。通過把一大堆測量值縮減到幾個這樣的描述性統計量,我們可以理解資料所包含的資訊

單個變數的資料數值描述性度量

最常用的兩類數值描述性度量是 中心趨勢度量 和 變異性度量。也就是說,我們希望描述測量值分佈的中心,並弄清測量值是如何相對於分佈中心變化的。為了把總體的數值描述性度量和樣本的數值描述性度量區別開來,稱前者為 引數,後者為 統計量。在統計推斷的有關問題中,不能計算各種引數的數值,但可以計算來自樣本的相應的統計量,並用得到的數值去估計相應的總體引數。

中心趨勢度量

眾數

中位數

算術平均值

均值      是對一組測量值中心的常用的度量,但它會由於在集合中一個或多個極端值的出現而發生失真。在這樣的情況下,極端值(又稱作 離群值)會使均值偏向自己一方以找到資料的平衡點,因此而歪曲了均值最為中心值度量的意義。對均值的一種變通方法是截尾均值,即去掉最大和最小的若干數值,對其餘的數作平均。

記 眾數Mo 中位數Md 均值μ 截尾均值TM

這些中心趨勢度量之間有何聯絡

答案依賴於資料的 偏倚程度(偏度)

 

要記住的重要一點是:我們不能侷限於僅用一種中心趨勢度量。對某些資料集合,有必要用多種度量,才能對資料的中心趨勢做出準確的描述性的概括。

變異性度量:

極差    最大與最小的差值

百分位數    n個按大小排列的測量值集合的p%分位數 是指這樣的一個數值,集合中至多 p%的測量值比它小,有至多(100-p%的測量值比它大。

 

四分位數間距(IQR

指在四分之三和四分之一分數位之間的差異,即

     IQR  =  75%的分位數 - 25%的分位數

離差 (測量值與平均值的差)

方差

標準差

變異係數 標準差/|均值|

參考文獻:

 統計學方法與資料分析 R.L.奧特、M.朗格內克