1. 程式人生 > >統計學之基礎知識(資料分析準備)

統計學之基礎知識(資料分析準備)

寫在前面:資料分析的真正目的是從資料中找出規律,從資料中尋找啟發,而不是尋找支援。

一、導論

       統計學是一門收集、處理、分析、解釋資料並從資料中得出結論的科學。分為描述性統計和推斷性統計。應用領域有:企業發展戰略、產品質量管理、市場研究、財務分析、經濟預測、人力資源管理等。

       統計資料的型別:

  • 按計量尺度:分類資料、順序資料和數值型資料。
  • 按收集方法:觀測資料、實驗資料。
  • 按時間狀況:截面資料、時間序列資料。

資料來源一般分為間接來源(即原始資料已經存在,只需對其進行重新加工整理即可)和直接來源(需要通過調查和實驗的方法來獲得)。其中調查方法又分為概率抽樣和非概率抽樣:

  • 概率抽樣:
    • 簡單隨機抽樣;
    • 分層抽樣;
    • 整群抽樣(先將總體中若干個單位合併為組,這樣的組稱為群,再直接對群進行抽樣);
    • 系統抽樣(將總體中所有單位按一定順序排列,在規定的範圍內隨機抽取一個單位作為初始單位,然後再按事先指定好的規則確定其他樣本單位);
    • 多階段抽樣(先抽群,然後在群內進行二階段抽樣)。
  • 非概率抽樣:
    • 方便抽樣(依據方便原則自行確定);
    • 判斷抽樣(依據專業知識進行判斷);
    • 自願樣本(調查者自願參加);
    • 滾雪球樣本(類似樹結構);
    • 配額樣本(類似分層抽樣);
  • 兩者之間的比較:
    • 非概率抽樣適合探索性的研究,為更深入的資料分析做準備,特點是操作簡便、時效快、成本低。而且對於抽樣中的統計專業技術要求不是很高;
    • 概率抽樣的技術含量更高,調查成本更高,統計學專業知識要求更高,適合調查目的為研究物件總體,得到總體引數的置信區間。

在蒐集資料時可能會遇到抽樣誤差和非抽樣誤差。其中抽樣誤差所描述的是所有樣本可能的結果與總體真值之間的平均差異;非抽樣誤差則主要有以下幾種型別:抽樣框誤差、回答誤差、無回答誤差、調查員誤差以及測量誤差等。

關於資料的整理與展示:

  • 分類資料——指標有頻數、頻數分佈、比率、比例;圖形有條形圖、帕累託圖、餅圖、環形圖等。
  • 順序資料——指標有累積頻數和累積頻率;可以繪製累積頻數分佈或頻率圖。
  • 數值型資料——除了前兩種型別的圖,還有直方圖、莖葉圖和箱線圖。
  • 時間序列資料——線形圖。
  • 多變數資料圖示——散點圖、氣泡圖、雷達圖。

二、資料的概括性度量

1、集中趨勢的度量

       分類資料——眾數;

       順序資料——中位數和分位數;

       數值型資料——平均數。其中幾何平均數是使用特殊資料的一種平均數,主要用於計算平均比率。

       眾數只有在資料量很多的時候才有意義,當資料量較少時,不宜使用眾數。當一組資料的分佈偏斜程度較大時(信貸資料),使用中位數是一個較好的選擇。當資料呈對稱分佈時,適合使用平均數,當資料為偏態分佈時,特別是偏斜程度較大時,選擇中位數或眾數的代表性要比平均數好。

2、離散程度的度量

(1)分類資料

       異眾比率——指非眾陣列的頻數佔總頻數的比率:

其中fm為眾陣列的頻數。異眾比率越大,說明非眾陣列的頻數佔比越大,即眾數的代表性越差,反之則反。

(2)順序資料

       四分位數——上四分位數與下四分位數之差。用來衡量離散程度,數值越小,說明中間的資料越集中。

(3)數值型資料

       極差、方差、標準差。

(4)相對位置的度量

       標準分數——變數值與其平均值的離差除以標準差後的值。

       切比雪夫不等式——適用於任何分佈形態的資料,其提供的是下界,即所佔比例至少是多少。根據不等式,至少有(1-1/k2)的資料落在k個標準差內,其中k是任意大於1的值,但不一定是整數:

  • 至少有75%的資料落在平均數2個標準差內;
  • 至少有89%的資料落在平均數3個標準差內;
  • 至少有94%的資料落在平均數4個標準差內。

(5)相對離散程度的度量

       離散係數——指一組資料的標準差與其相應的平均數之比。

離散係數越大,說明資料的離散程度越大;反之則反。

(6)偏態及其測度

       偏態是對資料對稱性的測度,統計量為偏態係數(SK):

其中s3是樣本標準差的3次方。

       若資料對稱,則SK=0;當SK大於1或小於-1時,稱為高度偏態分佈;0.5~1或-1~-0.5時,為中等偏態分佈;越接近於0,偏斜程度就越小。

       偏態係數為正值,但數值不是很大,說明為右偏分佈。

(7)峰態及其測度

       當K>0時為尖峰分佈。