統計學基礎-可汗學院
統計學1 均值、中位數和眾數
均值:mean 衡量集中趨勢的方法
中位數:median 考慮集中趨勢的另一種方式
眾數:mode 也就是出現頻率最高的數字
例: 找出下列數字集中的均值、中位數與眾數
23、29、20、32、23、21、33、25
Mean: 數字相加/數字總個數 = 206/8 = 25.75
Median: 首先從小到大排序:20、21、23、23、25、29、32、33
然後取中間的數字,因中間有兩個數字,所以取中間兩位的平均數作為中位數:(23+25)/2 = 24
Mode: 所有數字只出現了一次,只有23出現了兩次,所以23就是眾數
統計學2 極差與中程數
極差:range數字越大表示資料之間越分散、越小表示越緊密,用來衡量集中趨勢
中程數:midrange 衡量集中趨勢的另一種方式
例:找出下列數字的極差與中程數
65、81、73、85、94、79、67、83、82
Range: 最大數-最小數=94-65=29
Midrange: 去最大數與最小值的算數平均值=(94+65)/2=79.5
統計學3象形統計圖
Pictograph:象形統計圖 是用象形影象表示資料的一種方式
每一個血滴代表8個人,所以O+=8*8=64;O-=2*8=16
統計學4 條形圖
這是一個雙豎條條形圖,每個學生對應兩個豎條,分別表示期中與期末考試成績
常用語對事物進行分類
通過條形圖我們可以容易的判斷Alejandra進步是最大的
統計學5 線型圖
根據條件描點,然後用直線連線,連線是為了更好的看到變化的趨勢
線形圖一般顯示的是隨時間的趨勢,也可以是一個變數對於兩一個變數的變化趨勢
統計學6 餅圖(pie chart or pie graph)
curise sales: 郵輪銷售
常用於檢視各部分的佔比
統計學7 誤導人的線型圖
1.刻度距離;2.刻度起始位置
統計學8 莖葉圖
Stem-Leaf 莖葉圖
葉代表每位球員得分的個位數字,而莖表示的是十位數字
莖葉圖能夠幫助瞭解分佈情況
列出得分為個位、10-20、20分及20分以上的球員
所有分數相加就是最後的總得分
統計學9 箱線圖
列出的數字是每個顧客到餐館的距離
人們談論中位數和散步情況時,一般用盒須圖,盒須圖會表示出輸出的散佈情況,按照四分位進行劃分,他能顯示出資料的中位數在哪,這正是餐廳老闆想知道的。
盒須圖同中位數有關,首先要排序所有數字,中位數是排序後最中間的數字
排序:1 1 2 2 3 3 4 4 6 7 8 10 11 14 15 20 22
由於是奇位數,所以中位數就是中間數6
確定上四分位:(11+14)/2=12.5
確定下四分位:(2+3)/2=2.5
接下來作盒須圖:確定好起始與結束位置,本題為1--22
統計學10 箱線圖2
根據須(左右兩端須)能看出樹年齡資料的散佈情況。須顯示出所有資料的散佈情況,也就是說年齡最小的樹是8歲(時間軸以年為單位),最大的在最右端,是50歲,所以極差=最大值-最小值=50-8=42。須還告訴我們所有值都落在8和50之間(包括8和50)。
根據盒首先能得到中位數:21,也就是說一半樹的年齡小於中位數,一半樹的年齡大於中位數。
其次,根據盒的兩端,是小於或者大於中位數的資料的中位數,也就是下四分位與上四分位。它們共同把資料分成了四分割槽間:
左端須到下四分位:1Q
下四分位到中位數: 2Q
中位數到上四分位: 3Q
上四分位到右端須: 4Q
中位數作為集中趨勢測量標準,只有21歲,可以看出來,它離盒左側及須左端較近,而離右邊較遠
統計學11 集中趨勢(Central Tendency)
Statistics: 統計學
統計學大體上分為三類:
- 描述性統計學:用部分特徵值來描述整體
- 推論統計學:從樣本中預測
描述性統計學:
常用以下引數來描述總體的或者樣本的集中趨勢:central tendency
均值:Mean
中位數:Medium
眾數:Mode
使用中位數與眾數的情況:存在離散值時更夠更好的反應集中趨勢
統計學12 樣本和總體
Sample: 樣本
Population: 總體
Population Mean:
Sample Mean:
計算方式:注意小n與大N。大N代表總體
統計學13:總體方差
總體均值與樣本均值
離中趨勢衡量:
所以我們來使用方差來衡量離中趨勢
方差公式:每個值與均值的差的平方和然後再除以總數
方差的計算:
首先計算每個值與均值的差的平方和,如下:
然後再除以總數N,最後的記過為0.25
表示,這裡的每個數(2、2、3、3)離均值的距離的平方都是0.25
以同樣的方法計算另一組資料(0、0、5、5)的方差為6.25。表示該組資料離平均值的距離比上一組要遠的多。
統計學14:樣本方差
樣本來估計總體
除以n-1為無偏差樣本估計,估計更準確一些:
統計學15:標準差
首先回顧一下平均數與方差的概念:
標準差=方差的平方根
統計學16:諸方差公式
簡單講解了如何更簡單的求一組資料的方差
統計學17:隨機變數(Random Variable)
隨機變數一般用大寫字母表示
隨機變數分為:離散隨機變數(discrete)和連續隨機變數(continuous)兩種型別
統計學18:概率密度函式
Probability: 概率