均值,中位數,正態分佈和Kmeans
阿新 • • 發佈:2019-01-22
均值:
就是最普通的算術平均值,我們在使用該統計量對分佈進行描述的時候是需要資料分佈滿足正態性的,因為只有滿足正態性的時候均值才有意義,輔助理解這個原因,可以想一下為啥mean+/-3std 的區域包含99%以上的樣本點就好了。
中位數:
即中間位置的數,當我們的分佈中有少部分極端值會拉大整體的均值的值的時候,我們可以嘗試使用中位數來表示整個資料的分佈狀態。
Kmeans:
聚類演算法,具體過程如下(CS229-leture-note7a):
第一步是找尋最靠近當前聚類中心的所有樣本點,計算方式歐式距離衡量。
第二步是求取屬於當前簇的樣本點的新的聚類中心,計算方法是當前簇的樣本的均值就是新的聚類中心。
注意這裡是均值,那麼這說明了什麼呢?這說明屬於某個簇的樣本點的集合我們是假設這個集合是服從正態分佈的。
那麼該集合所對應的各個屬性也是需要符合正態分佈的,這意味著什麼呢?這意味著用Kmeans聚類的特徵需要滿足正態分佈。
不滿足的時候,我們需要將其正態化。常用的正態化方法有cox-box方法:
推薦兩篇介紹正態化的文章:
http://mp.weixin.qq.com/s?__biz=MzAxMDA4NjU3OA==&mid=2652548058&idx=1&sn=35f73ef5a627b20c1fd29e3eb3ed8b33&scene=21#wechat_redirect
http://health.sohu.com/20160423/n445811944.shtml