機器學習-累計分佈函式(CDF)
阿新 • • 發佈:2018-12-31
1.累計分佈函式(The Cumulative Distribution Function):在x點左側事件發生的總和。
累計分佈函式的特性:
①因為累計分佈函式是計算x點左側的點的數量,所以累計分佈函式CDF是單調遞增的。
②CDF比沒有直方圖變化劇烈,但是CDF包含了相同的資訊,並且減少了噪聲。。
③由於CDF不存在裝箱(分段),因此比直方圖能更好的展現資料。
④所有的CDF中,在x趨近-∞時,CDF趨近於0,當x趨近+∞時,CDF趨近與1(100%)
⑤對於給定的資料集,CDF是唯一的
CDF可以看做直方圖的積分,直方圖可以看做是CDF對x的導數。
2 對比概率圖和特定分佈
通過直方圖/KDE和理論的密度函式對比是非常困難的,通過CDF進行對比是一個好點的選擇,但是也不是特別容易。
針對高斯分佈:
取反函式:
因此這個式子是斜率為σ並且截距是μ的一條直線。
針對垂直軸,採用原來資料的單位,針對水平軸x可以稱為概率單位(probits)。
需要生成一個概率圖,不但需要資料本身,還需要知道每一個點xi對應的分位點(quantile)yi。分位點取得方法如下:
①把資料進行升序排列
②分配每個資料的級別(rank),從1開始
③資料的分位點(quantile)yi定義為級別(rank)除以n+1,n是資料的總個數。
以下是例子: