1. 程式人生 > >第二課:概率論

第二課:概率論

一、生成模型 與 判別模型的區別


判別模型 is better than 生成模型;

二、評估模型表現的指標 ROC

當資料label不平衡時,無法用“準確率”來評估模型表現,此時,可以用ROC,評估模型表現:

ROC曲線繪製步驟:分別取若干比重的data計算TPR和FPR,每個比重的data均可得到一個point,將這些point連線即為ROC曲線。
得到ROC曲線,即可根據AUC(area under curve)來評估模型表現的優劣,AUC越接近1,其表現越好,越接近0.5,表明其prediction為random 行為,表現很差。值得注意的是:當AUC接近0時,也可以說模型表現很好,因為只要把prediction的label對調,其準確率就會很高。

除用ROC評估模型表現外,也可以用recall-precision 曲線來評估模型表現,同樣的,曲線面積越大,說明模型表現越好,如下圖所示:

三、離散變數和連續變數 P(x)=0是不是一定不可能發生?

對於“離散變數”,P(x)=0是一定不可能發生的;
但是,對於“連續變數”,P(x)=0是可能發生的;

四、COV 和 COR 都是線性相關的 表徵量


五、蒙特卡羅 方法

基本思想:當所求解問題是某種隨機事件出現的概率,或者是某個隨機變數的期望值時,通過某種“實驗”的方法,以這種事件出現的頻率估計這一隨機事件的概率,或者得到這個隨機變數的某些數字特徵,並將其作為問題的解。

六、資訊理論


  • KL DIVERGENCE
  • 互資訊
    互資訊可以表徵兩個特徵的相關性,當互資訊=0,說明兩個特徵互相獨立。