andrew ng machine learning week9 異常檢測和推薦系統
異常檢測
概率分布的角度:通過判斷某個樣本的概率分部值和閾值的關系判斷是不是異常樣本
異常檢測的應用:
1. 在線購物網站如何識別異常用戶(欺詐行為或者被盜號)
2. 制造業
3. 檢測計算機的運行情況
高斯分布
高斯分布開發異常檢測算法
步驟
1. 選擇一些異常的特征
2. 計算均值和方差,對於每一個特征來進行計算
在這個三維立體圖中,越高的地方是正常的地方,異常區則是接近平面0的這些點
如何開發一個關於異常檢測的應用
實數評價法的重要性:
不建議把交叉集和測試集混在一起使用
算法的評估過程
常用的查準率和召回率、f1-score
什麽時候用異常檢測什麽時候用監督學習算法
1. 正樣本數目小
2. 大量的負樣本
3. 許多不同的異常類型
如何設計或選擇異常檢測算法的特征變量
非高斯特征變量第二種可以通過轉換的方式轉成鐘型曲線
誤差分析步驟
看看沒能歸為異常的點,看能否啟發創建新的特征變量
選擇特征變量的辦法:
不會特別大也不會特別小的值,或者相互組合形成新的特征變量
多元高斯分布
這個×的兩個P值都在正常範圍內,所以之前的異常檢測算法並不能檢測出這個錯誤的綠×
多元高斯的概率公式
協方差矩陣增大和減小所對應的圖
僅僅減小一個協方差矩陣的變化
增加對角線上的值的變化
設置為負值的變化
改變u值這個圈圈的中心點會移動
多元高斯的自動檢測算法
和原始模型之間的關系
多元高斯函數的協方差矩陣的對角線是特征變量的方差組成,並且其他部分都是0
什麽時候選擇原始什麽時候選擇高斯模型?
原始的模型使用地更多,運算量更小
m 遠遠大於 n 的時候使用多元
協方差矩陣奇異:用於特征項梁或者沒滿足m>>n的條件
推薦算法
基於內容的推薦系統
協同過濾
這個視頻和上一個視頻的區別:
用戶的特征、電影的特征如何結合在一起可以同時地計算出來呢?
一個是對於評價某電影的全部用戶的求和,一個是某個用戶看過的全部電影的求和,也就是所有r(i,j)wei 1de qiuhe
然後就是兩個正則項的相加
初始化
梯度下降法計算參數
協同過濾算法的向量化實現過程
低秩矩陣分解
兩部電影的特征向量非常相似則我們說這兩部電影非常相似
andrew ng machine learning week9 異常檢測和推薦系統