1. 程式人生 > >Bayes、KNN、PCA和異常檢測基礎

Bayes、KNN、PCA和異常檢測基礎

Bayes

  • 已知樣本的某些特性,求解該樣本屬於某個類別的後驗概率P(Y|X=x)

  • 先驗概率、條件概率、後驗概率 先驗概率:是指根據以往經驗和分析得到的概率. 後驗概率:事情已經發生,要求這件事情發生的原因是由某個因素引起的可能性的大小

  • 貝葉斯定理: P(A|B)= P(A) * P(B|A) / P(B)

  • 理解: 樸素貝葉斯是有訓練資料學習聯合概率分佈P(X,Y),然後求得後驗概率分佈P(Y|X)。具體說就是 利用訓練集學習條件概率和先驗概率的估計,得到聯合概率分佈: P(X,Y) = P(Y) * P(X|Y) 概率估計的方法是最大似然估計或者貝葉斯估計

  • 推導 看手機圖片

  • 拉普拉斯平滑 用極大似然估計可能會出現要估計的概率為0的情況,可能使分類產生偏差,為解決零概率問題,引入引數lambda (該方法即貝葉斯估計) 當lambda=1時,稱為拉普拉斯平滑,也稱加1平滑。

  • 優缺點 優點:條件獨立性雞舍使條件概率的數量大量減少,簡化了學習過程,易於實現; 缺點:分類效能不一定很高

KNN

  • 原理: K近鄰演算法,即是給定一個訓練資料集,對新的輸入例項,在訓練資料集中找到與該例項最鄰近的K個例項(也就是上面所說的K個鄰居), 這K個例項的多數屬於某個類,就把該輸入例項分類到這個類中。
  • 特點: 1)不具有顯示的學習過程,僅僅利用訓練集對特徵空間劃分,並將其作為分類的‘模型’ 2)由於不需要模型訓練,訓練時間複雜度為0,計算複雜度和訓練集中文件數目成正比,即:如果訓練集中文件總數為n,那麼它的分類時間複雜度為o(n)
  • 基本要素 k值的選擇,距離度量(歐氏距離),分類決策規則
  • k值的選擇 k值過小,意味著整體模型變得複雜,容易過擬合; k值過打,意味著整體模型變得簡單,缺點是學習的近似誤差會增大; 通常採用交叉驗證來選取k值
  • 距離度量: 歐氏距離
  • 分類決策規則: 多數表決,即由輸入例項的k個臨近的訓練例項中的多數類決定輸入例項的類
  • 不足 1)可能會忽略掉樣本容量很小的類 2)計算量大,對每一個待分類的樣本都要計算它到全體已知樣本的距離,才能求得它的K個最近鄰點(線性掃描法找k近鄰,耗時,不推薦)。
  • K近鄰法實現 主要問題在於如何對資料集進行快速的k近鄰搜尋。 推薦搜尋方法:kd樹
  • kd樹(本質是二叉樹) kd樹(K-dimension tree)是一種對k維空間中的例項點進行儲存以便對其進行快速檢索的樹形資料結構。 kd樹是是一種二叉樹,表示對k維空間的一個劃分,構造kd樹相當於不斷地用垂直於座標軸的超平面將K維空間切分
    ,構成一系列的K維超矩形區域。kd樹的每個結點對應於一個k維超矩形區域。利用kd樹可以省去對大部分資料點的搜尋,從而減少搜尋的計算量。

PCA

  • 降維 PCA是一種降維技術,其做法是尋找最小均方誤差下,最能代表原始資料的投影方法。改變了原有的特徵空間。

  • 為什麼正交? 正交是為了資料有效性損失最小 正交的一個原因是特徵值的特徵向量是正交的

  • PCA 優缺點 優點:降低資料的複雜性,識別最重要的多個特徵。 缺點:不一定需要,且可能損失有用資訊。適用資料型別:數值型資料

  • 步驟 PCA的主要步驟有:去均值、求協方差、將協方差特徵分解(奇異值分解)、將特徵值從大到小排序、資料轉換、重構資料。