1. 程式人生 > >人工智慧學習清單

人工智慧學習清單

知識概念清單

以下內容初學者無視

特徵提取feature extraction

模型評估與選擇

  1. 測試集與訓練集互斥
    • 留出法
    • k-折交叉驗證
    • 自助法 有放回的取樣
  2. 調參與最終模型
    演算法的引數:超引數(hyper-parameter)人給出
    模型的引數:學習得到
  3. 效能量度(Performance measure)
  4. 查準率與查全率

    12 P=TP/(TP+FP) 準確率 預測正確數中正確數比例R=TP/(TP+TN) 查全率 正確數中預測正確的比例

    P與R無法同時達到最大值,二者取捨、偏好權重
    PR圖 BEP F1 ROC AUC

線性模型 linear model

  • 線性迴歸 linear regression
    結果為一個數值
    方法:找一個代價函式(衡量擬合程度),通過手段找特定的權重使代價函式值最低
  • 邏輯迴歸(分類) logistic regression /對數機率迴歸
    結果為0或1(離散個結果)
  • 梯度下降(gradient descent)——找代價函式(又叫損失函式)最小值以及其對應權重的方法
  • 拓展到多類(兩類分類器拓展到多類)
  • 類別不平衡(class unbalance)問題
    • 過取樣(oversampling)如STOME演算法
    • 欠取樣(undersampling)
    • 閾值移動 (threshold moving)

      決策樹(decision tree)

      基於樹結構的分類器
  • 決策:分而治之(divide and conquer)
  • 停止條件:
    • 樣本屬性相同
    • 樣本屬於同一類
    • 樣本集為空
  • 劃分方法:
    1. 資訊增益(information gain)
    2. 基尼指數(gini index)

      支援向量機

      間隔(margin)支援向量(support vector)
      最大化分類線與最近樣本直接的間隔
      凸二次規劃
      對偶問題 拉格朗日函式

Nonlinear SVMs

做一個對映,從而可以線性分類
核函式

  • 軟間隔
    • 不滿足約束的樣本儘量少
    • 凸近似(convex surrogate)
    • 正則化(regulariztion)

聚類(clustering)

資料樣本分為多個不想交的簇(cluster)
基本思想:簇內相似度高,簇間相似度低
距離計算(distance measure)
度量學習(metric learning)

  • 馬氏距離 各向異性

k均值聚類演算法(k-means)
spectral clustering
Normalized Cut

降維和度量學習

k近鄰分類器
降維(dimension reduction)
主成分分析(Principal Component Analysis)
流形學習(manifold learning)
區域性線性嵌入(Local linear embedding)