人工智慧學習清單
阿新 • • 發佈:2019-01-01
知識概念清單
以下內容初學者無視
特徵提取feature extraction
模型評估與選擇
- 測試集與訓練集互斥
- 留出法
- k-折交叉驗證
- 自助法 有放回的取樣
- 調參與最終模型
演算法的引數:超引數(hyper-parameter)人給出
模型的引數:學習得到 - 效能量度(Performance measure)
-
查準率與查全率
12 P=TP/(TP+FP) 準確率 預測正確數中正確數比例R=TP/(TP+TN) 查全率 正確數中預測正確的比例 P與R無法同時達到最大值,二者取捨、偏好權重
PR圖 BEP F1 ROC AUC
線性模型 linear model
- 線性迴歸 linear regression
結果為一個數值
方法:找一個代價函式(衡量擬合程度),通過手段找特定的權重使代價函式值最低 - 邏輯迴歸(分類) logistic regression /對數機率迴歸
結果為0或1(離散個結果) - 梯度下降(gradient descent)——找代價函式(又叫損失函式)最小值以及其對應權重的方法
- 拓展到多類(兩類分類器拓展到多類)
- 類別不平衡(class unbalance)問題
- 過取樣(oversampling)如STOME演算法
- 欠取樣(undersampling)
- 閾值移動 (threshold moving)
決策樹(decision tree)
基於樹結構的分類器
- 決策:分而治之(divide and conquer)
- 停止條件:
- 樣本屬性相同
- 樣本屬於同一類
- 樣本集為空
- 劃分方法:
- 資訊增益(information gain)
- 基尼指數(gini index)
支援向量機
間隔(margin)支援向量(support vector)
最大化分類線與最近樣本直接的間隔
凸二次規劃
對偶問題 拉格朗日函式
Nonlinear SVMs
做一個對映,從而可以線性分類
核函式
- 軟間隔
- 不滿足約束的樣本儘量少
- 凸近似(convex surrogate)
- 正則化(regulariztion)
聚類(clustering)
資料樣本分為多個不想交的簇(cluster)
基本思想:簇內相似度高,簇間相似度低
距離計算(distance measure)
度量學習(metric learning)
- 馬氏距離 各向異性
k均值聚類演算法(k-means)
spectral clustering
Normalized Cut
降維和度量學習
k近鄰分類器
降維(dimension reduction)
主成分分析(Principal Component Analysis)
流形學習(manifold learning)
區域性線性嵌入(Local linear embedding)