機器學習掌握知識點
阿新 • • 發佈:2018-11-12
一、人工智慧學習演算法分類
人工智慧演算法大體上來說可以分類兩類:基於統計的機器學習演算法(Machine Learning)和深度學習演算法(Deep Learning)
總的來說,在sklearn中機器學習演算法大概的分類如下:
1. 純演算法類
(1).迴歸演算法
(2).分類演算法
(3).聚類演算法
(4)降維演算法
(5)概率圖模型演算法
(6)文字挖掘演算法
(7)優化演算法
(8)深度學習演算法
2.建模方面
(1).模型優化
(2).資料預處理
二、詳細演算法
1.分類演算法
(1).LR (Logistic Regression,邏輯迴歸又叫邏輯分類)
(2).SVM (Support Vector Machine,支援向量機)
(3).NB (Naive Bayes,樸素貝葉斯)
(4).DT (Decision Tree,決策樹)
- 1).C4.5
- 2).ID3
- 3).CART
(5).整合演算法
- 1).Bagging
- 2).Random Forest (隨機森林)
- 3).GB(梯度提升,Gradient boosting)
- 4).GBDT (Gradient Boosting Decision Tree)
- 5).AdaBoost
- 6).Xgboost
(6).最大熵模型
2.迴歸演算法
(1).LR (Linear Regression,線性迴歸)
(2).SVR (支援向量機迴歸)
(3). RR (Ridge Regression,嶺迴歸)
3.聚類演算法
(1).Knn
(2).Kmeans 演算法
(3).層次聚類
(4).密度聚類
4.降維演算法
(1).SGD (隨機梯度下降)
5.概率圖模型演算法
(1).貝葉斯網路
(2).HMM
(3).CRF (條件隨機場)
6.文字挖掘演算法
(1).模型
- 1).LDA (主題生成模型,Latent Dirichlet Allocation)
- 2).最大熵模型
(2).關鍵詞提取
- 1).tf-idf
- 2).bm25
- 3).textrank
- 4).pagerank
- 5).左右熵 :左右熵高的作為關鍵詞
- 6).互資訊:
(3).詞法分析
- 1).分詞
– ①HMM (因馬爾科夫)
– ②CRF (條件隨機場) - 2).詞性標註
- 3).命名實體識別
(4).句法分析
- 1).句法結構分析
- 2).依存句法分析
(5).文字向量化
- 1).tf-idf
- 2).word2vec
- 3).doc2vec
- 4).cw2vec
(6).距離計算
- 1).歐氏距離
- 2).相似度計算
7.優化演算法
(1).正則化
- 1).L1正則化
- 2).L2正則化
8.深度學習演算法
(1).BP
(2).CNN
(3).DNN
(3).RNN
(4).LSTM
三、建模方面
1.模型優化·
- (1).特徵選擇
- (2).梯度下降
- (3).交叉驗證
- (4).引數調優
- (5).模型評估:準確率、召回率、F1、AUC、ROC、損失函式
2.資料預處理
- (1).標準化
- (2).異常值處理
- (3).二值化
- (4).缺失值填充: 支援均值、中位數、特定值補差、多重插補