機器學習種9種常用演算法

阿新 • • 發佈：2018-12-30

一、常見演算法分類

分類方法
- KNN
- 邏輯斯蒂迴歸(logiscic)
- 決策樹
- 樸素貝葉斯
- 支援向量機SVC

from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC

迴歸方法
- KNN
- 普通線性迴歸(linear)
- 嶺迴歸(ridge)
- lasso迴歸
- 決策樹
- 支援向量機SVR

from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.tree import DecisionTreeRegressor
from sklearn.svm import SVR

聚類方法
- K均值演算法（K-means）（無監督學習）

from sklearn.cluster import KMeans

二、演算法說明

1.KNN演算法

kNN演算法又稱為k近鄰分類(k-nearest neighbor classification)演算法。是從訓練集中找到和新資料最接近的k條記錄，然後根據他們的主要分類來決定新資料的類別。

該演算法涉及3個主要因素：訓練集、距離或相似的衡量、k的大小。

優點

簡單，易於理解，易於實現，無需估計引數，無需訓練

適合對稀有事件進行分類（例如當流失率很低時，比如低於0.5%，構造流失預測模型）

特別適合於多分類問題(multi-modal,物件具有多個類別標籤)，例如根據基因特徵來判斷其功能分類，kNN比SVM的表現要好

缺點

懶惰演算法，對測試樣本分類時的計算量大，記憶體開銷大，評分慢

可解釋性較差，無法給出決策樹那樣的規則。

使用

#1.匯入：
分類問題：
from sklearn.neighbors import KNeighborsClassifier
迴歸問題：
from sklearn.neighbors import KNeighborsRegressor

#2.建立模型
knnclf = KNeighborsClassifier(n_neighbors=5)
knnrgr = KNeighborsRegressor(n_neighbors=3)

#3.訓練
knnclf.fit(X_train,y_train)

#4.預測
y_pre = knnclf.predict(x_test)

練習案例
- 分類：處理鳶尾花資料、人類動作識別、預測年收入、手寫數字識別
- 迴歸：人臉補全

2.普通線性迴歸：linear

線性迴歸由兩個片語成的：線性和迴歸。線性用來描述變數X（variable 或predictor或feature）的係數與響應Y（response）之間的關係是線性的。迴歸說明它的響應是定量（quantitative）的，而不是定性（qualitative）的。

使用

#1.匯入
from sklearn.linear_model import LinearRegression
#2.建立模型
line = LinearRegression()
#3.訓練
line.fit(X_train,y_train)
#4.預測
y_pre= line.predict(x_test)

案例：
- 波士頓房價預測
- 預測鮑魚年齡
- 人臉補全

3.嶺迴歸：ridge

定義

嶺迴歸(英文名：ridge regression, Tikhonov regularization)是一種專用於共線性資料分析的有偏估計迴歸方法，實質上是一種改良的最小二乘估計法，通過放棄最小二乘法的無偏性，以損失部分資訊、降低精度為代價獲得迴歸係數更為符合實際、更可靠的迴歸方法，對病態資料的擬合要強於最小二乘法。

嶺迴歸是加了二階正則項的最小二乘，主要適用於過擬合嚴重或各變數之間存在多重共線性的時候，嶺迴歸是有bias的，這裡的bias是為了讓variance更小

歸納總結

1.嶺迴歸可以解決特徵數量比樣本量多的問題
2.嶺迴歸作為一種縮減演算法可以判斷哪些特徵重要或者不重要，有點類似於降維的效果
3.縮減演算法可以看作是對一個模型增加偏差的同時減少方差

嶺迴歸用於處理下面兩類問題：

1.資料點少於變數個數
2.變數間存在共線性（最小二乘迴歸得到的係數不穩定，方差很大）

使用

#1.匯入
from sklearn.linear_model import Ridge
#2.建立模型
# alpha就是縮減係數lambda
# 如果把alpha設定為0，就是普通線性迴歸
ridge = Ridge(alpha=0)
#3.訓練
#4.預測

4.lasso迴歸

說明

該方法是一種壓縮估計。它通過構造一個罰函式得到一個較為精煉的模型，使得它壓縮一些係數，同時設定一些係數為零。因此保留了子集收縮的優點，是一種處理具有復共線性資料的有偏估計。
使用

#1.匯入
from sklearn.linear_model import Lasso
#2.建立模型
las = Lasso(alpha=0.0001)
#3.訓練
#4.預測

案例
- 波士頓房價預測
- 預測鮑魚年齡
- 人臉補全

5.邏輯斯蒂迴歸:logistic

說明

利用Logistics迴歸進行分類的主要思想是：根據現有資料對分類邊界線建立迴歸公式，以此進行分類。這裡的“迴歸” 一詞源於最佳擬合，表示要找到最佳擬合引數集。

訓練分類器時的做法就是尋找最佳擬合引數，使用的是最優化演算法。接下來介紹這個二值型輸出分類器的數學原理

Logistic Regression和Linear Regression的原理是相似的，可以簡單的描述為這樣的過程：

（1）找一個合適的預測函式，一般表示為h函式，該函式就是我們需要找的分類函式，它用來預測輸入資料的判斷結果。這個過程是非常關鍵的，需要對資料有一定的瞭解或分析，知道或者猜測預測函式的“大概”形式，比如是線性函式還是非線性函式。

（2）構造一個Cost函式（損失函式），該函式表示預測的輸出（h）與訓練資料類別（y）之間的偏差，可以是二者之間的差（h-y）或者是其他的形式。綜合考慮所有訓練資料的“損失”，將Cost求和或者求平均，記為J(θ)函式，表示所有訓練資料預測值與實際類別的偏差。

（3）顯然，J(θ)函式的值越小表示預測函式越準確（即h函式越準確），所以這一步需要做的是找到J(θ)函式的最小值。找函式的最小值有不同的方法，Logistic Regression實現時有梯度下降法（Gradient Descent）。

使用

#1.匯入
from sklearn.linear_model import LogisticRegression

#2.建立模型
logistic = LogisticRegression(solver='lbfgs')

#solver引數的選擇：
“liblinear”：小數量級的資料集
“lbfgs”, “sag” or “newton-cg”：大數量級的資料集以及多分類問題
“sag”：極大的資料集

#3.訓練

#4.預測

案例
- 手寫數字集分類
- make_blobs聚類資料進行分類
- 預測年收入是否大於50K美元
- 從疝氣病症預測病馬的死亡率
6.決策樹
說明

決策樹（decision tree）是一個樹結構（可以是二叉樹或非二叉樹）。其每個非葉節點表示一個特徵屬性上的測試，每個分支代表這個特徵屬性在某個值域上的輸出，而每個葉節點存放一個類別。使用決策樹進行決策的過程就是從根節點開始，測試待分類項中相應的特徵屬性，並按照其值選擇輸出分支，直到到達葉子節點，將葉子節點存放的類別作為決策結果。

分類解決離散問題，迴歸解決連續問題
#1.匯入
分類：from sklearn.tree import DecisionTreeClassifier
迴歸：from sklearn.tree import DecisionTreeRegressor
#2.建立模型
#  max_depth 整數型別，決定對多少個數據特徵做分裂
tree = DecisionTreeClassifier(max_depth=5)
tree = DecisionTreeRegressor(max_depth=5)
#3.訓練
#4.預測

案例
- 處理鳶尾花資料
- 預測隱形眼鏡型別
- 處理make_blobs聚類資料
7.樸素貝葉斯

這裡寫圖片描述

優點：
- 樸素貝葉斯模型發源於古典數學理論，有著堅實的數學基礎，以及穩定的分類效率；
- 對小規模的資料表現很好；
- 能處理多分類任務，適合增量式訓練；
- 對缺失資料不太敏感，演算法也比較簡單，常用於文字分類
缺點：
- 只能用於分類問題
- 需要計算先驗概率；
- 分類決策存在錯誤率；
- 對輸入資料的表達形式很敏感
1、高斯分佈樸素貝葉斯
應用場景
- 高斯分佈就是正態分佈
- 用於一般分類問題
使用

#1.匯入
from sklearn.naive_bayes import GaussianNB
#2.建立模型
gNB = GaussianNB()
#3.訓練
gNB.fit(data,target)
#4.預測
y_pre = gNB.predict(x_test)

2、多項式分佈樸素貝葉斯

應用場景
- 適用於文字資料（特徵表示的是次數，例如某個詞語的出現次數）
使用

#1.匯入
from sklearn.naive_bayes import MultinomialNB

#2.建立模型
mNB = MultinomialNB()

#3.字符集轉換為詞頻
from sklearn.feature_extraction.text import TfidfVectorizer
#先構建TfidfVectorizer物件
tf = TfidfVectorizer()
#使用要轉換的資料集和標籤集對tf物件進行訓練
tf.fit(X_train,y_train)
#文字集 ---->  詞頻集
X_train_tf = tf.transform(X_train)

#4.使用詞頻集對機器學習模型進行訓練
mNB.fit(X_train_tf,y_train)

#5.預測

#將字符集轉化為詞頻集
x_test = tf.transform(test_str)
#預測
mNB.predict(x_test)

案例：垃圾簡訊過濾

3、伯努利分佈樸素貝葉斯

應用場景
- 適用於伯努利分佈，也適用於文字資料（此時特徵表示的是是否出現，例如某個詞語的出現為1，不出現為0）
- 絕大多數情況下表現不如多項式分佈，但有的時候伯努利分佈表現得要比多項式分佈要好，尤其是對於小數量級的文字資料
使用

#1.匯入
from sklearn.naive_bayes import BernoulliNB

#2.建立模型
bNB = BernoulliNB()

#3.將字符集轉詞頻集
from sklearn.feature_extraction.text import TfidfVectorizer
tf = TfidfVectorizer()
tf.fit(X_train,y_train)
X_train_tf = tf.transform(X_train)

#4.訓練
bNB.fit(X_train_tf,y_train)

#5.預測
#將字符集轉化為詞頻集
x_test = tf.transform(test_str)
#預測
bNB.predict(x_test)

案例
- 高斯分佈：普通分類（鳶尾花）
- 多項式分佈、伯努利分佈：文字處理（垃圾簡訊、垃圾郵件過濾）

8.支援向量機SVM

原理

解決的問題：

1.線性分類

在訓練資料中，每個資料都有n個的屬性和一個二類類別標誌，我們可以認為這些資料在一個n維空間裡。我們的目標是找到一個n-1維的超平面（hyperplane），這個超平面可以將資料分成兩部分，每部分資料都屬於同一個類別。其實這樣的超平面有很多，我們要找到一個最佳的。因此，增加一個約束條件：這個超平面到每邊最近資料點的距離是最大的。也成為最大間隔超平面（maximum-margin hyperplane）。這個分類器也成為最大間隔分類器（maximum-margin classifier）。支援向量機是一個二類分類器。

2.非線性分類

SVM的一個優勢是支援非線性分類。它結合使用拉格朗日乘子法和KKT條件，以及核函式可以產生非線性分類器。
SVM的目的是要找到一個線性分類的最佳超平面 f(x)=xw+b=0。求 w 和 b。

首先通過兩個分類的最近點，找到f(x)的約束條件。
有了約束條件，就可以通過拉格朗日乘子法和KKT條件來求解，這時，問題變成了求拉格朗日乘子αi 和 b。
對於異常點的情況，加入鬆弛變數ξ來處理。
非線性分類的問題：對映到高維度、使用核函式。

線性分類及其約束條件：
SVM的解決問題的思路是找到離超平面的最近點，通過其約束條件求出最優解。

使用

#1.匯入
處理分類問題：
from sklearn.svm import SVC
處理迴歸問題：
from sklearn.svm import SVR
#2.建立模型（迴歸時使用SVR)
svc = SVC(kernel='linear')
svc = SVC(kernel='rbf')
svc = SVC(kernel='poly')
#3.訓練
svc_linear.fit(X_train,y_train)
svc_rbf.fit(X_train,y_train)
svc_poly.fit(X_train,y_train)
#4.預測
linear_y_ = svc_linear.predict(x_test)
rbf_y_ = svc_rbf.predict(x_test)
poly_y_ = svc_poly.predict(x_test)

9.K均值演算法（K-means）

原理
- 聚類的概念：一種無監督的學習，事先不知道類別，自動將相似的物件歸到同一個簇中。
- K-Means演算法是一種聚類分析（cluster analysis）的演算法，其主要是來計算資料聚集的演算法，主要通過不斷地取離種子點最近均值的演算法。
使用

#1.匯入
from sklearn.cluster import KMeans

#2.建立模型
# 構建機器學習物件kemans，指定要分類的個數
kmean = KMeans(n_clusters=2)

#3.訓練資料
# 注意：聚類演算法是沒有y_train的
kmean.fit(X_train)

#4.預測資料
y_pre = kmean.predict(X_train)

例項
- 中國足球定位
- 圖片壓縮

機器學習種9種常用演算法

一、常見演算法分類分類方法 KNN 邏輯斯蒂迴歸(logiscic) 決策樹樸素貝葉斯支援向量機SVC from sklearn.neighbors import KNeighborsClassifier from sklearn.linea

機器學習的9個基礎概念和10種基本算法總結

分割比例 ssi 進一步 erro 所有方程相互區間 https://blog.csdn.net/libaqiangdeliba/article/details/41901387 1.基礎概念：　　(1) 10折交叉驗證：英文名是10-fold cross-v

機器學習的13種演算法和4種學習方法，推薦給大家

機器學習的演算法很多。很多時候困惑人們都是，很多演算法是一類演算法，而有些演算法又是從其他演算法中延伸出來的。這裡，我們從兩個方面來給大家介紹，第一個方面是學習的方式，第二個方面是演算法的分類。一、4大主要學習方式 1.監督式學習在監督式學習下，輸入資料被稱為“訓練資料”，

【機器學習】8種常見機器學習演算法比較

8種常見機器學習演算法比較簡介機器學習演算法太多了，分類、迴歸、聚類、推薦、影象識別領域等等，要想找到一個合適演算法真的不容易，所以在實際應用中，我們一般都是採用啟發式學習方式來實驗。通常最開始我們都會選擇大家普遍認同的演算法，諸如SVM，GBDT，Adaboost，現在深度學習很火熱，

機器學習：幾種分類識別問題

分類和識別是機器學習領域非常常見的一類問題，比如之前非常火熱的 ImageNet 挑戰賽，還有人臉識別，人臉表情識別等，接觸機器學習的一般來說，都是從識別開始，因為識別比較簡單直觀，而且大家都對目前識別領域比較常見的幾個資料集比如 MNIST, CIFAR-10, CIFAR-100 還

【機器學習】5種距離度量方法詳解+Python實現([]+lambda+np.frompyfunc+向量法等多種方法實現)

介紹的五種距離度量方法是：歐氏距離(Euclidean Distance)，曼哈頓距離(Manhattan Distance)，夾角餘弦(Angle Cosine)，切比雪夫距離(Chebyshev Distance)，漢明距離(Hamming Distance)。1.歐式距

（轉）機器學習的幾種劃分

本文轉發自： https://blog.csdn.net/keycxl/article/details/78625943 一.生成模型與判別模型詳細對比： http://blog.csdn.net/zouxy09/article/details/8195017 其中：　　常見的判別式

機器學習——對三種模式的看法

“從樣例學習” （1）監督學習 1.分類 2.迴歸（2）非監督學習 1.聚類 “從樣例學習”：（歸納學習）歸納（induction）從特殊到一般，和演繹（deduction）從一般到特殊，是科學的兩大基本推理手段。歸納是從特

關於機器學習中的一些常用方法的補充

機器學習 k近鄰 apriori pagerank前言機器學習相關算法數量龐大，很難一一窮盡，網上有好事之人也評選了相關所謂十大算法（可能排名不分先後），它們分別是： 1. 決策樹2. 隨機森林算法3. 邏輯回歸4. 支持向量機5. 樸素貝葉斯6

吳恩達機器學習筆記 —— 9 神經網絡學習

滿了線性回歸復雜 amp 技術分享 tps 機器神經網絡前饋型神經網絡本章講述了神經網絡的起源與神經元模型，並且描述了前饋型神經網絡的構造。更多內容參考機器學習&深度學習在傳統的線性回歸或者邏輯回歸中，如果特征很多，想要手動組合很多有效的特征是不

基於機器學習的可擴充套件HCGraph演算法

HCGraph 是Leviatom網路的核心演算法。在前面的文章中, 我們介紹過該演算法利用Gossip 協議族構建全網信任模型。HCGraph利用類似於HashGraph的Gossip以及Gossip about Gossip協議來實現高效的信任關係傳遞。利用該協議，我們可以在獲得一個比

機器學習的分類與主要演算法對比

重要引用：Andrew Ng Courera Machine Learning；從機器學習談起；關於機器學習的討論；機器學習常見演算法分類彙總；LeNet Homepage；pluskid svm 　　首先讓我們瞻仰一下當今機器學習領域的執牛耳者：　　這幅圖上的三人是當今機器學習界的

機器學習實戰——利用AdaBoost元演算法提高分類效能實現記錄

問題：TypeError: __new__() takes from 2 to 4 positional arguments but 6 were given def loadSimpData(): datMat = matrix([1. ,2.1],

python實現西瓜書《機器學習》習題5.5BP演算法

慣例，首先對原始碼致以崇高的感謝和敬意：https://blog.csdn.net/Snoopy_Yuan/article/details/70230862 學習神經網路，pybrain是個好東東，上鍊接http://pybrain.org/docs/index.html#installat

機器學習——樸素貝葉斯演算法

概率定義為一件事情發生的可能性概率分為聯合概率和條件概率聯合概率:包含多個條件，且所有條件同時成立的概率記作:P(A,B) P(A,B)=P(A)P(B) 條件概率:就是事件A在另外一個事件B已經發生的條件概率記作:P(A|B)

機器學習（十）優化演算法利器之梯度下降（Gradient Descend）

理解：機器學習各種演算法的求解最終出來的幾乎都是求解最優模型引數的優化問題。前言在優化問題領域有些很多優秀思想和演算法，從約束條件分類分為無約束條件的優化和有約束條件的優化問題，有約束條

深度學習之目標檢測常用演算法原理+實踐精講

第1章課程介紹本章節主要介紹課程的主要內容、核心知識點、課程涉及到的應用案例、深度學習演算法設計通用流程、適應人群、學習本門課程的前置條件、學習後達到的效果等，幫助大家從整體上了解本門課程的整體脈絡。第2章目標檢測演算法基礎介紹本章節主要介紹目標檢測演算法的基本概念、傳統的目標檢測演算法、目前深度學習

機器學習——樸素貝葉斯演算法Python實現

簡介這裡參考《統計學習方法》李航編進行學習總結。詳細演算法介紹參見書籍，這裡只說明關鍵內容。即條件獨立下：p{X=x|Y=y}=p{X1=x1|Y=y} * p{X2=x2|Y=y} *...* p{Xn=xn|Y=y} （4.4）等價於p{Y=ck|X=x

【機器學習實戰】FP-growth演算法詳解

Here is code 背景 apriori演算法需要多次掃描資料，I/O 大大降低了時間效率 1. fp-tree資料結構 1> 項頭表記錄所有的1項頻繁集出現的次數，並降序排列 2> fp tree 根據項頭表，構建fp樹 3>

機器學習樸素貝葉斯演算法

樸素貝葉斯屬於監督學習的生成模型，實現簡單，沒有迭代，學習效率高，在大樣本量下會有較好表現。但因為假設太強——特徵條件獨立，在輸入向量的特徵條件有關聯的場景下，並不適用。樸素貝葉斯演算法：主要思路是通過聯合概率建模，運用貝葉斯定理求解後驗概率;將後驗概率最大者對應的類別作

機器學習種9種常用演算法

一、常見演算法分類

二、演算法說明

1.KNN演算法

2.普通線性迴歸：linear

3.嶺迴歸：ridge

4.lasso迴歸

5.邏輯斯蒂迴歸:logistic

6.決策樹

7.樸素貝葉斯

1、高斯分佈樸素貝葉斯

2、多項式分佈樸素貝葉斯

3、伯努利分佈樸素貝葉斯

8.支援向量機SVM

9.K均值演算法（K-means）

相關推薦