機器學習——監督學習幾種經典模型特點

阿新 • • 發佈：2019-01-15

監督學習分為分類學習和迴歸學習，分類即從分類別中選擇一個作為結果，其結果是離散的，迴歸待預測的結果是連續的，迴歸於分類的模型大同小異，這裡只介紹分類學習
分類學習：
1、線性分類器
受限於資料特徵與分類目標之間的線性假設。LogisticRegression採用精確解析的方法，計算時間長、模型效能高，SGDClassifier採用隨機梯度上升的方法，時間短、模型效能略低。如果資料規模在10W以上，考慮到時間的耗用，最好採用後者。
2、支援向量機
其精妙的模型假設，可以讓我們在高維度的資料中，篩選對預測任務最為有效的少數訓練樣本，節省了模型學習所需的資料記憶體，
同時也提高了模型的預測效能，但是佔用更多的CPU資源和計算時間。
3、樸素貝葉斯
樸素貝葉斯模型被應用於海量網際網路文字分類任務。由於其較強的特徵條件獨立假設，使得模型預測所需要估計的引數規模從冪
指數數量級向線性級減少，減少了記憶體和計算時間，模型訓練時無法將各個特徵之間的聯絡考量在內，使得它在資料特徵關聯性
較強的分類任務上表現不佳
4、K臨近
該模型沒有引數訓練的過程，只是根據測試樣本在訓練資料的分佈直接做出來的決策，計算複雜度和記憶體消耗很高。

5、決策樹

方面了模型的視覺化，無須考慮對資料的量化和標準化的，屬於有引數模型，需要花費更多的時間在訓練資料上

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import DictVectorizer
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report

titanic = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')
#特徵選擇
X = titanic[['pclass','age','sex']]
y = titanic['survived']
#print(X.info())
#age需要補全，sex和pclass為類別型，需要轉化為數值特徵，用0/1代替
X['age'].fillna(X['age'].mean(),inplace=True)
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.25,random_state=33)
#特徵轉換
vec = DictVectorizer(sparse=False)
#凡是類別型的特徵都單獨剝離出來，形成一列特徵，數值型保持不變
X_train = vec.fit_transform(X_train.to_dict(orient='record'))
X_test = vec.transform(X_test.to_dict(orient='record'))
model = DecisionTreeClassifier()
model.fit(X_train,y_train)
y_predict = model.predict(X_test)
print(model.score(X_test,y_test))
report = classification_report(y_predict,y_test,target_names=['died', 'survived'])
print(report)

6、整合模型

集合模型整合了多種模型，或者多次就一種型別的模型進行多次建模，模型的估計引數的過程受到概率的影響，具有一定的不確定性，訓練資料需要花費更多的時間，得到的模型更高的表現效能和更好的穩定性。

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import DictVectorizer
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import classification_report
titanic = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')
#特徵選擇
X = titanic[['pclass','age','sex']]
y = titanic['survived']
X['age'].fillna(X['age'].mean(), inplace=True)
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.25,random_state=33)
vec = DictVectorizer(sparse=False)
X_train = vec.fit_transform(X_train.to_dict(orient='record'))
X_test = vec.transform(X_test.to_dict(orient='record'))
#使用單一決策樹
dtc = DecisionTreeClassifier()
dtc.fit(X_train,y_train)
dtc_y_pred = dtc.predict(X_test)
#使用隨機森林分類器
rfc = RandomForestClassifier()
rfc.fit(X_train, y_train)
rfc_y_pred = rfc.predict(X_test)
# 使用梯度提升決策樹
gbc = GradientBoostingClassifier()
gbc.fit(X_train, y_train)
gbc_y_pred = gbc.predict(X_test)
print( 'The accuracy of decision tree is', dtc.score(X_test, y_test))
print(classification_report(dtc_y_pred, y_test))
print('The accuracy of random forest classifier is', rfc.score(X_test, y_test))
print(classification_report(rfc_y_pred, y_test))
print('The accuracy of gradient tree boosting is', gbc.score(X_test, y_test))
print(classification_report(gbc_y_pred, y_test))

機器學習——監督學習幾種經典模型特點

機器學習——監督學習幾種經典模型特點

機器學習應用在幾種形態下落地的問題和參考架構

機器學習中的幾種距離度量方法比較

Python機器學習庫sklearn幾種迴歸演算法建模及分析(實驗)

機器學習-監督學習應用：梯度下降

機器學習-監督學習概念

網際網路技術學習29——redis幾種資料型別

機器學習-監督學習&&無監督學習

圖解機器學習-監督學習-線性迴歸總結

機器學習--監督學習之梯度下降法

機器學習->監督學習->logistic迴歸,softMax迴歸

學習筆記：幾種注入方法

機器學習->監督學習->線性迴歸（LASSO,Ridge,SGD）

幾種經典的網路伺服器架構模型的分析與比較

關於for循環的幾種經典案例

資料倉庫中的幾種資料模型

幾種經典搜尋演算法以及應用

深入瞭解幾種IO模型（阻塞非阻塞，同步非同步）

幾種經典密碼（classic cipher）

css3之幾種盒模型

機器學習——監督學習幾種經典模型特點

相關推薦