監督學習的知識(參考)
基礎
目標
利用一組帶有標簽的數據,學習從輸入到輸出的映射,然後將這種映射關系應用到未知數據上,達到分類或者回歸的目標
分類:輸出離散,為分類
回歸:輸出連續,為回歸
分類
評價標準
精確率,二分類為例,表示的是預測為正的樣本中有多少是真正的正樣本。把正預測為正(TP),把負預測為正(FP)。P=TP/(TP+FP).
召回率:針對原樣本而言,表示的是樣本中的正例有多少被預測正確了。正預測為正(TP),正預測為負(FN)。R=TP/(TP+FN)。
sklearn的分類算法
並未封裝在一個子模塊中
分類函數包括:k近鄰(knn),樸素貝葉斯(naivebayes),支持向量機(svm),決策樹(decision tree),神經網絡(Neural networks)等,其中有線性分類器、非線性分類器
應用:
金融:貸款是否批準
醫療欺詐:腫瘤惡性良性
欺詐檢測:一筆銀行的交易是否存在欺詐
網頁分類:網頁的所屬類別,財經還是娛樂
knn分類器
計算待分類數據與已有數據的距離,選取前k個距離小的值,以少數服從多數的原則,查看k個數據對應的分類,以此作為新數據的分類。
sklearn.neighbors.KNeighborsClassifier
決策樹
本質上尋找一種對特征空間上的劃分,旨在構建一個訓練數據擬合的好且復雜度小的決策樹。
sklearn .tree.DecisionTreeClassifier
樸素貝葉斯
以貝葉斯定理為基礎的多分類的分類器
對於給定數據,首先基於特征的條件獨立性假設,學習輸入輸出的聯合概率分布,然後基於此模型,對給定的輸入,利用定理求出後驗概率最大的輸出。
高斯樸素貝葉斯naive_bayes.GaussianNB
針對多項式模型的樸素貝葉斯分類器naive_bayes.GaussianNB
針對多元伯努利模型的樸素貝葉斯分類器
區別在於假設某一特征的所有屬於某個類別的觀測值符合特定分布。
回歸
尋找兩個變量之間或者多個變量之間的關系,建立模型。
兩個子模塊,sklearn.linear_model和sklearn.preprocessing。
普通線性回歸
嶺回歸ridge
Lasso
回歸方法常用於帶有時序信息的數據進行預測或者趨勢擬合,常用在金融及其他涉及時間序列分析的領域
股票趨勢預測
交通導流預測
線性回歸的實際用途
1、預測
2、量化變量之間的相關性的強度等
監督學習的知識(參考)