機器學習筆記一------線性分類器

阿新 • • 發佈：2019-01-07

線性模型 $y=w^{T}x+b$ ，使用最小二乘引數估計使模型預測結果與實際結果y之間的均方誤差最小，得到引數w和b（其中b可以算作w的最後一列，對應屬性值恆置為1）。

線性模型形式簡單，易於建模，引入層級結構或高維對映後可得到更為搶到的非線性結構。 $y=g^{-1}(w^{T}x+b)$ 為廣義線性模型，有加權最小二乘法或極大似然法進行引數估計。

對於二元分類問題，y的取值為0或1，假設不同類別訓練樣本數目相同，當預測的y值大於0.5認證為正，反之為負，y實際表達了正例的可能性，即 $\frac{y}{1-y}>1$ ，則為正例。若假設不成立，即類別不平衡問題，有三種解決方法：

（1）對數目少的一類欠取樣，去除一部分後訓練，時間開銷小，但訓練樣本少

（2）對數目多的一類過取樣，增加一部分後訓練，時間開銷大，訓練樣本多，不可簡單得重複取樣，會過擬合，可採用插值產生額外樣本。

（3）用原始資料訓練，使用 $\frac{y}{1-y}\times \frac{m-}{m+}>1$ 進行決策（m表示樣本個數）

程式碼實踐：使用邏輯迴歸和隨機梯度預測疾病

import pandas as pd
import numpy as np
# 建立特徵列表。
column_names = ['Sample code number', 'Clump Thickness', 'Uniformity ofCell Size', 'Uniformity of Cell Shape', 'Marginal Adhesion', 'Single EpithelialCell Size', 'Bare Nuclei', 'Bland Chromatin', 'Normal Nucleoli', 'Mitoses','Class']
# 使用pandas.read_csv函式從網際網路讀取指定資料
data =pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data',names = column_names )
# 將?替換為標準缺失值表示。
data = data.replace(to_replace='?', value=np.nan)
# 丟棄帶有缺失值的資料（只要有一個維度有缺失）
data = data.dropna(how='any')
# 輸出data的資料量和維度。
data.shape
# 使用sklearn.model_selection裡的train_test_split模組用於分割資料。
from sklearn.model_selection import train_test_split
# 隨機取樣25%的資料用於測試，剩下的75%用於構建訓練集合。
X_train, X_test, y_train, y_test =train_test_split(data[column_names[1:10]], data[column_names[10]],test_size=0.25, random_state=33)
# 查驗訓練樣本的數量和類別分佈。
y_train.value_counts()
# 查驗測試樣本的數量和類別分佈。
y_test.value_counts()
# 從sklearn.preprocessing裡匯入StandardScaler。
from sklearn.preprocessing import StandardScaler
# 從sklearn.linear_model裡匯入LogisticRegression與SGDClassifier。
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import stochastic_gradient
# 標準化資料，保證每個維度的特徵資料方差為1，均值為0。使得預測結果不會被某些維度過大的特徵值而主導。
ss = StandardScaler()
X_train = ss.fit_transform(X_train)
X_test = ss.transform(X_test)
# 初始化LogisticRegression與SGDClassifier。
lr = LogisticRegression()
sgdc = stochastic_gradient.SGDClassifier(max_iter=5)
# 呼叫LogisticRegression中的fit函式/模組用來訓練模型引數。
lr.fit(X_train, y_train)
# 使用訓練好的模型lr對X_test進行預測，結果儲存在變數lr_y_predict中。
lr_y_predict = lr.predict(X_test)
# 呼叫SGDClassifier中的fit函式/模組用來訓練模型引數。
sgdc.fit(X_train, y_train)
# 使用訓練好的模型sgdc對X_test進行預測，結果儲存在變數sgdc_y_predict中。
sgdc_y_predict = sgdc.predict(X_test)
# 從sklearn.metrics裡匯入classification_report模組。
from sklearn.metrics import classification_report
# 使用邏輯斯蒂迴歸模型自帶的評分函式score獲得模型在測試集上的準確性結果。
print ('Accuracy of LR Classifier:', lr.score(X_test, y_test))
# 利用classification_report模組獲得LogisticRegression其他三個指標的結果。
print (classification_report(y_test, lr_y_predict, target_names=['Benign','Malignant']))
# 使用隨機梯度下降模型自帶的評分函式score獲得模型在測試集上的準確性結果。
print ('Accuarcy of SGD Classifier:', sgdc.score(X_test, y_test))
# 利用classification_report模組獲得SGDClassifier其他三個指標的結果。
print (classification_report(y_test, sgdc_y_predict,target_names=['Benign', 'Malignant']))

--來自《Python機器學習及實踐 —— 從零開始通往Kaggle競賽之路》

機器學習筆記一------線性分類器

線性模型，使用最小二乘引數估計使模型預測結果與實際結果y之間的均方誤差最小，得到引數w和b（其中b可以算作w的最後一列，對應屬性值恆置為1）。線性模型形式簡單，易於建模，引入層級結構或高維對映後可得到更為搶到的非線性結構。為廣義線性模型，有加權最小二乘法或極大似然法進行引

【機器學習筆記08】分類器（softmax迴歸)

基本定義首先給出softmax的數學定義，如下: hθ(x(i))=[p(y(i)=1∣x(i);θ)p(y(i)=2∣x(i);θ)⋮p(y(i)=k∣x(i);θ)]=1∑j=1keθjTx(i)[eθ1Tx(i)eθ2Tx(i)⋮eθkTx(i)]

機器學習-第二天-線性分類器

實際上最後機器學習輸出的是一個關於模型中所有引數的函式h(x) Xi為模型中各種引數的引數值，Wi為權值，表示每個引數所佔的重要性。 threshold為閾值，在所有引數加權求和後得到的值減去閾值後得到h(x) 稱h(x)為感知機假設說只有兩種型別

cs231學習筆記二線性分類器、SVM、Softmax

線性分類器假設樣本xi∈RD,i=1…N，對應類標籤yi∈1…K。現定義一個線性對映f(xi,W,b)=Wxi+b，W是K∗D的矩陣，b是K維的向量。W和b分別稱作權重（或引數）和偏。 W的每一行都是一個分類器，每個分類器對應於一個得分。通過學

吳恩達機器學習筆記一_單變量線性回歸

gre ima 梯度下降算法 line 公式 delta mat 所有 pan 單變量線性回歸綱要代價函數梯度下降算法全局最優與局部最優代價函數函數定義： \[ J(\theta_0,\theta_1,...)=\frac{1}{2m}\sum_{i=1}^

CSDN機器學習筆記一概述、線性迴歸

一、課程知識點講師：唐宇迪本次課程 1.系列課程環境配置 2.機器學習概述 3.線性迴歸演算法原理推導 4.邏輯迴歸演算法原理 5.最優化問題求解 6.案例實戰梯度下降一、機器學習處理問題過程及常用庫 1. 機

機器學習筆記(一):多元線性迴歸

前言從去年底開始接觸機器學習，由於自己數學一直是不及格加畢業後就幾乎沒用過的狀態，很多公式和原理都不記得或者上學時就沒認真聽過的，因此看機器學習的書，連看懂符號都很難。之前看過網上一個關於如果讓程式設計師來寫的數學教材的段子然後我看機器學習的書基

機器學習筆記(一)初識機器學習

機器學習：目前沒有統一的定義現有定義： 1.samuel（1950）: 在沒有明確設定的情況下，使計算機具有學習能力。 2.TOM（更新的定義)：計算機程式從經驗E(Experience)中學習，解決某一任務T(Task)，進行某一效能度量P(Performance)，通過P測定在T上的表現因經驗

【火爐煉AI】機器學習039-NLP文字分類器

【火爐煉AI】機器學習039-NLP文字分類器 (本文所使用的Python庫和版本號: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2， NLTK 3.3) 前面我們學習了很多用NLP進行文字的分詞，文字分塊，建立詞袋模型等，這些步驟可以

Opencv Python版學習筆記字元識別-分類器（SVM，KNearest，RTrees，Boost，MLP）

Opencv提供了幾種分類器，例程裡通過字元識別來進行說明的 1、支援向量機（SVM）：給定訓練樣本，支援向量機建立一個超平面作為決策平面，使得正例和反例之間的隔離邊緣被最大化。函式原型：訓練原型 cv2.SVM.train(trainData, responses[, varIdx[,

【機器學習筆記】線性迴歸之最小二乘法

線性迴歸線性迴歸（Linear Regreesion）就是對一些點組成的樣本進行線性擬合，得到一個最佳的擬合直線。最小二乘法線性迴歸的一種常用方法是最小二乘法，它通過最小化誤差的平方和尋找資料的最佳函式匹配。代數推導假設擬合函式為 y

機器學習筆記(6) 線性迴歸

先從最簡單的例子開始,假設我們有一組樣本(如下圖的一個個黑色的圓點),只有一個特徵,如下圖,橫軸是特徵值,縱軸是label。比如橫軸是房屋面積,縱軸是房屋價格. 現在我們要做什麼呢？我們試圖找到一條直線y=ax+b,可以儘量好的擬合這些點. 你可能要問了,為啥是直線,不是曲線,不是折線？因為我們的前提

機器學習----貝葉斯分類器（貝葉斯決策論和極大似然估計）

貝葉斯決策論貝葉斯決策論（Bayesian decision theory）是概率框架下實施決策的基本方法。在所有相關概率都已知的理想情況下，貝葉斯決策論考慮如何基於這些概率和誤判斷來選擇最優的類別標記。假設有N種可能的類別標記，即Y={c1,c2,.

機器學習（二）分類器及迴歸擬合

在機器學習中，分類器作用是在標記好類別的訓練資料基礎上判斷一個新的觀察樣本所屬的類別。分類器依據學習的方式可以分為非監督學習和監督學習。非監督學習顧名思義指的是給予分類器學習的樣本但沒有相對應類別標籤，主要是尋找未標記資料中的隱藏結構。，監督學習通過標記的訓練資

Tensorflow學習筆記--cifar10 cnn分類器程式碼

資料集使用了cifar10資料，實現了一個cnn的分類器。 1）下載地址：gti clone https://github.com/tensorflow/models.git 包含了cifar10等python包 2）分層如下：conv1,pool1,norm1,conv

機器學習之旅---SVM分類器

本次內容主要講解什麼是支援向量，SVM分類是如何推導的，最小序列SMO演算法部分推導。最後給出線性和非線性2分類問題的smo演算法matlab實現程式碼。一、什麼是支援向量機(Support Vector Machine) 本節內容部

機器學習貝葉斯分類器第一天

一、基本概念 1、先驗概率：定義：由以往資料分析得到的概率根據大量樣本情況的統計，在整個特徵空間中，任取一個特徵向量x，它屬於類Wj的概率，即P(wj)。如果總共有c個類別 P(w1)+P(w2)+...+P(wc)=1 2、後

機器學習(8)--建立KNN分類器

建立KNN分類器 KNN(k-nearest neighbors) 是使用k個最近鄰的訓練資料集來尋找物件分類的方法,如果希望將資料分類可以找到一個KNN並做一個多數表決程式碼實現如下: # -*- coding:utf-8 -*

[機器學習] 貝葉斯分類器1

貝葉斯分類的先導知識條件概率所謂條件概率，它是指某事件B發生的條件下，求另一事件A的概率，記為P(A|B)P(A|B)，它與P(A)P(A)是不同的兩類概率。舉例：考察有兩個小孩的家庭，其樣本空間為Ω=[bb,bg,gb,gg]Ω=[bb,b

機器學習（一）------分類

機器學習（一）------分類機器學習分類機器學習分為監督學習和無監督學習兩類。監督學習是指在有標記的樣本上建立機器學習的模型（這類演算法知道預測什麼，即目標變數的分類資訊）。無監督學習恰恰相反，是指沒有標記的資料上建立學習模型。主要任務：分類：主要任務是將例項資料劃分到合適的分類中

機器學習筆記一------線性分類器

相關推薦