1. 程式人生 > >機器學習----分類問題

機器學習----分類問題

1.簡介

分類問題有許多應用,比如:判斷一封郵件是否為垃圾郵件,腫瘤是否為良性?分類問題包括:兩類分類多類分類,其中多類分類用到的是兩類分類的思想。在我們看來,類別這個概念是可數的,所以分類問題屬於離散問題,與上一講的迴歸問題不同,它屬於連續問題。但與迴歸問題類似的是,用機器學校處理分類問題時也是找一條迴歸曲線,通過設定閾值把資料分為離散的類,所以這一節我們重點關注如何找這條曲線

2. 邏輯斯諦迴歸(logistic regression)

總感覺這個迴歸的中文翻譯怪怪的,下文中提到這個模型統一用英語(logistic regression)表示。下面我們來說明這條曲線是如何找到的。

2.1 分類思想

這一講我們要處理的資料有明顯的界限(boundary),這些資料如果是二維或者三維的可以明顯區分出它們各自的類別,高維空間的資料雖然無法感知,但用到的思想是一樣的。比如一個二維分類為問題(一般我們認為正類為1,負類為0):

這裡寫圖片描述

我們可以看出它明顯的分成兩類,有了之前線性迴歸的思想,我們可以試著找出這樣一條直線hθ(x)

這裡寫圖片描述

hθ(x)<0.5時,我們可以預測x屬於0類即y=0,當hθ(x)0.5時,我們可以預測x屬於0類即y=0,在這個例子中看起來還不錯,但是如果我們在增加幾個資料點,再擬合曲線得到下圖:

這裡寫圖片描述

這時候再以0.5為標準去找點,發現這條線把原來屬於正類的點歸到負類(圖中綠色圈出的點),很顯然上講說的線性迴歸明顯不work, 由於線性迴歸是從無窮到無窮的對映,對於兩類分類問題,我們只需要得到從無窮到[

0,1]的對映,即0hθ(x)1。因此我們需要找另外一條迴歸曲線hθ(x),觀察以上的兩個圖,我們發現這樣的曲線滿足上述條件:

這裡寫圖片描述

這樣無論在曲線左右加多少點都可以找到正確的類別。我們直接給出它的定義

hθ(x)=g(θTx)z=θTxg(z)=11+ez

hθ(x)=11+eθTx
θx都是1維,即只有一個特徵時,取θ=1z=θTx=x,我們看看它的影象:
這裡寫圖片描述

函式

hθ(z)=11+ez
具有性質:
1.z+ 時,y1;z 時,y0
2.θ越大影象越抖
3. 如果z>0,h(z)>0.5,我們就預測y=1;如果z<0,h(z
)<0.5
,我們就預測y=0
有沒有發現這個曲線有點眼熟,對了,這就是我們在高中生物就學過的S型曲線,再或者是著名人口學家馬爾薩斯的人口增長模型,我們把它引入去解決分類問題。注意到這只是一個特徵的情況,兩個特徵時也可以畫出類似的三維圖形,但當特徵多時這個模型就無法可視化了。但是我們可以用剛才得到的函式性質,並把它推廣到多維空間。由於logistic迴歸得到的是一條迴歸曲線,上邊說過我們通過設定閾值的方法把連續資料變成離散資料。那麼,這個函式本身的意義是什麼呢?對了,是概率,更準確的說是條件概率。我們來看函式的定義:
hθ(x)=p(y=1|x;θ)
這個定義的解釋就是,給定x,把它分類成y=1的概率,我們之前設定閾值時也說過hθ(x)>0.5時,預測為1,從概率的角度解釋這樣做是可行的。

2.2決策邊界(Decision Boundary)

上邊的函式性質3中說到了, 如果z>0,h(z)>0.5,我們就預測y=1我們知道h(z)本身是複合函式,我們把原函式寫回就可以得到一些新的性質,如:θTx>0,h(θTx)>0.5,我們就預測y=1θTx<0,h(θTx)<0.5,我們就預測y=0,而θTx=0就稱為決策邊界(Decision Boundary)。注意到,由於θTx並非總是表示線性,因此決策邊界未必都是直線,下面我們看幾個二維決策邊界的例子。

1.hθ(x)=g(θ0+θ1x1+θ2x2)
由決策邊界的定義的出它的邊界為:θ0+θ1

相關推薦

機器學習分類

思想 多次 大數 它的 發揮 範圍 預測 可能 特征值 目前,機器學習的方法主要有三種:監督學習、半監督學習和無監督學習。監督學習是利用一組已知類別的樣本調整分類器的參數,使其達到所要求性能的過程。白話一點,就是根據已知的,推斷未知的。代表方法有:Nave Bayes、SV

機器學習分類實例——SVM(修改)/Decision Tree/Naive Bayes

nature console 內容 sign dal 一次 .html not cat 機器學習分類實例——SVM(修改)/Decision Tree/Naive Bayes 20180427-28筆記、30總結 已經5月了,畢設告一段落了,該準備論文了。前天開會老師說

機器學習機器學習分類器模型評價指標 機器學習分類器模型評價指標

機器學習分類器模型評價指標 分類器評價指標主要有: 1,Accuracy 2,Precision  3,Recall  4,F1 score  5,ROC 曲線

Scikit-learn在Python中構建機器學習分類

機器學習是電腦科學、人工智慧和統計學的研究領域。機器學習的重點是訓練演算法以學習模式並根據資料進行預測。機器學習特別有價值,因為它讓我們可以使用計算機來自動化決策過程。 在本教程中,您將使用Scikit-learn(Python的機器學習工具)在Python中實現一個簡單的機器學習演算法。您將使用Naive

機器學習 -- 分類

1. 樸素貝葉斯    貝葉斯決策理論方法是統計模型決策中的一個基本方法,基本思想如下:   (1) 已知類條件概率密度引數表示式和先驗概率   (2) 利用貝葉斯公式轉換成後驗概率   (3) 根據後驗概率大小進行決策分類。   

機器學習分類器---決策樹

一、決策樹 經常使用決策樹來處理分類問題,決策樹也是最經常使用的資料探勘演算法,不需要了解機器學習的知識,就能搞明白決策樹是如何工作的。 kNN演算法可以完成很多分類任務,但它最大的缺點就是無法給出資料的內在含義,決策樹的主要優勢在於資料形式非常容易理解 決策樹能夠讀取資

一份非常全面的機器學習分類與迴歸演算法的評估指標彙總

本文是《機器學習寶典》第 3 篇,讀完本文你能夠掌握分類與迴歸演算法的評估指標。 PS:文末附有練習題 讀完機器學習演算法常識之後,你已經知道了什麼是欠擬合和過擬合、偏差和方差以及貝葉斯誤差。在這篇給大家介紹一些機器學習中離線評估模型效能的一些指標。 當我們訓練得到

機器學習分類演算法之K近鄰(K-Nearest Neighbor)

一、概念 KNN主要用來解決分類問題,是監督分類演算法,它通過判斷最近K個點的類別來決定自身類別,所以K值對結果影響很大,雖然它實現比較簡單,但在目標資料集比例分配不平衡時,會造成結果的不準確。而且KNN對資源開銷較大。   二、計算 通過K近鄰進行計算,需要: 1、載入打標好的資料集,然

機器學習分類演算法常用評價指標

# -*- coding: utf-8 -*- import pandas as pd from sklearn.ensemble import RandomForestClassifier from sklearn import metrics import matplotlib.pyplot as p

機器學習-分類2

今天,在分類模型上又添加了如下程式碼。 #單個預測,對輸出的類別進行排序 Class = list(pipe.classes_) print(Class) X=['感冒 咳嗽 噁心 頭暈 頭痛'] Pipe = pipe.predict(X) print(Pip

機器學習~分類與迴歸異同

一篇來著外文網站的關於分類與迴歸異同的解釋。 Difference Between Classification and Regression in Machine Learning Fundamentally, classification is about predi

python實現機器學習分類演算法原始碼————上篇

                                   python實現機器學習分類演算法原始碼 文章

機器學習分類演算法---決策樹

決策樹: 樹結構,可以是二叉樹或非二叉樹,資料結構中的概念,只不過加上了判斷條件。 資訊熵: 1948年,夏農提出了“資訊熵”的概念。一條資訊的資訊量大小和它的不確定性有直接的關係,即對一件事,你不知道的越多,這件事對於你來說資訊熵越大,因為你需要學的東西更多。   &nb

常見機器學習分類

機器學習無疑是當前資料分析領域的一個熱點內容。很多人在平時的工作中都或多或少會用到機器學習的演算法。本文為您總結一下常見的機器學習演算法,以供您在工作和學習中參考。 機器學習的演算法很多。很多時候困惑人們都是,很多演算法是一類演算法,而有些演算法又是從其他演算法中延伸出

機器學習---分類、迴歸、聚類、降維的區別

由上圖我們可以看到,機器學習分為四大塊,分別是  classification (分類),  regression (迴歸),   clustering (聚類),   dimensio

機器學習分類演算法之樸素貝葉斯

一、概念 樸素貝葉斯模型(Naive Bayesian Model,NBM)是以條件概率為基礎的分類器,是一種監督演算法,常被用於文字分類和垃圾郵件過濾。貝葉斯理論解決的是逆向概率問題,即通過已經發生的已知的概率來推測未發生的事將會發生的概率。    二、計算 樸素貝葉斯各個事件發

機器學習-分類器演算法-kNN

 首先,機器學習有眾多演算法,監督,無監督,聚類,迴歸......,初學者看到這麼多的演算法想必跟我一樣頭都暈了,到底在處理實際問題時候要怎麼從這麼多的演算法中選擇一個適合自己問題的方法,那麼我們就對它們簡單的歸一下類,根據我們實際中的使用目的,可以得出下面的導圖,舉例說

【轉】機器學習--- 分類演算法詳解

原文連結:http://blog.csdn.net/china1000/article/details/48597469 感覺狼廠有些把機器學習和資料探勘神話了,機器學習、資料探勘的能力其實是有邊界的。機器學習、資料探勘永遠是給大公司的業務錦上添花的

機器學習分類篇-最鄰近規則分類KNN

最鄰近規則分類演算法(K-Nearest Neighbor),Cover和Hart在1968年提出了最初的鄰近演算法,也被稱為基於例項的學習或懶惰學習,與決策樹演算法相比,處理訓練集的時候並不建立任何模型,進行分類時才將測試樣例和所有已知例項進行比較進而分類。

機器學習----分類問題

1.簡介 分類問題有許多應用,比如:判斷一封郵件是否為垃圾郵件,腫瘤是否為良性?分類問題包括:兩類分類和多類分類,其中多類分類用到的是兩類分類的思想。在我們看來,類別這個概念是可數的,所以分類問題屬於離散問題,與上一講的迴歸問題不同,它屬於連續問題。但與迴歸問