斯坦福《機器學習》Lesson6感想———1、函式間隔和幾何間隔

阿新 • • 發佈：2019-01-10

這一課主要是從如何判斷一個機器學習分類演算法裡擬合的引數是最佳引數引出函式間隔和幾何間隔的定義。

1、函式間隔

假設假想函式，，那麼可以知道y=1；反之則y=0 。所以當，我們可以很確定的認為y=1；當，可以很確定地認為y=0。所以在分類演算法中，我們在訓練樣本時得到這兩個結果的時候，就可以知道選擇的引數能很好的擬合數據，能很有自信地認為我們的分類器是符合資料事實的。因此我們資料可以引出函式間隔的定義。

給定某一個數據案例，假想函式為（用(w,b)表示，表示為b，表示為w，整個假想函式的結果表示為{-1,1}），我們可以定義基於引數（w,b）的這個資料案例的函式間隔為：

因此可知，如果要得到一個值儘可能大的函式間隔，在時，需要為一個儘可能大的正數即為。在時，需要為一個儘可能大的負數即為。所以我們可以推出

當函式間隔大的時候，演算法選擇的引數能更好的模擬資料的現實能對測試資料集做出更好的推測。

在給定的整個訓練資料集上，函式間隔為:

2、幾何間隔

圖1

假設假想函式，圖1中的線表示，稱為分隔超平面(用來將資料集分隔開來的直線，也叫決策邊界)。圖1中所有資料點都在二維平面上，所以此時分隔超平面為一條直線。但是如果所有資料點是在三維空間裡，則分隔超平面為一個平面。如果資料在n維空間裡，則分隔超平面為n-1維的超平面。

可知資料點裡決策邊界越遠，其最後的預測結果就越可信。圖1中的A點離決策邊界最遠，說明可以非常確定的認為它屬於y=1；而c點最靠近決策邊界，只要稍微改變下決策邊界就可以判斷其屬於y=0。因此，可知分隔超平面（決策邊界）的選擇取決於離分隔超平面最近的點與分隔超平面之間的間隔，這間隔就是幾何間隔，支援向量就是離分隔超平面最近的點。幾何間隔越大，說明分類器越可信。

圖2

按圖2可定義幾何間隔，已知A為，假想函式為，可知w是分隔超平面的法向量，w/||w||為分隔超平面的單位法向量。點A可以代表y=1的情況，假設AB= ，所以B（，0）。所以可以得到如下等式：

所以求解可得：

這個求解的只是y=1的情況，所以綜合y=-1的情況可定義A點的幾何間隔為：

在給定的整個訓練資料集上，幾何間隔為

3、函式間隔和幾何間隔的關係

函式間隔/||w|| =幾何間隔

函式間隔會隨著w和b的縮放而縮放，但是對於演算法的引數選取沒有意義。幾何間隔不會隨著w和b的縮放而縮放。

斯坦福《機器學習》Lesson6感想———1、函式間隔和幾何間隔

這一課主要是從如何判斷一個機器學習分類演算法裡擬合的引數是最佳引數引出函式間隔和幾何間隔的定義。 1、函式間隔假設假想函式，，那麼可以知道y=1；反之則y=0 。所以當，我們可以很確定的認為y=1；當，可以很確定地認為y=0。所以在分類演算法中，我們在

斯坦福機器學習筆記-Lecture 1，2

1. 知識點 1. 監督學習指提前知道資料集以及正確答案，預測新資料對應的答案。 2. 無監督學習未知正確答案，對已有的資料進行分類。 3. 線性迴歸一種常見的學習方法。主要方法為設目標變數為已知feature的線性函式，並使其代價最小。公式：單變數

SSH框架學習之Spring ----1、Spring入門和IOC

一、 spring概述開源的輕量級框架（不依賴很多其他東西–輕量級）兩部分核心 aop 面向切面程式設計：擴充套件功能不是修改原始碼來實現 ioc 控制反轉：把物件的建立交給spring，通過配置代替之前的new物件操作。

關於機器學習的訓練資料、驗證資料和測試資料的形象比喻

機器學習最明顯的一個特點是需要大量的資料。特別對監督學習來說，就是需要大量的帶標籤資料（labeled data）。很多入門的朋友很快就會遇見模型訓練和測試這兩個階段，進而也就瞭解到帶標籤資料是要被劃分成兩個部分的：訓練集 (training set) 與測試集 (test set)。這兩個概

機器學習（5）、資料清洗和特徵選擇

正式進入機器學習啦，這節課還好，意外知道了莊家與賠率的計算（原來莊家真的是穩賺不賠呢，樓主表示很想設賭局去做莊）；python庫好強大，Pandas包直接提供資料讀取和處理，Fuzzywuzzy支援字串模糊查詢，可用於字串糾錯；知道了機器學習處理的大概流程；之前

機器學習之區域性加權、嶺迴歸和前向逐步迴歸

　　都說萬事開頭難，可一旦開頭，就是全新的狀態，就有可能收穫自己未曾預料到的成果。記錄是為了更好的監督、理解和推進，學習過程中用到的資料集和程式碼都將上傳到github 　　迴歸是對一個或多個自變數和因變數之間的關係進行建模，求解的一種統計方法，之前的部落格中總結了線上性迴歸中使用最小二乘法推導最優引

函式間隔和幾何間隔

在做分類時，通常希望用一條直線來將所有的樣本分開，如圖所示，這條直線就相當於一個超平面。這條直線可以認為是一個超平面，其函式為，f(x)可以取1 或者-1，用(w,b)表示，表示為b，表示為w

斯坦福《機器學習》Lesson8感想-------1、SMO

時間源感想它的 dsm align 求解 rac 其余部分從上一篇文章可知支持向量(supervector)就是指的離分隔超平面近期的那些點。整個SVM最須要的步驟是訓練分類器。得到alpha，從而得到整個用於數據分類的分隔超平面。支持向量機（super vec

斯坦福機器學習ex1.1(python)

blog com cnblogs div pan .com tlab 表示 def 使用的工具：NumPy和Matplotlib NumPy是全書最基礎的Python編程庫。除了提供一些高級的數學運算機制以外，還具備非常高效的向量和矩陣運算功能。這些對於機器學習的計算任務是

【機器學習】先驗概率、似然函式、後驗概率、對數似然函式等概念的理解

1）先驗：統計歷史上的經驗而知當下發生的概率； 2）後驗：當下由因及果的概率； 2、網上有個例子說的透徹： 1）先驗——根據若干年的統計（經驗）或者氣候（常識），某地方下雨的概率； 2）似然——看到了某種結果，對產生結果的原因作出假設：是颳風了？還是有烏雲？還是

【原】Andrew Ng斯坦福機器學習（1）——Lecture 1_Introduction and Basic Concepts

Lecture 1 Introduction and Basic Concepts 　　Lecture1 分4個視訊，主要講了視訊1 - 2 - What is Machine Learning_ (7 min) 0、機器學習定義 • Arthur Samuel (1959). M

機器學習--線性迴歸1（一元線性迴歸、多元線性迴歸，誤差性質）

前面幾節都是監督學習方面的演算法，監督學習是指有目標變數或預測目標的機器學習方法，迴歸與分類的不同，就在於其目標變數是連續數值型，而分類的目標變數是標稱型資料，其實前面的Logistic迴歸就是迴歸的一種，他們的處理方法大同小異，在這裡系統的講解一下回歸的來龍去脈，理解影響迴

似然函式與最大似然估計、交叉熵概念與機器學習中的交叉熵函式

文章目錄似然函式與最大似然估計似然的概念似然函式最大似然估計伯努利分佈伯努利分佈下的最大似然估計高斯分佈高斯分佈下的最大似然估計資訊量、熵、相對熵、交叉熵、機器學習中的交

機器學習筆記之五——目標函式、經驗風險與結構風險、正則項

一、常見的目標函式（loss/cost function）二、經驗風險與結構風險經驗風險 L(f) 就是以上損失函式，描述的是模型與訓練資料的契合程度。結構風險Ω(f)對應於過擬合問題，用正則項解決過擬合是結構風險的課

斯坦福機器學習網易公開課筆記1

之前在coursera上看了Andrew Ng的機器學習課程，那個課程比較簡明，適合對機器學習有一個整體的印象，但是很多細節的內容和推導都忽略了。現在想要了解機器學習更多，所以開始看Andrew Ng在網易公開課上的機器學習課程，並對每一講整理筆記，以促使自己更好的理解和記

斯坦福機器學習教程學習筆記之1

本系列部落格主要摘自中國海洋大學黃海廣博士翻譯整理的機器學習課程的字幕及筆記，在我的學習過程中幫助很大，在此表示誠摯的感謝！本系列其他部分：一、引言監督學習(Supervised Learning)：分類問題、迴歸問題等。無監督學習(Unsupervi

斯坦福機器學習：網易公開課系列筆記（五）——高斯判別分析、樸素貝葉斯

高斯判別分析(Gaussian discriminant analysis) 判別模型和生成模型前面我們介紹了Logistic迴歸，通過學習hΘ(x)來對資料的分類進行預測：給定一個特徵向量x→輸出分類y∈{0,1}。這類通過直接

【機器學習】先驗概率、後驗概率、貝葉斯公式、似然函式

Original url: http://m.blog.csdn.net/article/details?id=49130173 一、先驗概率、後驗概率、貝葉斯公式、似然函式在機器學習中，這些概念總會涉及到，但從來沒有真正理解透徹他們之間的聯絡。下面打算好好從

斯坦福機器學習筆記1：GDA高斯判別分析演算法的原理及matlab程式實現

ps：我本身沒有系統的學過matlab程式設計，所以有的方法，比如求均值用mean（）函式之類的方法都是用很笨的方法實現的，所以有很多需要改進的地方，另外是自學實現的程式，可能有的地方我理解錯誤，如果有錯誤請提出來，大家一起學習，本人qq553566286 首先，本文用到的

Spark2.0機器學習系列之1：基於Pipeline、交叉驗證、ParamMap的模型選擇和超引數調優

Spark中的CrossValidation Spark中採用是k折交叉驗證（k-fold cross validation）。舉個例子，例如10折交叉驗證(10-fold cross validation)，將資料集分成10份，輪流將其中9份