1. 程式人生 > >西瓜書機器學習總結(一)

西瓜書機器學習總結(一)

1.基本概念

1.資料集,特徵屬性,屬性值,訓練集,樣本,標記,獨立同分布的假設balabala….簡單易懂

2.歸納學習與歸納偏好:

廣義從樣例學習,狹義是學習概念。西瓜模型的學習可以理解為從假設空間中搜索匹配,剔除不符合,最終會有多個模型,這個集合也可以叫做版本空間。然後我們必須根據規則選擇一個,設計occam’s razor原理,選擇最簡單的。

3.NFL:

所有模型的期望效能相同。(假設各個機會相同)周志華舉了例子,從A到C,南京到上海,自行車出現的可能性肯定與火車不同。

4.balalal一些模型的發展

2.模型評估與選擇

1. 經驗誤差:

上個筆記講過了各種誤差。

2. 過擬合:

缺少了一般性,只在訓練集上表現好,把樣本的一些獨特的特點當做一般的,比如誤認為樹葉一定歐鋸齒。

3. 欠擬合:

相對,學習能力低,沒有學到特點。

4. 評估方法:

留出測試集進行評估

1.留出法:

分層取樣,訓練和測試各佔一定比例,正負樣本也要考慮。

2.交叉驗證:

分成訓練集和測試集交叉驗證(和上個筆記說的分成訓練集,驗證集和測試集是在樣本容量足夠大的情況隨機分,現在的這種要重複使用資料)

3.自助法:

從資料集中有放回的隨機取樣,放入測試集,則在m次抽取中有

limm(11m)m1e

5. 模型度量:

迴歸任務常用的一些損失函式。分類任務常用acc,recall,precision,F1。

6. P-R曲線與平衡點

7. ROC和AUC:

使用真正例率(TPR=TPTP+FN)和假正例率(FPR=FTFT+TN)座位橫縱座標,auc是下面的面積。理解一些就是預測對的正例佔總的正例比例(和recall是不是一樣?),預測錯的正例佔總的錯的比率。

8. 樣本特徵:x,樣本值:y0 實際值:y 預測值:f(x;D)

1.期望預測
f(x)=ED[f(x;D)]
2. 方差:
var(x)=ED[(f(x;D)f(x))2]
3. 噪聲:
ε2=ED[(yDy)2]
4.偏差:
bias2(x)=[f(x)y]2
5.期望泛化誤差:
E(f;D)=ED[(f(x;D)y0)2]
=ED[(f(x;D)f(x)+f(x)y0)2]
=ED[(f(x;D)f(x))2]+ED[(f(x)y0)2]+ED[2(f(x;D)f(x))(f(x)y0)]
=ED[(f(x;D)f(x))2]+ED[(f(x)y+yy0)2]+0
=ED[(f(x;D)f(x))2]+ED[(f(x)y)2]+ED[(yy0)2]+2ED[(f(x)y)(yy0)]
E(f;D)=bias2+var(x)+

相關推薦

西瓜機器學習總結

1.基本概念 1.資料集,特徵屬性,屬性值,訓練集,樣本,標記,獨立同分布的假設balabala….簡單易懂 2.歸納學習與歸納偏好: 廣義從樣例學習,狹義是學習概念。西瓜模型的學習可以理解為從假設空間中搜索匹配,剔除不符合,最終會有多個模型,這個

NG機器學習總結-簡介

寫在前面: 看過很多的有關機器學習的書籍,如周志華的西瓜書《機器學習》,李航的《統計學習》,《十大經典資料探勘演算法》,然而始終是沒有很好的理解和掌握相關的機器學習演算法,一方面是基礎差學習起來慢,另一方面這些書籍實在對新手來說是晦澀難懂的。幸得Professor Andr

機器學習總結:常見的損失函式

這是博主的第一篇部落格,mark一下,希望今後能夠堅持下去。 博主是機器學習菜鳥,將來希望從事機器學習的工作,最近在整理機器學習的知識點,將這些總結的文字以部落格的形式展現出來,一是便於複習,二是分享出來希望能對別人會有一點點幫助。 最近蒐集了一些機器學習常

機器學習總結

快找工作了,之前學的知識感覺太零碎,自問面試的時候能不能對答如流,覺得沒什麼底氣。所以準備將之前所學做一個系統的總結,既是對所學知識的昇華,也可以幫助初學者理清一個思路。那就從最簡單的線性模型開始吧。 線性模型 線性迴歸 首先解釋一下什麼叫回歸,給定一個點集,能夠用一條

JSON必知必會學習總結

tor lint 沒有 script app 對數 數據交換格式 object 什麽 七月第一周,從學校畢業回來上班的第一周。離開一段時候後,再次回來重新工作,有了很多新的認識,不再是實習時那麽混混沌沌了。每天我自己該做什麽,怎麽做,做到什麽程度更清晰了。除了要去完成我負責

PHP學習總結

encode 什麽 code 解決 new span att 面向對象 反斜杠 》PHP 面向對象 使用parent訪問父類的構造方法(__construct)時一定要為當前類繼承要訪問的構造方法 類的構造方法(__construct)在實例化時直接被加載,靜態方法

Java IO學習總結

file flush writer directory 創建 str java 資源 tab 一、File 類 Java中不管文件還是目錄都可以使用File類操作,File能新建、刪除、重命名文件和目錄,但是不能訪問文件內容本身,訪問文件內容需要使用輸入輸出流。 Fi

JSP學習總結

展示 cat 一起 time server 資源 type div simple 一、JSP的介紹與項目部署 JSP,全稱 Java server page是由Sun公司開發的一種動態生成網頁資源的技術。JSP技術使用java語言作為腳本語言,可以將html元素和java代

機器學習實戰—— 用線性回歸預測波士頓房價

-1 png 機器學習 mage 回歸 線性回歸 blog 分享 機器 機器學習實戰(一)—— 用線性回歸預測波士頓房價

機器學習理論——線性回歸

隨機 .cn 過程 小寫 找到 想想 每次 回歸 所在 (一)單變量線性回歸。 舉個例子來說,假如你要在北京的五環路租房,要預測房子的價格,其中一個比較顯著的特征就是房子的面積,根據不同的房間的面積來預測租金是多少。於是你就可以構建一個模型橫軸是房間面積,縱軸是租金

JAVA學習總結

產生 java虛擬機 右鍵 分布式系 jdk 問題 功能 地址 輸出 一、Java是什麽? Java 是由 Sun Microsystems 在 1995 年首先發布的編程語言和計算平臺。Java 是一項用於開發應用程序的技術,可以讓 Web 變得更有意思和更實用。有許多應

Linux學習總結 windos環境vmware安裝centos7

color 學習總結 oot 遠程訪問服務 分享圖片 watermark 需要 mage 磁盤大小 1.在這裏我先簡單介紹下虛擬化技術,就是我們通過軟件虛擬化出來一個硬件環境,然後就可以在系統裏面安裝子系統,以來我們避免了裝linux,windos雙系統的麻煩,二來我們可以

機器學習筆記

get 實現 mach 理論 怎樣 算法 分類 AI 結構 1、基礎概念   什麽是機器學習?   機器學習(Machine Learning, ML)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法復雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的

webservice學習總結-- WebService相關概念介紹

IT strong 資源 fire 求和 log AC service服務 為什麽 一、WebService是什麽? 基於Web的服務:服務器端整出一些資源讓客戶端應用訪問(獲取數據) 一個跨語言、跨平臺的規範(抽象) 多個跨平臺、跨語言的應用間通信整合的方案(實際)

【Java】 Spring 框架初步學習總結簡單實現 IoC 和 AOP

1.0 其中 表示 只需要 第一篇 否則 info fin pojo   Spring 是一個開源的設計層面的輕量級框架,Spring 的好處網上有太多,這裏就不在贅述。   IoC 控制反轉和 AOP 面向切面編程是 Spring 的兩個重要特性。   IoC(Inver

機器學習遊記

apple 機器學習 人類 規律 orm 訓練 border -h 方程式 機器學習是目前信息技術中最激動人心的方向之一,其應用已經深入到生活的各個層面且與普通人的日常生活密切相關. 一.定義 正如我們人類根據過去的經驗來判斷明天的天氣,購買適合自己的東西,做出有效的預

python學習總結,第一個python程序的編寫

程序代碼 spa 編碼 結構 編輯 下載地址 utf 修改編碼 general 1. python是一種解釋性,編譯型,互動型的語言,面向對象,動態數據類型的高級程序設計語言。 1.1 交互式:意味著可以在一個提示符直接交互執行你寫的程序。 1.2 解釋型:意味著開發過程中

MyBatis學習總結——ORM概要與MyBatis快速起步

管理 stat prim aot 驅動 單元測試 build sta 環境 目錄 一、ORM 1.1、ORM簡介 1.2、ORM的概念 1.3、ORM的優缺點 二、MyBatis 2.1、MyBatis的特點 2.2、MyBatis工作流程

機器學習實戰k-近鄰kNNk-Nearest Neighbor

目錄 0. 前言 1. k-近鄰演算法kNN(k-Nearest Neighbor) 2. 實戰案例 2.1. 簡單案例 2.2. 約會網站案例 2.3. 手寫識別案例 學習完機器學習實戰的k-近鄰演算法,簡單的做個筆記。文中

機器學習總結決策樹ID3,C4.5演算法,CART演算法

本文主要總結決策樹中的ID3,C4.5和CART演算法,各種演算法的特點,並對比了各種演算法的不同點。 決策樹:是一種基本的分類和迴歸方法。在分類問題中,是基於特徵對例項進行分類。既可以認為是if-then規則的集合,也可以認為是定義在特徵空間和類空間上的條件概率分佈。 決策樹模型:決策樹由結點和有向邊組