七月演算法機器學習筆記6 -- 工作流程與模型優化

阿新 • • 發佈：2019-02-08

這套筆記是跟著七月演算法四月機器學習班的學習而記錄的，主要記一下我再學習機器學習的時候一些概念比較模糊的地方，具體課程參考七月演算法官網：http://www.julyedu.com/

特徵工程總結

這裡寫圖片描述

模型選擇

沒有那種模型是萬能的，在特定情況下選擇適合的模型

對這幅圖做如下解釋
從start開始，先看資料的訓練樣本
在資料樣本比較小的情況下，需要新增更多樣本或放棄機器學習，用人工規則處理。
當樣本足夠時：並且是連續值問題，採用迴歸方法解決。
果是離散樣本分類，則使用分類模型。當分類樣本數量不大，用線性SVM解決，如果是文字資料分類，使用樸素貝葉斯；如果不是，使用LR或SVM等。如果樣本很大，用SVM就很難，它收斂時間非常長，這樣，使用隨機梯度下降或核估計方法。
如果是迴歸問題：
在樣本資料非常小的情況下，採用線性方法，如果樣本資料足夠，使用隨機梯度下降等方法
如果樣本維度很高，使用降維方法（無監督學習）
如果無標籤，使用聚類方法。

已知模型，選擇引數
這裡寫圖片描述
需要考慮引數和次數

引數選擇方法：

將資料劃分
70% 訓練集，用於建模
20% 交叉驗證，引數選擇
10% 測試集，效果的評估

K折交叉驗證，
將訓練集分為k個部分，輪番用其中某一折作為驗證集，前面其他作為訓練集。每折用不同測模型，用驗證集驗證。

模型引數含義

這裡寫圖片描述

超引數的選取

這裡寫圖片描述

模型效果優化

這裡寫圖片描述
過擬合：高波動
欠擬合：高偏差
工程判定模型處於什麼狀態：學習曲線

橫座標：不同量的訓練樣本
縱座標：準確度。
實線表示交叉驗證集的準確度，

對錯分樣本的處理

模型融合：比如，不同模型一起投票
這裡寫圖片描述

bagging每次不用全部的資料集。用不同模型判別（比如n個模型給的結果取多數的判定結果）。減小波動
這裡寫圖片描述

這裡寫圖片描述
Adboost給分錯的樣本更高的權重，努力學習錯分樣本。

七月演算法機器學習筆記6 -- 工作流程與模型優化

這套筆記是跟著七月演算法四月機器學習班的學習而記錄的，主要記一下我再學習機器學習的時候一些概念比較模糊的地方，具體課程參考七月演算法官網：http://www.julyedu.com/ 特徵工程總

七月演算法深度學習筆記6--CNN推展案例:影象檢測、NeuralStyle

這套筆記是跟著七月演算法五月深度學習班的學習而記錄的，主要記一下我再學習機器學習的時候一些概念比較模糊的地方，具體課程參考七月演算法官網：影象相關任務 1. 物體的識別和定位對於一張給定的圖片，判定圖片中的物體屬於那個類別對於輸入圖片，輸出物體所在的位置。

機器學習筆記(6)-邏輯迴歸與最大熵模型

Logistic迴歸 Logistic 迴歸雖然名字叫回歸，但是它是用來做分類的。其主要思想是: 根據現有資料對分類邊界線建立迴歸公式，以此進行分類。假設現在有一些資料點，我們用一條直線對這些點進行擬合（這條直線稱為最佳擬合直線），這個擬合的過程就叫做迴歸。

機器學習深入與強化--工作流程與模型優化

實際建模之前，需要做資料的處理，首先是資料清洗，2點，然後是資料取樣，因為大部分模型對正負樣本的比例都十分敏感。之後非常重要的就是特徵工程，它包括特徵處理和特徵選擇兩部分，首先是特徵處理，針對不同

機器學習（二）工作流程與模型調優

發生較高的 mode lan 包含因此增加絕對值輸入上一講中主要描述了機器學習特征工程的基本流程，其內容在這裏：機器學習（一）特征工程的基本流程本次主要說明如下：　　1）數據處理：此部分已經在上一節中詳細討論　　2）特征工程：此部分已經在上一節中詳細討論

機器學習筆記(6) 線性迴歸

先從最簡單的例子開始,假設我們有一組樣本(如下圖的一個個黑色的圓點),只有一個特徵,如下圖,橫軸是特徵值,縱軸是label。比如橫軸是房屋面積,縱軸是房屋價格. 現在我們要做什麼呢？我們試圖找到一條直線y=ax+b,可以儘量好的擬合這些點. 你可能要問了,為啥是直線,不是曲線,不是折線？因為我們的前提

機器學習筆記(6)：多類邏輯迴歸-使用gluon

from mxnet import gluon from mxnet import ndarray as nd import matplotlib.pyplot as plt import mxnet as mx from mxnet import autograd def transf

七月演算法深度學習筆記4 -- CNN與常用框架

這套筆記是跟著七月演算法五月深度學習班的學習而記錄的，主要記一下我再學習機器學習的時候一些概念比較模糊的地方，具體課程參考七月演算法官網： http://www.julyedu.com/ 神經網路的結構神經網路包含輸入層，輸出層，及中間的隱層神經網路在做說明事情呢？

[機器學習入門] 李巨集毅機器學習筆記-6 （Classification: Logistic Regression；邏輯迴歸）

[機器學習] 李巨集毅機器學習筆記-6 （Classification: Logistic Regression；Logistic迴歸） PDF VIDEO Three steps Step 1: Function Set

李巨集毅機器學習筆記-6 深度學習簡介（Brief Introduction of Deep Learning）

Brief Introduction of Deep Learning - 深度學習簡介 1. 前言 deep learning 在近些年非常熱門，從2012年開始，深度學習的應用數目幾乎是呈指數增長的。深度學習的發展史如下圖：

Git學習筆記3——工作區與暫存區，以及版本變更

暫存區所有 cto tag clas 內容 blank 文件 set 工作區（Working Directory）就是你在電腦裏能看到的目錄，比如我的Git_Learning文件夾就是一個工作區。版本庫（Repository）工作區有一個隱藏目錄.git，這個不

【機器學習筆記】第二章：模型評估與選擇

機器學習 ini ppi 第二章 err cap ner rate rac 2.1 經驗誤差與過擬合 1. error rate/accuracy 2. error: training error/empirical error, generalization error

機器學習筆記五：廣義線性模型（GLM）

一.指數分佈族在前面的筆記四里面，線性迴歸的模型中，我們有，而在logistic迴歸的模型裡面，有。事實上，這兩個分佈都是指數分佈族中的兩個特殊的模型。所以，接下來會仔細討論一下指數分佈族的一些特點，會證明上面兩個分佈為什麼是指數分佈族的特性情況以及怎麼用到

Javaweb學習筆記6—EL表示式與JSTL及自定義標籤

前幾天部落格被黑了，導致部落格登陸不上，把前幾天應該發的東西的東西重新發一遍今天來講javaweb的第六階段學習。 EL表示式與JSTL及自定義標籤是對上篇文章介紹的JSP的擴充套件，不能說是

深入理解Java虛擬機器學習筆記——四、Java記憶體模型與多執行緒

一、Java記憶體模型 Java記憶體模型的意義：遮蔽掉各種硬體和作業系統的記憶體訪問差異，以實現Java程式在各種平臺上一致的記憶體訪問效果。 1、主記憶體與工作記憶體 Java記憶體模型的主要目標是定義程式中各個變數的訪問規則，即在虛擬機器中把變數儲存到記憶體和從記憶體

機器學習第6篇：線性模型概述

在迴歸分析中，線性模型的一般預測公式是：是預測值，讀作"y hat"，是特徵的線性組合，把向量w稱作 coef_（係數），公式是：把w0稱作intercept_（截距），這兩個屬性是線性模型的共有屬性。一，線性迴歸最基本的線性模型是線性迴歸，也稱作最小二乘法（OL

機器學習十二誤差原因與模型複雜度

誤差原因（Error）：用於測量模型效能的基本指標。在模型預測中，模型可能出現的誤差來自兩個主要來源，即：因模型無法表示基本資料的複雜度而造成的偏差（bias），或者因模型對訓練它所用的有限資料過度敏感而造成的方差（variance）。偏差：準確率和欠擬合如果模型具

ML 學習筆記 4 多項式迴歸與模型泛化

問題怎麼用線性迴歸去擬合非線性資料呢？多項式迴歸。多項式迴歸屬於線性迴歸的範疇？以一元線性迴歸為例,模型原型：y = ax + b ；對應的多項式迴歸原型為： y = ax^2 + bx + c 。即對特徵 x 做多項式處理-加些平方項，特徵前面的係數依然是

機器學習筆記第6課：邏輯迴歸演算法

邏輯迴歸是機器學習從統計領域借用的又一項技術。它是二元分類問題（即只有兩種型別的分類問題）的首選方法。邏輯迴歸和線性迴歸的類似之處在於，其目標是找到每個輸入變數的權重係數。與線性迴歸的不同點是，邏輯函式是非線性函式，邏輯迴歸使用非線性的邏輯函式對輸出結果進行轉換。

[吳恩達機器學習筆記]16推薦系統5-6協同過濾演算法/低秩矩陣分解/均值歸一化

16.推薦系統 Recommender System 覺得有用的話,歡迎一起討論相互學習~Follow Me 16.5 向量化：低秩矩陣分解Vectorization_ Low Rank M

七月演算法機器學習筆記6 -- 工作流程與模型優化

特徵工程總結

模型選擇

模型引數含義

超引數的選取

模型效果優化

相關推薦