18.【進階】模型正則化--L1&L2範數正則化

阿新 • • 發佈：2019-01-07

#-*- coding:utf-8 -*-

#模型正則化：目的是提高模型在未知測試資料上的泛化力，避免參數過擬合
#常用方法：在原模型優化目標的基礎上，增加對引數的懲罰(penalty)項
#拓展一下L0範數、L1範數、L2範數的概念
#L0範數是指向量中非0的元素的個數，如果我們用L0範數來規則化一個引數矩陣W的話，就是希望W的大部分元素都是0，實現稀疏但是NP-hard。
#L1範數是指向量中各個元素絕對值之和，也有個美稱叫“稀疏規則運算元”（Lasso regularization），通常用來實現稀疏
#L2範數是指向量各元素的平方和然後求平方根。我們讓L2範數的規則項||W||2最小，可以使得W的每個元素都很小，都接近於0， 

#但與L1範數不同，它不會讓它等於0，而是接近於0，這裡是有很大的區別的。而越小的引數說明模型越簡單，越簡單的模型則越不容易產生過擬合現象。
#接下來分別以L1範數正則化和L2範數正則化進行討論


#繼續以上一講的資料進行研究(程式碼與上一講相同)
import numpy as np
X_train = [[6],[8],[10],[14],[18]]
y_train = [[7],[9],[13],[17.5],[18]]
X_test = [[6],[8],[11],[16]]
y_test = [[8],[12],[15],[18]]
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
poly4 = PolynomialFeatures(degree=4 
)
X_train_poly4 = poly4.fit_transform(X_train)
X_test_poly4 = poly4.transform(X_test)

#*************************************************************************************
#1.L1範數正則化
#目標：讓引數(權重)向量中的許多元素趨向於0，使得大部分特徵失去對優化目標的貢獻
#這種讓有效特徵變得稀疏對L1正則化模型，通常被稱為Lasso模型
from sklearn.linear_model import Lasso
#使用預設配置的lasso 

lasso_poly4 = Lasso()
lasso_poly4.fit(X_train_poly4,y_train)
#對Lasso模型在測試樣本上的迴歸功能進行評估
print lasso_poly4.score(X_test_poly4,y_test)
#輸出:0.83889268736
#輸出Lasso模型的引數列表
print lasso_poly4.coef_
#[0.00000000e+00   0.00000000e+00   1.17900534e-01   5.42646770e-05  -2.23027128e-04]

#小結：
#1.預設配置的Lasso模型(L1範數正則化的模型)效能比普通的多項式迴歸模型更好一些；
#2.相較於普通的多項式迴歸模型，Lasso模型擬合後對引數列表中，4次與3次特徵的引數均為0.0，使得特徵更加稀疏。

#*************************************************************************************
#2.L2範數正則化
#目標：讓引數(權重)向量中的大部分元素 都 變得很小，<壓制了引數之間對差異性>
#這種壓制引數之間差異性的L2正則化模型，通常被稱為Ridge模型
from sklearn.linear_model import Ridge
ridge_poly4 = Ridge()
ridge_poly4.fit(X_train_poly4,y_train)
print ridge_poly4.score(X_test_poly4,y_test)
#輸出:0.837420175937
#輸出Ridge模型擬合後引數的平方和
print np.sum(ridge_poly4.coef_**2)
#0.0154989652036

#小結：
#1.預設配置的Ridge模型(L2範數正則化的模型)效能比普通的多項式迴歸模型更好一些；
#2.相較於普通的多項式迴歸模型，Ridge模型擬合後引數之間的差異非常小

#最後值得一提的是，不論是L1範數正則化，還是L2範數正則化，懲罰項都有一個調節因子λ，在模型優化中扮演重要的角色，留待後續研究。

18.【進階】模型正則化--L1&L2範數正則化

#-*- coding:utf-8 -*- #模型正則化：目的是提高模型在未知測試資料上的泛化力，避免參數過擬合 #常用方法：在原模型優化目標的基礎上，增加對引數的懲罰(penalty)項 #拓展一下L0範數、L1範數、L2範數的概念 #L0範數是指向量中非0

17.【進階】模型正則化--欠擬合與過擬合問題

#-*- coding:utf-8 -*- #學習目標：以“披薩餅價格預測”為例，認識欠擬合和過擬合的問題 #假定只考慮披薩的尺寸和售價的關係,X為尺寸，y代表售價 X_train = [[6],[8],[10],[14],[18]] y_train = [

20.【進階】流行庫模型--NLTK(Nature Language Toolkit)

#-*- coding:utf-8 -*- #如何將下面兩行句子向量化 sentence1 = 'The cat is walking in the bedroom.' sentence2 = 'A dog was running across the kit

23.【進階】流行庫模型--Tensorflow&SKFlow

Tensorflow 用以編寫程式的計算機軟體；計算機軟體開發工具；可用於人工智慧、深度學習、高效能運算、分散式計算、虛擬化和機器學習這些領域；軟體庫可用於通用目的的計算、資料收集的操作、資料變換、輸入輸出、人工智慧等領域的建模和測試軟體可用作應用於

21.【進階】流行庫模型--word2vec

詞的向量化表示 word2vec模型的採用的思想是，n元語法模型(n-gram model)，即假設一個詞只與周圍n個詞有關，而與文字中的其他詞無關首先，我們要明確，句子中的連續詞彙片段，也被稱為上下文context，詞彙之間的聯絡就是通過無數個這樣的上

技術鄰學院直播預告｜【進階】simufact軟件焊接仿真工藝培訓

技術分享教學過程高級工程師力學案例評論代理電子技術鄰學院直播預告【進階】simufact軟件焊接仿真工藝培訓（6月10日）直播信息日期： 2017年6月10日（星期六）20：00--21：30 直播地址：熊貓直播http://pan

Docker極簡教程【進階】

原文連結：https://www.javazhiyin.com/20513.html 1. DockerFile建立映象建立檔案Dockerfile檔案，該檔名不可更改 vi Dockerfile 寫入文字 FROM alpine:latest MAINT

【連結串列面試題】【進階】

1、查詢倒數第 k 個連結串列題目描述：給定一個單向連結串列 List ，要你設計演算法找出倒數第 K 個結點並列印 struct ListNode { DataType m_Value; ListNode* m_pNext; }; ListNode* FindKt

【進階】RecyclerView原始碼解析(二)——快取機制

引言接著上一篇部落格分析完RecyclerView的繪製流程，其實對RecyclerView已經有了一個大體的瞭解，尤其是RecyclerView和LayoutManager和ItemDecoration的關係。本篇文章將對RecyclerVie

14.【進階】特徵提升之特徵抽取----DictVectorizer

說明：DictVectorizer的處理物件是符號化(非數字化)的但是具有一定結構的特徵資料，如字典等，將符號轉成數字0/1表示。 #-*- coding:utf-8 -*- #學習目標：使用DictVectorizer對使用字典儲存的資料進行特徵抽取和

【進階】從linux到android，程序的方方面面

最近在閱讀《Linux核心設計與實現》，這裡做一下linux中程序相關的知識點整理，以及android中程序的淺析。下面1，2小節整理自《Linux核心設計與實現》第三章《程序管理》和第四章《程序排程》。第3節整理android中程序的知識點。

【進階】RecyclerView原始碼解析(三)——深度解析快取機制

上一篇部落格從原始碼角度分析了RecyclerView讀取快取的步驟，讓我們對於RecyclerView的快取有了一個初步的理解，但對於RecyclerView的快取的原理還是不能理解。本篇部落格將從實際專案角度來理解RecyclerView的快取原理。

【進階】RecyclerView原始碼解析(一)——繪製流程

引言自從Google出了RecyclerView後，基本上列表的場景已經完全替代了原來的ListView和GridView，現在不僅僅是列表，多樣式（俗稱蓋樓），複雜頁面等，只要我們願意，RecyclerView幾乎可以代替實現80%的佈局，Git

19.【進階】超引數搜尋--網格搜尋&並行搜尋

超引數搜尋前面所提到的模型配置，我們一般統稱為模型的超引數，如K近鄰演算法中的k值、支援向量機中不同的核函式等，多數情況下，超引數等選擇是無限的，除了人工預設幾種超引數的組合以外，還可以通過啟發式的搜尋演算法對超引數組合進行調優。這種啟發式的搜尋演算法對

15.【進階】特徵提升之特徵抽取--CountVectorizer和TfidfVectorizer

#學習目標1:使用CountVectorizer和TfidfVectorizer對非結構化的符號化資料(如一系列字串)進行特徵抽取和向量化 from sklearn.datasets import fetch_20newsgroups #從網際網路上即時下載新

深度學習正則化-引數範數懲罰（L1,L2範數）

L0範數懲罰機器學習中最常用的正則化措施是限制模型的能力，其中最著名的方法就是L1和L2範數懲罰。假如我們需要擬合一批二次函式分佈的資料，但我們並不知道資料的分佈規律，我們可能會先使用一次函式去擬合，再

機器學習中正則懲罰項L0/L1/L2範數詳解

https://blog.csdn.net/zouxy09/article/details/24971995 原文轉自csdn部落格，寫的非常好。 L0: 非零的個數 L1: 引數絕對值的和 L2:引數平方和

【SSH快速進階】——struts2的模型驅動—ModelDriven

上篇部落格《SSH快速進階——struts2簡單的例項》中，處理使用者登陸的action—LoginAction為： package com.danny.user.action; public cl

【Android進階】(3)Android圖像處理

progress chang etc geo xtend static ogr arch 取出 1. 概念色調/色相：物體傳遞的顏色飽和度：顏色的純度，從0（灰）到100%（飽和）來進行描寫敘述亮度/明度：顏色的相對明暗程度 2. 調整圖像小Demo 創建一個

【Android進階】Junit單元測試環境搭建以及簡單有用

rar theme 選擇 http 技術分享才幹 ack package family 單元測試的目的首先。Junit單元測試要實現的功能，就是用來測試寫好的方法是否可以正確的運行，一般多用於對業務方法的測試。單元測試的環境配置 1.在Andro

18.【進階】模型正則化--L1&L2範數正則化

相關推薦