深度學習筆記008MultilayerPerceptron多層感知機AssertionError

阿新 • • 發佈：2022-01-16

今天學的是感知機，程式碼放在下面，總結了幾個問題。

1. MLP多層感知機與SVM支援向量機的區別：

1.MLP需要設定W和b，但是SVM對引數不敏感，所以相對方便一些；
2.SVM在數學上解釋性更強；
3.SVM優化相對容易。

2.為什麼是深度學習，而不是廣度學習？——直覺解釋，這玩意不會有理論依據

只有一個原因，廣度學習不好訓練，一口氣吃成一個胖子，非常容易過擬合。
學習，應該從簡單的開始學，從和輸入層差不多的地方開始學，慢慢深入深入；
而不是把所有東西複雜的簡單的一起扔到你的大腦。

3.三種函式的本質：

4.單層感知機的侷限性

當初因為單層感知機不能解決XOR問題，導致了AI領域的第一次凜冬。

5. 極大似然估計講的不錯的視訊：

https://www.bilibili.com/video/BV1Hb4y1m7rE/?spm_id_from=333.788.recommend_more_video.-1

原始碼如下：

感知機從0實現

 1 import torch
 2 from torch import nn
 3 from d2l import torch as d2l
 4 
 5 # 感知機從0實現
 6 
 7 batch_size=256
 8 train_iter,test_iter=d2l.load_data_fashion_mnist(batch_size) #又是用這個資料集 

 9 
10 num_inputs,num_outputs,num_hiddens=784,10,256 #輸入輸出是固定的，總畫素784,10類，隱藏層大小自己定
11 # 定義引數，W1是第一層的權重矩陣，行列為輸入層、隱藏層，W2自然就是隱藏層和輸出層了；b則為輸出的偏置矩陣
12 W1=nn.Parameter(torch.randn(num_inputs,num_hiddens,requires_grad=True)*0.01)
13 b1=nn.Parameter(torch.zeros(num_hiddens,requires_grad=True))
14 W2=nn.Parameter(torch.randn(num_hiddens,num_outputs,requires_grad=True)*0.01)
 
15 b2=nn.Parameter(torch.zeros(num_outputs,requires_grad=True))
16 
17 params=[W1,b1,W2,b2]
18 
19 # 啟用函式，哈哈哈哈哈太簡單沐神都輕蔑的笑了
20 def relu(X):
21     a=torch.zeros_like(X)
22     return torch.max(X,a)
23 
24 # 定義網路
25 def net(X):
26     X=X.reshape((-1,num_inputs)) # 這裡這個-1代表我不知道是幾行（其實就是1行）
27     H=relu(X@W1+b1)
28     return H@W2+b2
29 
30 num_epochs,lr=10,0.1
31 updater=torch.optim.SGD(params,lr=lr)
32 loss=nn.CrossEntropyLoss()
33 d2l.train_ch3(net,train_iter,test_iter,loss,num_epochs,updater)
34 d2l.plt.show()

感知機簡潔實現

 1 # 感知機簡潔實現
 2 net = nn.Sequential(nn.Flatten(),nn.Linear(784,256),nn.ReLU(),nn.Linear(256,10)) #扁平化，第一層，啟用函式，第二層
 3 
 4 # 權重初始化
 5 def init_weights(m):
 6     if type(m)==nn.Linear:
 7         nn.init.normal_(m.weight,std=0.01)
 8 net.apply(init_weights)
 9 
10 batch_size,lr,num_epochs=256,0.1,10
11 loss=nn.CrossEntropyLoss()
12 trainer=torch.optim.SGD(net.parameters(),lr)
13 
14 train_iter,test_iter=d2l.load_data_fashion_mnist(batch_size)
15 
16 d2l.train_ch3(net,train_iter,test_iter,loss,num_epochs,trainer)
17 d2l.plt.show()

從0實現（左側）與簡潔實現（右側）的結果：

可以發現幾乎沒有什麼區別，但是做簡潔實現的時候我發現了一個問題，就是W不乘以0.01，會讓訓練的loss減小地非常緩慢，以至於在10次迭代中，loss不能降低到0.5，而Torch內部的訓練函式輸出時有一個斷言，assert loss<0.5，這時候輸出影象就會產生斷言錯誤，如下：

解決這個問題的方式有兩個，一個是用try catch將斷言異常丟擲：https://www.cnblogs.com/fanjc/p/10072556.html

另一個就是把loss訓練的再小一些，因為這個斷言本身就是為了我們結果的合理性寫的，所以可以改大epoch增加迭代次數，比如改成30次，可以將loss降低到0.5左右如下：

這才是正解。

但是我個人其實沒有理解透徹為什麼在W上縮小100倍，就能夠加快訓練速度，請看到這裡的大佬在評論區指教一下謝謝哦~

深度學習筆記008MultilayerPerceptron多層感知機AssertionError

今天學的是感知機，程式碼放在下面，總結了幾個問題。 1. MLP多層感知機與SVM支援向量機的區別：

（pytorch-深度學習系列）pytorch實現多層感知機（自動定義模型）對Fashion-MNIST資料集進行分類-學習筆記

pytorch實現多層感知機（自動定義模型）對Fashion-MNIST資料集進行分類匯入模組：

動手學深度學習影象分類例項-多層感知機(三) 多層感知機的簡潔實現

技術標籤：深度學習深度學習神經網路機器學習人工智慧python 動手學深度學習影象分類例項-多層感知機(三) 多層感知機的簡潔實現

動手學深度學習 | 多層感知機+程式碼實現 | 08

目錄感知機多層感知機多層感知機從零開始實現多層感知機簡潔實現QA 感知機

多層感知機還在進步，關於深度學習中MLP的5篇最新的論文推薦

多層感知機還在進步，關於深度學習中MLP的5篇最新的論文推薦 1、MLP-Hash: Protecting Face Templates via Hashing of Randomized Multi-Layer Perceptron

Alink漫談(十四) ：多層感知機之總體架構

Alink漫談(十四) ：多層感知機之總體架構目錄Alink漫談(十四) ：多層感知機之總體架構0x00 摘要0x01 背景概念1.1 前饋神經網路1.2 反向傳播1.3 代價函式1.4 優化過程1.4.1 迭代法1.4.2 梯度下降1.5 相關公式1.5

模擬分立器件搭建多層感知機（MLP）（應用擬合迴歸）

模擬分立器件搭建MLP（應用擬合迴歸）概述剛剛接觸MLP（多層感知機），又有一點本科類比電路設計淺顯的基礎，就弄了一個分立器件的MLP玩了玩，網路大小112*1較簡單，在硬體層面只能完成一些比較簡單的曲線

pytorch（十七）：多層感知機全連線曾

一、全連線層用pytorch定義二、MLP舉例三、具體程式碼 class MLP(nn.Module): def __init__(self):

用Keras實現MNIST手寫數字識別（使用MLP:多層感知機）

https://github.com/jelly-lemon/keras_mnist_0112 用Keras實現MNIST手寫數字識別 MNIST手寫數字資料集介紹

多層感知機與簡易CNN的TensorFlow實現

下文使用TensorFlow實現了一個多層感知機和一個簡單的卷積神經網路模型，並應用於資料集MNIST。

利用python手擼一個簡單的多層感知機模型

技術標籤：python深度學習總結python深度學習摸魚時刻。基本的深度學習原理，很早就接觸了，前向傳播、反向傳播等都有了解，但是一直沒自己實現過，雖然說站在巨人的肩膀上可以看的更遠，但理解底層會讓你站的更

計算機視覺-全連線神經網路（多層感知機）

全連線神經網路全連線神經網路級聯多個變換來實現輸入到輸出的對映。每一層神經網路就是一個線性變換，將上一層的變換結果經過啟用函式處理傳遞給下一層就形成了多層全連線神經網路。

《零基礎入門深度學習》學習筆記（一）感知器-程式碼詳解

技術標籤：零基礎入門深度學習python機器學習人工智慧深度學習神經網路最近在蒐集資料時無意中看到知乎中有人推薦此教程，特整理輸出一遍。形成此係列文章。本文原文標題為：

tensorflow多層感知器例項筆記

import tensorflow as tf import pandas as pd import numpy as py import matplotlib.pyplot as plt %matplotlib inline

tensorflow學習005——多層感知器（神經網路）與啟用函式

之前學習的線性迴歸模型其實是單個神經元：計算輸入特徵的加權和，然後使用一個啟用函式計算輸出。上面的線性迴歸實際並沒有涉及啟用函式，直接將結果輸出了。

Python學習筆記Day09 - 多執行緒

目錄1.paramiko 基於SSH用於連線遠端伺服器並執行相關操作2.SSH與SFTP，通過paramiko執行命令，或傳輸檔案3.ssh 金鑰4.程序和執行緒5.threading 多執行緒GIL vs locklock 執行緒鎖（mutex互斥鎖）保證同一時間只有一

深度學習筆記一

1. 深度學習筆記一 1.1 緒論（1）關於人工智慧、機器學習與深度學習之間的關係：

深度學習筆記二：卷積神經網路（CNN）

卷積神經網路CNN 1. 緒論 1. 卷積神經網路的應用基本應用：分類、檢索、檢測、分割

python學習筆記之多程序

我們現代的作業系統，都是支援“多工”的作業系統，對於作業系統來說，一個任務就是一個程序(process)。比如開啟一個瀏覽器就是啟動一個瀏覽器程序。

深度學習筆記——常用的啟用（激勵）函式

　　啟用函式（又叫激勵函式，後面就全部統稱為啟用函式）是模型整個結構中的非線性扭曲力，神經網路的每層都會有一個啟用函式。那他到底是什麼，有什麼作用？都有哪些常見的啟用函式呢？

深度學習筆記008MultilayerPerceptron多層感知機AssertionError

相關推薦