為什麼深層網路很難訓練
為什麼需要深層神經網路
第一:層數的增多會使每一層任務都變得簡單,例如計算乘法,可以在第一層計算按位加法,第二層計算兩個數的加法,第三層計算乘法,這樣的演算法邏輯更加簡單,清晰。也就是說中間層可以做更深的抽象。
第二:數學上可以證明只有一層隱藏層的神經網路可以表示任意的函式,但是神經元的數量卻是指數級增加的,但是使用深層網路可以解決這個問題。
所以綜上深層神經網路可以解決淺層神經網路無法輕易解決的問題。
但是如果我們使用隨機梯度下降訓練深層神經網路的話,就會發現結果並沒有比淺層神經網路好。這是因為不同的層學習速度差很多,後面的層學習更快,這是因為我們使用的是基於梯度的學習演算法。
The vanishing gradient problem
在使用MLP識別MNIST時我們會發現,一味的增加隱藏層數量並不會給最終的結果帶來好處,但是上文已經說了層數的增加可以使神經網路提升,那麼問題的原因就是增加後的網路的權重不對。
所以,並不是網路結構的問題,而是這種訓練演算法的問題。
那麼,問題來了,梯度消失的原因是什麼?我們怎樣避免梯度消失?怎樣訓練神經網路?實際上,在深度神經網路中不只有梯度消失還有梯度爆炸,只能說明深層神經網路中的梯度並不穩定,這時基於梯度的演算法無法正常工作的根本原因。
首先,想一下在近層梯度變小是不是真正的問題,或許只是那裡接近了極小值點?很可惜並不是這樣,因為我們的權重都是隨機初始化的,沒有理由哪裡不需要訓練。
梯度消失的原因
實際上,梯度消失和梯度爆炸都是梯度不穩定的表現,這是因為淺層的神經元=後面所有神經元的乘積,所以當層數增多後容易引起不穩定的表現,
深度學習的其他問題
梯度不穩定只是深度學習中的一個問題,雖然是最重要的,近年來學者們也在研究其他的一些原因,
- 2010 年Glorot and Bengio發現sigmoid函式可能是深度學習的問題之一,
- 2013 年Sutskever, Martens, Dahl and Hinton研究了權重的初始化,以及基於動量的方法
相關推薦
為什麼深層網路很難訓練
為什麼需要深層神經網路 第一:層數的增多會使每一層任務都變得簡單,例如計算乘法,可以在第一層計算按位加法,第二層計算兩個數的加法,第三層計算乘法,這樣的演算法邏輯更加簡單,清晰。也就是說中間層可以做更深的抽象。 第二:數學上可以證明只有一層隱藏層的神經網路可
深度神經網路為何很難訓練(包含梯度消失和梯度爆炸等)
我選取了原文的部分內容進行轉載。之前我搜索”梯度消失和梯度爆炸“的相關部落格,發現很多都解釋的不是很好,然後看到了 極客學院 的這篇介紹,感覺介紹的挺詳細,轉載一下,大家一起分享一下~ 到現在為止,本書講神經網路看作是瘋狂的客戶。幾乎我們遇到的所有的網路
問題很有意思和傳統實體消費品不同文化消費品很難
clas jsp 不同 ndt 有意思 gpe fbx rpv dfa 赫檔淘控旨KHE棺揪惶紡http://baobao.baidu.com/article/a8051e073a7b4c47b31f0ac15e9e04b1.html?2017/10/04=j913H3
堅持做自己很難?生活是你的選擇!(轉https://www.hjenglish.com/speeches/p533918/)
tle build 一點 like 發展 conf ive 為我 這一 When it comes to being yourself, there can be a lot of pressure from the outside world as it tries to
愛一個人真的很難,但失去太過容易。
個人 恢復 後來 失去 後悔 世界 喜歡 時間 愛一個人 ---恢復內容開始--- 曾經我有一個愛人,是她追的我,剛開始不喜歡她,後來慢慢的愛上了她,時間還是一把刀還是經不起磨煉,最後還是分開了。到現在還是挺懷念的,有點後悔。人就是這樣當失去後的時候,才知道可
3星|《哈佛商業評論》201710:人工智能難免會犯錯,但我們很難發現出錯的地方並做出精確調整。
記敘文 性能 應該 接受 成功 滿意度 數據顯示 es2017 打字 剛發現這本雜誌在27寸曲面屏上閱讀體驗非常好,不需要放大就能看清楚圖片上的數字,在以前的21寸顯示器上看圖表有困難,在kindle上看圖表也比較困難。 本期主題是人工智能,還有一篇講A/B測試,從I
第一次真正接觸滑板,很難,這能成為我的一個新興趣嗎?
新興 val plugins load 網上 壓力 src plugin swf 閑來無事和同事去超市逛圈,就在有塊滑板的置物架旁停下了腳步,這是我第一次真正接觸滑板,以前從網上略微了解到叫雙翹滑板,是人們接觸比較多的滑板類型,比起長板略小也略輕。 因為可以試用,於是我拿
【PAT-一道看著很難的水題】L2-023. 圖著色問題
pre math urn 問題 png info scan 水題 image 水題!沒其他想說的,還以為可以搞點高大上的搜索呢!十五分鐘,暴力兩重循環就OK了! 代碼如下: #include<iostream> #include<stdio.h>
想進BAT面試的Java程序員 看完這個你們還覺得offer很難拿嗎???
java 分布式 程序員阿裏面試問些什麽? 參加阿裏的社招面試,而社招不同於校招,問題的範圍其實是很隨機的。因為能參加一些比較知名的互聯網公司社招的人,70%以上都會有個3-5年的經驗。這倒不是說一兩年經驗的同學沒有機會進這些公司,而是因為這種公司,大部分情況下只招一些比較資深的開發和應屆生,而不招那些處於中
“轉行做程序員”很難?這裏有4個建議
面試題 時間 一定的 失敗 思維 直觀 應聘 list 開發 近幾年來,傳統行業多處於經濟下行,加上互聯網行業的賺錢效應,想要轉行到這一行的人越來越多,其中程序員這個行業更是很多人夢寐以求的。 但另一方面,我們也發現,這些想要轉行的同學們往往會遇到很多困擾。就在一周以前
區塊鏈很難嗎? 40行python開發一個區塊鏈
Python 區塊鏈 金融 盡管有人認為區塊鏈目前還是個不成熟的解決方案,但它無疑稱得上是計算機發展歷史上的一個奇跡。但是,到底區塊鏈是什麽呢? 我們將通過動手實現一個迷你的區塊鏈來幫你真正理解區塊鏈技術的核心原理。python源代碼保存在Github。區塊鏈區塊鏈是一個公開的數字賬本,它按時間順
如果我告訴你,程序員這條路很難走,你還要堅持走下去嗎
程序員 職場 可能很多人都覺得程序員是個高薪行業,動不動就聽見誰月薪幾萬幾萬,心裏羨慕不已。回頭看自己每個月手裏可憐的工資條,心裏更是煩躁不已,於是乎下定決心一定要像人家一樣,月薪幾萬。但是實際上,高薪程序員並不像人們想象中的那麽輕松。許多程序員自稱碼農,因為每天事情總也做不完,而這些工作也沒有給自
為什麽現在我們很難打造一支跟中供鐵軍一樣的銷售隊伍?
擁堵 學員 天都 大眾 沒有 都是 礦泉水 所有 開始 滴滴出行創始人程維、同程旅遊 CEO 吳誌祥、原美團 COO 幹嘉偉、原大眾點評 COO 呂廣渝、原趕集網 COO 陳國環,中國互聯網數不清的 CEO 和高管都出自阿裏中供鐵軍。 馬雲曾公開評價:“阿裏巴巴旗下最剽悍,
小白挖礦真的很難入手?普通電腦挖礦收益真的就很低?
新聞 ESS 篡改 自動 一鍵 點擊 密碼 64位操作系統 貨幣 說起區塊鏈這個詞語大家都不陌生,但是真正了解它的人是少之又少,區塊鏈簡單的來說就是一種按照時間順序將數據區塊以順序相連的方式組合成的一種鏈式數據結構, 並以密碼學方式保證的不可篡改和不可偽造的分布式賬本。 挖
QQ能把語音轉文字!為啥微信確沒有?很難嗎?十行Python代碼就行
開放 return 設置 介紹 open 開放平臺 異地 保護 sta QQ和微信這兩款都是非常受人喜歡的聊天交友軟件!可能大家平時沒有留意到,也或者是大家可能很少用微信,或者很少用QQ吧!所以可能沒有留意這些小細節!就是QQ上面發的語音消息是可以直接文字識別的,但是微信為
百度首頁暗藏的2019招聘廣告彩蛋,非技術人員很難發現,看來是定向傳送啊
這個廣告是在瀏覽器控制檯打印出來的: 同學,祝賀你喜提彩蛋~或許你們還在猶豫是否加入,我會坦誠的告訴你我們超酷;在這裡大家都用無人車代步,AI音箱不僅播放還可以互動;人工智慧是發展的核心技術,做自己讓未來不只領先幾步;在這裡做自己,歡迎來到百度! all_async_search_df6ab58.js:1
你覺得python很難,那只是你沒有懂而已!
在 Python 尤其是 Python2 中,編碼問題是困擾開發者尤其初學者的一大問題。什麼 Unicode/UTF-8/str,又是 decode/encode 的,搞得人頭都大了。其實不然,看似龐大難懂,但是可以非常精細地定製需求。 0.Python 中的編碼 Python 中有兩個常用
破解密碼很難?利用Python自動編寫暴力破解字典,黑客必學技能!
Python是一款非常強大的語言。用於測試時它非常有效,因此Python越來越受到歡迎。 因此,在此次教程中我將聊一聊如何在Python中生成字典,並將它用於任何你想要的用途。 前提要求 如果你用virtualenv搭建Python開發環境
高中數學學習很累很難?逆襲人肉背景板。
我們總是在畢業的時候,才突然真正愛上學校。對於我的母校一中,我也是這種感覺。 三年前,我無比地憎恨這個地方,可當真正離開了,只能以往屆畢業生再進來時,卻無比激動,懷念那段時光…… 中學時代的我是個怎麼樣的存在呢?有個詞叫“人肉背景板”,這用來形容我最恰當不過。 我
高考數學快速解題之高中數學真的很難嗎???
到了高三,從9月份到第二年的4月,是一輪複習的時間。在這段時間裡,老師會把這10本教材,每一個知識點,每一個重要的習題,都詳細地複習。此時,距離你高一初次學習必修課本的時候,已經過去2年了——該忘的都忘了,不該忘的更加忘了。 一輪複習,實際上是綜合性的複習,難度會比以往學習的時