1. 程式人生 > >機器學習必備手冊

機器學習必備手冊

知識 都是 任務 lib when 能夠 每天 machine 發的

機器學習是計算機科學的一個子領域,在人工智能領域,機器學習逐漸發展成模式識別和計算科學理論的研究。從2016年起,機器學習到達了不合理的火熱巔峰。但是,有效的機器學習是困難的,因為機器學習本身就是一個交叉學科,沒有科學的方法及一定的積累很難入門。

如果你也想學習機器學習或者正在學習機器學習,本手冊一定會幫助你走向你自己的“人生巔峰”。手冊包含如何入門機器學習,機器學習流行算法,機器學習實戰等等。

一.機器學習入門篇:

1.讓你少走彎路:這有一份開展機器學習的簡短指南

摘要:本文分享了一份簡單的關於開展機器學習的心得體會,目的是給初學者提供基本的指導,主要講解了建立系統、選擇合適的評價指標、數據處理、系統優化等內容,幫助初學者少走一些彎路。

2. 機器學習的入門“秘籍”

摘要:機器學習已經成為當下最火熱的技術之一,對於初學者來說,如何快速入門機器學習是至關重要的。本文屬於入門級寶典,高手請繞道!

3. 會玩超級瑪麗,機器學習能有多難?

摘要:小白也能看懂機器學習?這篇文章用超級瑪麗的原理教會你,到底什麽是機器學習,讓尖端科技不再艱深難懂。

4. 機器學習能為你的業務做什麽?有些事情你肯定猜不到!(機器學習入門第一篇)

摘要:機器學習是一項令人難以置信的技術,你需要了解很多很多的基礎知識,以使得業務功能盡可能的不受復雜算法的影響,讓你能夠提出正確的問題、了解機器學習模型開發過程、成立一個團隊以促進學科間的不斷合作,而不是把數據科學視為一個產生奇跡的黑匣子。

5. 關於機器學習算法 你需要了解的東西(機器學習入門第二篇)

摘要:對學習算法進行分類是基於構建模型時所需的數據:數據是否需要包括輸入和輸出或僅僅是輸入,需要多少個數據點以及何時收集數據。根據上述分類原則,可以分為4個主要的類別:監督學習、無監督學習、半監督學習和強化學習。

6. 如何開發機器學習模型?(機器學習入門第三篇)

摘要:創建一個優秀的機器學習模型跟創建其他產品是一樣的:首先從構思開始,把要解決的問題和一些潛在的解決方案放在一起考慮。一旦有了明確的方向,就可以對解決方案進行原型化,然後對它進行測試以確定是否滿足需求,不妨看看本文是如何一步一步實現的。

7.如何高效運作機器學習團隊(機器學習入門第四篇)

摘要: 一個“傳統”的產品團隊由設計師、工程師和產品經理組成,而數據分析師有時也會包含在其中,但大多數情況下是多個團隊共享這個稀缺資源。在機器學習團隊中又會有哪些角色和組織結構呢,本文為你揭曉。

8.機器學習會產生哪些用戶體驗問題?(機器學習入門第五篇)

摘要:許多機器學習算法都是黑匣子:輸入大量的數據,然後獲得一個以某種神秘方式工作的模型。這使得很難向用戶解釋機器學習的結果。在許多算法中,還存在著交互效應,這使得模型更加難以解釋了。你可以把這個看成是特征之間的復合效應,特征之間以多種奇怪而又復雜並且不為人類所理解的方式結合在一起,整體效應大於各個部分效應。

9. 簡單自學機器學習理論——引言 (Part I)

摘要:本篇文章是"機器學習理論"三部曲中的第一部分,主要介紹學習機器學習的動機及基本理論知識,詳細介紹機器學習所學習的問題、泛化誤差以及學習問題是否可解的公式化表示,為初步研究機器學習的人員介紹了機器學習的基本處理過程。

10. 簡單自學機器學習理論—— 泛化界限 (Part II )

摘要:本篇文章是"機器學習理論"三部曲中的第二部分,主要介紹獨立同分布、大數法則及hoeffding不等式等基本數學知識,詳細推導了泛化界限及其分解。

11. 簡單自學機器學習理論——正則化和偏置方差的權衡 (Part III )

摘要:本篇文章是"機器學習理論"三部曲中的第三部分,主要介紹方差分解以及目標函數的正則化,通過仿真可以看到,引入正則化項限定了學習問題的解決方案範圍。

12. 入門級攻略:機器學習 VS. 深度學習

摘要:本文以淺顯易懂的語言介紹了機器學習和深度學習的定義及應用,以及在源數據要求,硬件支持,特征工程、問題解決方式、執行時間及可解釋性等方面的區別,對於新手入門有很大啟示意義。

13. 增強學習小白?本文帶你入門了解增強學習

摘要:入門一件新事物總是會有些無從下手的,看了本文希望可以給大家一些幫助和了解。

14.這10本由淺入深的好書,或讓你成為機器學習領域的專家

摘要:機器學習是個跨領域的學科,而且在實際應用中有巨大作用,但是沒有一本書能讓你成為機器學習的專家。在這篇文章中,我挑選了10本書,這些書有不同的風格,主題也不盡相同,出版時間也不一樣。因此,無論你是新手還是領域專家,定能找到適合你的。

15.想知道機器學習掌握的怎麽樣了嗎?這有一份自測題(附答案和解析)

摘要:人類對於自動化和智能化的追求一直推動著技術的進步,而機器學習這類型的技術對各個領域都起到了巨大的作用。隨著時間的推移我們將看到機器學習無處不在從移動個人助理到電子商務網站的推薦系統。即使作為一個外行你也不能忽視機器學習對你生活的影響。本次測試時面向對機器學習有一定了解的人。

16. 送機器學習電子書——(TensorFlow)RNN入門

摘要:本文作者正在寫自己的新書Machine Learning with TensorFlow,這篇博文只是他新書的一小部分,作者用簡單的語言介紹了RNN,不用一個小例子介紹了如何使用Tensorflow中內置的RNN模型進行預測。

17. 適合入門的8個趣味機器學習項目

摘要:還在為找不到機器學習入門練手項目而感到無奈嗎?本指南中,將給大家帶來8個適合初學者學習的有趣的機器學習項目,簡單易學,相信會增添大家學習機器學習的信心。

18. 機器學習快速入門:你必須知道的三大算法

摘要:每天霸占新聞頭條的“機器學習”,想入門,先看懂這三大算法。

二.機器學習算法篇:

1.快速選擇合適的機器學習算法

摘要:機器學習初學者可以通過本文了解如何快速找到合適的機器學習算法。

2.多重角度解讀:貝葉斯推理是怎麽工作的

摘要:本文首先介紹了貝葉斯的起源,並利用簡單的例子生動形象地講解了貝葉斯定理是如何工作的,解釋了其基本原理以及公式的物理含義。

3.簡單通俗易懂:一個小例子完美解釋Naive Bayes(樸素貝葉斯)分類器

摘要:Naive Bayes分類器的解釋有很多,但是基於一個小例子來解釋的不多,本文就是基於一個簡單通俗易懂的小例子來解釋Naive Bayes分類器。

4.“學”、“習”二合一:監督學習——支持向量機(SVM)入門

摘要:SVM是機器學習中有監督學習的一種,通常用來進行模式識別、分類、以及回歸分析。本文用一個小例子簡介SVM,言簡意賅,通俗易懂。

5.機器學習利器——決策樹和隨機森林

摘要: 機器學習是當下最火的領域,本文通過一個小例子介紹了其核心算法:決策樹和隨機森林。

6.基於圖的機器算法 (一)

摘要:基於圖的機器算法學習是一個強大的工具。結合運用模塊特性,能夠在集合檢測中發揮更大作用。

7.基於圖的機器算法 (二)

摘要:基於圖的機器算法學習是一個強大的工具。結合運用模塊特性,能夠在集合檢測中發揮更大作用。本文是基於圖的機器算法系列文的第二篇。

8.簡單易學!一步步帶你理解機器學習算法——馬爾可夫鏈蒙特卡羅(MCMC)

摘要:對於簡單的分布,很多的編程語言都能實現。但對於復雜的分布,是不容易直接抽樣的。馬爾可夫鏈蒙特卡羅算法解決了不能通過簡單抽樣算法進行抽樣的問題,是一種實用性很強的抽樣算法。本文將簡明清晰地講解馬爾可夫鏈蒙特卡羅算法,帶你理解它。

9.進階隱式矩陣分解——探討如何實現更快的算法

摘要:本文重點是圍繞Conjugate Gradient(共軛梯度)方法來探討更優的矩陣分解算法。

10.純幹貨|機器學習中梯度下降法的分類及對比分析(附源碼)

摘要:本文詳細介紹了基於使用數據量的多少,時間復雜度以及算法準確率的不同類型的梯度下降法,並詳細說明了3種梯度下降法的比較。

11.深度學習網絡大殺器之Dropout(I)——深入解析Dropout

摘要:本文詳細介紹了深度學習中dropout技巧的思想,分析了Dropout以及Inverted Dropout兩個版本,另外將單個神經元與伯努利隨機變量相聯系讓人耳目一新。

12.深度學習網絡大殺器之Dropout(II)——將丟棄學習視為集成學習之我見

摘要:本文分析了可以將丟棄學習當作是集成學習。在集成學習中,可以將一個網絡劃分成若幹個子網絡,並且單獨訓練每個子網絡。在訓練學習後,將每個子網絡的輸出進行平均得到集成輸出。另外,展示了丟棄學習可以看成是在每次叠代中不同隱藏節點集合的集成學習表現,同時也展示了丟棄學習有著與L2正則化一樣的效果。

13.神經網絡常用激活函數對比:sigmoid VS sofmax(附python源碼)

摘要:本文介紹了神經網絡中的兩種常用激活函數——softmax與sigmoid函數,簡單介紹了其基本原理、性質及其使用,並用python進行了實例化演示,在文章的最後總結了兩種激活函數的區別。

14.新穎訓練方法——用叠代投影算法訓練神經網絡

摘要:本文介紹了一種利用叠代投影算法對神經網絡進行訓練的方法,首先介紹了交替投影的基礎知識,說明投影方法是尋找非凸優化問題解決方案的一種有效方法;之後介紹了差異圖的基礎知識,將差異圖與一些其他算法相結合使得差分映射算法能夠收斂於一個好的解決方案;當投影的情況變多時,介紹了分治算法,最後將叠代投影算法應用到神經網絡訓練中,給出的例子實驗結果表明效果不錯。

15.車輛追蹤算法大PK:SVM+HOG vs. YOLO

摘要:本文通過SVM+HOG算法,YOLO算法實現車輛檢測和跟蹤準確性和速度的對比,得出YOLO算法更具優勢的結論。

16.什麽是視頻向量化?本文帶你了解基於DeepWalk的視頻推薦

摘要:本文簡要講述了視頻向量化,對DeepWalk的算法進行簡單的解釋。

17.比PCA降維更高級——(R/Python)t-SNE聚類算法實踐指南

摘要: 本文介紹t-SNE聚類算法,分析其基本原理。並從精度上與PCA等其它降維算法進行比較分析,結果表明t-SNE算法更優越,本文最後給出了R、Python實現的示例以及常見問題。t-SNE算法用於自然語音處理、圖像處理等領域很有研究前景。

18.隨機森林 VS 梯度提升機——模型融合之我見

摘要:本文節選自Quora社區上“When would one use Random Forests over Gradient Boosted Machines (GBMs)?”問題的回答,幾位博主就隨機森林(Random Forests)與梯度提升機(Gradient Boosted Machines, GBMs)的適合場景以及優缺點展開了討論。

三.機器學習常用庫:

1.倚天遇到屠龍:LightGBM VS xgboost誰才是最強的梯度提升庫?

摘要:很多人把XGBoost比作屠龍刀,LightGBM比作倚天劍,那麽當倚天遇到屠龍,誰更強呢?

2.即學即用:Pandas入門與時間序列分析

摘要:這篇文章是Alexander Hendorf 在PyData Florence 2017上做的報告。報告前半部分主要為初學者介紹Pandas的基本功能,如數據輸入/輸出、可視化、聚合與選擇與訪問,後半部分主要介紹如何使用Pandas進行時間序列分析,源代碼親測可用。

3.俄羅斯最大搜索引擎Yandex開源了一款梯度提升機器學習庫CatBoost

摘要:俄羅斯搜索巨頭Yandex宣布,將向開源社區提交一款梯度提升機器學習庫CatBoost。它能夠在數據稀疏的情況下“教”機器學習。特別是在沒有像視頻、文本、圖像這類感官型數據的時候,CatBoost也能根據事務型數據或歷史數據進行操作。

4.Netflix開源面向稀疏數據優化的輕量級神經網絡庫Vectorflow

摘要:在Netflix公司,我們的機器學習科學家在多個不同的領域處理著各種各樣的問題:從根據你的愛好來定制電視和推薦電影,到優化編碼算法。我們有一小部分問題涉及到處理極其稀疏的數據;手頭問題的總維度數很容易就能達到數千萬個特征,即使每次要看的可能只是少數的非零項。

5.Python高性能計算庫——Numba

摘要:在計算能力為王的時代,具有高性能計算的庫正在被廣泛大家應用於處理大數據。例如:Numpy,本文介紹了一個新的Python庫——Numba, 在計算性能方面,它比Numpy表現的更好。

6.第二熱門語言:從入門到精通,Python數據分析庫大全

摘要:本文介紹了一些常見的用於數據分析任務的Python庫,如Numpy、Pandas、Matplotlib、Scikit-learn以及BeautifulSoup等,這些工具庫功能強大,便於上手。有了這些幫助,數據分析會變得分外簡單。

7.新工具——TensorLayer:管理深度學習項目的復雜性

摘要:本文介紹了一種新基於TensorFlow的python庫——TensorLayer,它能夠有效的幫助開發者管理好自己的深度學習網絡。並且它還提供了很多功能強悍的API,幫助開發者更好的完成任務。

8.Pandas並非完美無缺

摘要:我們一直使用Pandas,但是卻不知道關於Pandas的細節。Pandas開發者深度復盤Pandas,指出了十大關鍵性問題,並通過介紹了如何使用Apache Arrow來解決這些問題。

9. 關於Numba你可能不了解的七個方面

摘要:目前Numba正被開始流行使用來加速Python程序,本文講解了七個大家可能不了解的方面,希望對大家有所幫助。

四.機器學習實戰篇:

1.57行價值八千萬美元的車牌識別代碼

摘要:為了防止被竊車輛進入黑市銷售,警方使用了一個名為VicRoads的基於網絡的服務,該服務用於檢查車輛的登記狀態。該警局還投資研發了一個固定式汽車牌照掃描器:一個固定的三腳架攝像頭,可掃描過往的車輛,並自動識別被竊車輛。

2.如何利用機器學習預測房價?

摘要:本文作者利用自己過去三個月裏所學到的東西,來預測所在城市的房價。所用到的技術有網絡爬取技術、文本自然語言處理,圖像上的深度學習模型以及梯度增強技術等。

3.機器學習中的技術債務

摘要:許多人遇到技術債務時都會眉頭緊鎖,但一般來說,技術債務並不是一件壞事。例如,當我們需要在最後期限之前發布版本的時候,技術債務就是一個可以利用起來的合理手段。但是技術債務存在與金融債務一樣的問題,那就是到了要償還債務的時候,我們所付出的要比開始時付出得多。這是因為技術債務具有復合效應。

4.DIY圖像壓縮——機器學習實戰之K-means 聚類圖像壓縮:色彩量化

摘要:本文以圖像壓縮為例,介紹了機器學習的實際應用之一。

5.如何將機器學習用在基於規則的驗證上

摘要:這篇文章介紹了一些高級問題,比如:智能自治系統的驗證有多少可以用機器學習來實現?大多數的需求是否仍然是基於規則的,如果是這樣,那麽它們如何跟機器學習相結合? 機器學習和規則之間的不穩定接口如何影響基於機器學習的系統?

6.Certigrad——隨機計算圖優化系統

摘要:Certigrad是一種概念證明,它是用於開發機器學習系統的一個新途徑。

7.使用神經網絡和遺傳算法玩轉 Flappy Bird

摘要:本文展示了針對Flappy Bird遊戲設計的機器學習算法。本實驗的目標是使用神經網絡和遺傳算法編寫一個人工智能遊戲控制器,打出遊戲最高分,不服的來挑戰!

8.教機器寫代碼:增強拓撲進化網絡(NEAT)

摘要:NEAT的意思是“增強拓撲進化網絡”,它描述了在進化過程中受遺傳修飾啟發的自學習機器的算法概念,不妨看看它是如何教機器寫代碼的。

9. 機器學習中,使用Scikit-Learn簡單處理文本數據

摘要:機器學習中,我們總是要先將源數據處理成符合模型算法輸入的形式,比如將文字、聲音、圖像轉化成矩陣。對於文本數據首先要進行分詞(tokenization),移除停止詞(stop words),然後將詞語轉化成矩陣形式,然後再輸入機器學習模型中,這個過程稱為特征提取(feature extraction)或者向量化(vectorization)。

五.機器學習雜談篇:

1.關於機器學習你必須了解的十個真相

摘要:作者從非專業人士的角度對人工智能常見的誤解進行了解釋說明。

2.誰更勝一籌?——隨機搜索 V.S. 網格搜索

摘要:隨機法和網格法都是常用的、有效的結構優化方法。那麽它們兩者當中誰更勝一籌呢?在本文中,作者通過有趣的地形搜索實驗,找到了答案。

3.沒有任何公式——直觀的理解變分自動編碼器VAE

摘要:本文簡單介紹了變分自動編碼器VAE的基本原理,從經典神經網絡的貝葉斯計算概率方法慢慢轉變到變分自動編碼器神經網絡中的優化問題,使用KL散度度量誤差,給大家提供一個VAE的基本框架。全篇沒有公式,通俗易懂。

4.增強避障系統設計淺析:站在機器學習的角度,剖析學習型避障小車的設計思路

摘要:FF91於12017年1月4日在美國拉斯維加斯成功首發,拉開了互聯網生態電動汽車的序幕。自動泊車使得停車也成為了一種享受,新手司機再也不用擔心該如何見縫插針了。但是如果在車水馬龍的繁忙環境下,無人駕駛還能得心應手嗎?本文將站在機器學習的角度和大家分享學習型避障小車的設計思路。

5.AlphaGo在圍棋界成為最強王者後,我們該如何進行機器學習?

摘要:機器學習無疑是時下的科技熱點。無人駕駛,機器下棋,股市預測等領域,我們都能找到機器學習忙碌和高大的身影。那麽對於初學者來說,該如何下手?該怎麽學習呢?

6.分享Andrew Ng在深度學習暑期班中演講的機器學習項目

摘要:深度學習項目流程,帶你走出迷茫。

7.分布式機器學習平臺比較

摘要:機器學習,特別是深度學習(DL),最近已經在語音識別、圖像識別、自然語言處理、推薦/搜索引擎等領域獲得了成功。這些技術在自主駕駛汽車、數字衛生系統、CRM、廣告、物聯網等方面都存在著非常有前景的應用。當然,資金驅動著這些技術以極快的速度向前發展,而且,最近我們已經看到了有很多機器學習平臺正在建立起來。

8.機器學習和統計學的“愛恨情仇”可以結束了

摘要:機器學習和統計學在數據科學的領域裏,已經相愛相殺很多年。今天,就讓我們跟隨ML從業者和統計學家兩者組成團隊,解開兩者這幾十年的“愛恨情仇”。

9.2017上半年無監督特征學習研究成果匯總

摘要:無監督學習是人工智能時代核心技術,今天我們就來盤點一下2017上半年無監督學習出現了那些重要的研究成果。

10.有監督相似性學習:基於相似問題數據的對稱關系學習

摘要:本文簡單介紹基於相似問題數據的對稱關系學習,通過在Quora數據集和StackExchange語料庫上應用孿生卷積神經網絡的結果表明,對稱網絡能夠較大幅度地提高檢測精度。

11. 應用機器學習:傳道解惑指南

摘要:本文作者編輯了一份包括概念、定義、資源以及工具的知識合集,這對於在這個復雜領域從事工作的人來說非常有用。

機器學習必備手冊