深入機器學習系列1-序章
1996年,美國費城舉行了一次特別的國際象棋比賽,其中一位參賽者是名為“深藍”的國際象棋計算機。在決賽中,IBM公司研發的深藍2:4輸給了世界冠軍卡斯帕羅夫。這是人類與計算機的第一次交鋒。當時的深藍並沒有像人類一樣演繹歸納的經驗而只能評價海量的計算和人類抗衡,但最終敗下陣來。然而1年後,對戰雙方又進行了一次對決,這次深藍完成復仇,總比分3.5:2.5戰勝了卡斯帕羅夫,拉開了AI的序幕。
i
(dota2人類冠軍Dendi圖片來自liquipedia)
20年過去了,在今年的dota國際邀請賽Ti7上,主辦方進行了一次和往常不同的對決:不再是人和人,而是人類VSAI。
(2017年中國烏鎮圍棋峰會上柯潔對陣Alpha Go,第二局比賽以柯潔中盤認輸結束。 圖片來自新華社
為什麼人工智慧的發展速度如此超乎人類社會的想象?曾經AI似乎僅僅是利用其龐大和快速的計算量來打敗人類。“把下每一步棋的後果都計算一遍”是人類曾經認為的AI的思考方式。然而過去20年中,隨著大資料技術的快速發展,AI已不僅僅是簡單無腦的暴力計算,AI有了自己的學習方法:深度學習。深度學習的概念源於人類神經網路的研究,通過分析低層資料和現象演繹得出更加高階抽象的結論。深度學習的特徵是研究資料的分散式特徵。通過研究大量資料並分析其特性,可以得出資料群體的特性並且預測其發展態勢。早期的計算機專注於處理人類能力很難完成的事,比如在幾秒內計算出2的100次方或者pi小數點後的幾千萬位。然而今天的人工智慧聚焦於那些人類認為“很簡單”的任務。比如人臉識別,字元識別或是人類的情感變化。這些任務並沒有明確的公式幫助計算機完成,人類通常靠所謂的“直覺”來解決這些事情。然而深度學習通過分析面部表情的細微變化或是字元筆畫間固定的間距可以得出異常客觀準確的結論。讓計算機自己從大量的經驗和資料中分析學習可以避免人類下達指令提供計算公式的被動局面。由於人腦在思考時是一層層得出結論,因此深度學習同樣要求足夠的深度。在計算時,從一個輸入到輸出的最長路徑被稱為深度。如果一個深度架構被潛架構表示,那麼深度學習歸納出的結論便並不準確。
我們會在接下來陸續釋出機器學習有關的教程。ApacheSpark是一款處理大規模資料的計算引擎。相比於Hadoop,Spark更適合進行資料探勘和機器學習。TensorFlow則是谷歌開發的第二代人工智慧學習系統,在語音識別和影象識別領域有廣泛的運用。我們總結了四個部分:常見機器學習演算法,自然語言處理,深度學習以及高階機器學習演算法。常見機器學習演算法主要是介紹一些sparkmllib中已經實現的演算法,通常要求對數學原理、mllib中的程式碼實現,以及如何應用於實際問題的解決等方面都要比較熟練的掌握。深度學習主要是針對一些常見的概念、優化的trick等的介紹,以及在流行深度學習框架上解決實際問題。自然語言處理研究能實現人與計算機之間用自然語言進行有效通訊的各種理論和方法。而高階機器學習演算法,通常對數學原理以及如何使用等做介紹。我們會慢慢分享這些成果。
相關推薦
深入機器學習系列1-序章
1996年,美國費城舉行了一次特別的國際象棋比賽,其中一位參賽者是名為“深藍”的國際象棋計算機。在決賽中,IBM公司研發的深藍2:4輸給了世界冠軍卡斯帕羅夫。這是人類與計算機的第一次交
機器學習系列1 PCA(主成分分析法)
1.PCA的應用 1.降維 2.去除資料相關性,對資料特徵進行抽取 2.主成分選擇原則 (1)主成分是原來變數的線性組合; (2)各主成分之間互不相關; (3)主成分分析的實質就是找到一個正交變換,即有正交陣U,使得一個?維向量
深入機器學習系列3-邏輯迴歸
邏輯迴歸 1 二元邏輯迴歸 迴歸是一種很容易理解的模型,就相當於y=f(x),表明自變數x與因變數y的關係。最常見問題如醫生治病時的望、聞、問、切,之後判定病人是否生病或生了什麼病, 其中的望、聞、問、切就是獲取的自變數x,即特徵資料,判斷
【機器學習系列文章】第1部分:為什麼機器學習很重要 ?
目錄 路線圖 關於作者 簡單,簡單的解釋,附有數學,程式碼和現實世界的例子。 這個系列是一本完整的電子書!在這裡下載。免費下載,貢獻讚賞(paypal.me/ml4h) 路線圖 第1部分:為什麼機器學習很重要。人工智慧和機器學習的大
《機器學習系列教程》:第二章 機器學習基礎
第二章 機器學習基礎 機器學習and 資料分析 2.2 監督學習、非監督學習、半監督學習、弱監督學習? 根據資料型別的不同,對一個問題的建模有不同的方式。依據不同的學習方式和輸入資料,機器學習主要分為以下四種學習方式。 監督學習: 監督學習是使用已知
機器學習實戰—第5章:Logistic迴歸中程式清單5-1中的數學推導
如圖中梯度上升法給出的函式程式碼。 假設函式為: 1、梯度上升演算法(引數極大似然估計值): 通過檢視《統計學習方法》中的模型引數估計,分類結果為類別0和類別1的概率分別為: 則似然函式為: 對數似然函式為: 最大似然估計求使得對數似然函式取最大值時的引數
Spark2.0機器學習系列之1:基於Pipeline、交叉驗證、ParamMap的模型選擇和超引數調優
Spark中的CrossValidation Spark中採用是k折交叉驗證 (k-fold cross validation)。舉個例子,例如10折交叉驗證(10-fold cross validation),將資料集分成10份,輪流將其中9份
python機器學習及實踐 第二章的2.1.2.1線性迴歸器程式報錯Reshape your data either using array.reshap(-1,1)的原因及解決方法
最近在看Python機器學習及實踐(從零開始kaggle競賽之路)這本書,到了第二章的線性迴歸器的GradientBoostingRegressor模型照著敲程式碼的時候 出現了以下的錯誤 出錯的問題在於標準化函式這裡。 可見fit_tran
《機器學習實戰》第二章:k-近鄰演算法(1)簡單KNN
收拾下心情,繼續上路。 最近開始看Peter Harrington的《Machine Learning in Action》... 的中文版《機器學習實戰》。準備在部落格裡面記錄些筆記。 這本書附帶的程式碼和資料及可以在這裡找到。 這本書裡程式碼基本是用python寫的
機器學習系列演算法1:KNN
思路:空間上距離相近的點具有相似的特徵屬性。 執行流程: •1. 從訓練集合中獲取K個離待預測樣本距離最近的樣本資料; •2. 根據獲取得到的K個樣本資料來預測當前待預測樣本的目標屬性值 三要素:K值選擇/距離度量(歐式距離)/決策選擇(平均值/
【機器學習筆記】第二章:模型評估與選擇
機器學習 ini ppi 第二章 err cap ner rate rac 2.1 經驗誤差與過擬合 1. error rate/accuracy 2. error: training error/empirical error, generalization error
機器學習入門 - 1. 介紹與決策樹(decision tree)
recursion machine learning programmming 機器學習(Machine Learning) 介紹與決策樹(Decision Tree)機器學習入門系列 是 個人學習過程中的一些記錄與心得。其主要以要點形式呈現,簡潔明了。1.什麽是機器學習?一個比較概括的理解是:
機器學習筆記 1 LMS和梯度下降(批梯度下降) 20170617
temp eas 理解 import 樣本 alt mes show 超過 # 概念 LMS(least mean square):(最小均方法)通過最小化均方誤差來求最佳參數的方法。 GD(gradient descent) : (梯度下降法)一種參數更新法則。可以作為L
【機器學習】1 監督學習應用與梯度下降
例如 tla ges 機器 fprintf lns 找到 輸入 style 監督學習 簡單來說監督學習模型如圖所示 其中 x是輸入變量 又叫特征向量 y是輸出變量 又叫目標向量 通常的我們用(x,y)表示一個樣本 而第i個樣本 用(x(i),y(i))表示 h是輸出函
Python學習系列 (第一章):Python 的簡介
python 學習一: Python 的簡介: python的創始人為吉多·範羅蘇姆(Guido van Rossum)。1989年的聖誕節期間,吉多·範羅蘇姆為了在阿姆斯特丹打發時間,決心開發一個新的腳本解釋程序,作為ABC語言的一種繼承。二:Python的應用領域: web 開發: Djang
機器學習系列——樸素貝葉斯分類器(二)
表示 -h line log ima 條件 code 樸素貝葉斯 spa 貝葉斯定理: 其中: 表示事件B已經發生的前提下,事件A發生的概率,叫做事件B發生下事件A的條件概率。其基本求解公式為:。 機器學習系列——樸素貝葉斯分類器(二)
機器學習實戰之第二章 k-近鄰算法
lifo -h 訓練數據 adl sdi 加載 erro orm 數據集 第2章 k-近鄰算法 KNN 概述 k-近鄰(kNN, k-NearestNeighbor)算法主要是用來進行分類的. KNN 場景 電影可以按照題材分類,那麽如何區分 動作片 和 愛情片 呢?
《機器學習》第三章 決策樹學習 筆記加總結
分類問題 子集 觀察 組成 cas 普通 重復 1.0 需要 《機器學習》第三章 決策樹學習 決策樹學習方法搜索一個完整表示的假設空間,從而避免了受限假設空間的不足。決策樹學習的歸納偏置是優越選擇較小的樹。 3.1.簡介 決策樹學習是一種逼近離散值目標函數的方法,在這種方法
深入理解計算機系統(序章)------談程序員為什麽要懂底層計算機結構
人類 是你 驅動 計算機世界 執行過程 鍵盤 二進制 java虛擬機 調優 萬丈高樓平地起,計算機系統就像程序員金字塔的地基。理解了計算機系統的構造原理,在寫程序的道路上才能越走越遠。道理LZ很早就懂了,可是一直沒下定決心好好鉆研,或許是覺得日常工作中根本用不到這些,又
斯坦福機器學習ex1.1(python)
blog com cnblogs div pan .com tlab 表示 def 使用的工具:NumPy和Matplotlib NumPy是全書最基礎的Python編程庫。除了提供一些高級的數學運算機制以外,還具備非常高效的向量和矩陣運算功能。這些對於機器學習的計算任務是