五分鐘瞭解你不得不知道的人工智慧熱門詞彙
編者按:大資料和人工智慧的浪潮正在席捲全球,眾多熱門詞彙蜂擁而至:人工智慧(Artificial Intelligence)、大資料(Big Data)、雲端計算(Cloud Computing)、機器學習(Machine Learning)、資料探勘(Data Mining)、深度學習(Deep Learning)、強化學習(Reinforcement Learning)和資料庫(Databases)。不少人對這些高頻詞彙的含義及其背後的關係總是似懂非懂、一知半解。
為了幫助大家更好地理解人工智慧,我們邀請到微軟亞洲研究院資深研究員鄭宇博士用最簡單的語言來解釋這些詞彙的含義,理清它們之間的關係,希望對剛入門的同學們有所幫助。
人工智慧、機器學習、深度學習和強化學習
首先來看一下人工智慧、機器學習和深度學習之間的關係。如圖一所示,我們可以大致認為深度學習是機器學習中的一種學習方法,而機器學習則可以被認為是人工智慧的一個分支。
圖一 人工智慧研究分支
人工智慧:人工智慧涵蓋的領域很廣,除了機器學習外,還包括專家系統、進化計算、模糊邏輯、粗糙集、多代理、規劃問題等。最近幾年,人工智慧的發展主要得益於機器學習領域的推動,尤其是深度學習取得的突破,其他領域的進展相對較小。人工智慧分為弱人工智慧和強人工智慧,前者讓機器具備觀察和感知的能力,可以做到一定程度的理解和推理。目前的科研都集中在弱人工智慧這部分,並很有希望在近期取得重大突破。而強人工智慧期待讓機器獲得自適應能力,解決一些之前沒有遇到過的問題。電影裡的人工智慧多半都是在描繪強人工智慧,而這部分在目前的現實世界裡難以真正實現。
機器學習:從學習方法上來分,機器可以分為監督學習(如分類問題)、無監督學習(如聚類問題)、半監督學習、整合學習、深度學習和強化學習。深度學習本來並不是一種獨立的學習方法,其本身也會用到有監督和無監督的學習方法來訓練深度神經網路。但由於近幾年該領域發展迅猛,一些特有的學習手段相繼被提出(如殘差網路),因此越來越多的人將其單獨看作一種學習的方法。按照學習目的來分,機器學習涵蓋了迴歸、分類、聚類、異常監測、量綱學習和因果分析等。
深度學習:最初的深度學習是利用深度神經網路來解決特徵表達的一種學習過程。深度神經網路本身並不是一個全新的概念,可大致理解為隱含層很多的一個神經網路結構。為了提高深層神經網路的訓練效果,人們對神經元的連線方法和啟用函式等方面做出相應的調整。其實有不少想法早年間也曾有過,但由於當時訓練資料量不足、計算單元落後,因此最終的效果不盡如人意。
強化學習:強化學習為一個代理(Agent)在一個環境裡設計一系列動作(Actions)以獲得最優的未來長期回報(Reward)。走迷宮常被用來作為解釋強化學習的例子。因為學習方法複雜,早年間強化學習只能解決一些非常簡單(狀態空間小、動作選擇少)的問題。直到深度學習的出現,使得我們可以用深度神經網路去逼近一個近似的價值和策略函式,強化學習才取得很大的進展(如在AlphaGo裡的價值判斷網路),人們稱其為深度強化學習(Deep Reinforcement Learning)。與其說是強化學習的進展,不如說是在強化學習的框架裡,深度學習貢獻了巨大的力量。
資料探勘、人工智慧、大資料和雲端計算
如圖二所示,資料探勘是從資料中發掘知識的過程,在這個過程中人工智慧和資料庫技術可以作為挖掘工具,資料可以被看作是土壤,雲平臺可以看作是承載資料和挖掘演算法的基礎設施。
圖二 資料探勘的過程以及與人工智慧和雲端計算的關係
資料探勘:資料探勘是從資料中發掘知識的過程,在挖掘資料的過程中需要用到一些挖掘工具和方法(如圖二第二個層面所示)。這些工具可以是基於資料庫的挖掘方法,比如頻發模式發掘(Frequent Pattern Mining)和關聯規則。大家經常聽說的啤酒和尿布的例子就是基於資料庫技術的頻繁模式發掘。資料探勘也可以用到機器學習的方法,比如各種分類模型(如Decision trees和SVM)、概率圖模型(Probabilistic Graphical Models)以及深度學習的方法。資料探勘同樣也可以用到人工智慧裡非機器學習的方法,比如遺傳演算法和粗糙集等。當數量非常大時,資料探勘需要藉助雲平臺來承載資料,並利用雲平臺中的分散式計算單元來提高資料探勘效率。當挖掘完畢後,資料探勘還需要對知識進行視覺化和展現。
雲端計算:雲端計算平臺一般是由第三方IT公司建立的涵蓋基礎設施、計算資源和平臺作業系統的整合體。雲平臺解決了傳統公司各自搭建機器叢集所產生的建設週期長、升級換代慢、維護成本高的痛點,讓其他公司可以從搭建計算平臺的繁重任務中解脫出來而專注於自己的業務。雲平臺使用者可以高效、靈活的調整自己的資源配置(比如用多少臺虛擬機器、多少個計算節點等),第三方公司根據使用者使用的資源來收取相應的費用。打一個通俗的比喻,就好比不用每家每戶弄一個發電機,而是集中建一個發電廠,每家只需要插上插頭就可以用電,根據用電的多少來計費。使用者不用關心發電廠建在哪裡、如何發電,也不用操心如何維護髮電廠本身的運轉和安全。
雲端計算平臺本身為大資料的儲存和分析提供了很好的基礎設施(如storage和Hadoop、Spark和Storm等分散式計算環境),但預設的雲平臺上並沒有自帶強大的機器學習和人工智慧能力,也缺乏高效的索引機制(如時空索引演算法)。因此,雲平臺並不等於大資料平臺。近期不少公司在積極地開發基於雲平臺的機器學習工具(如AzureML)和人工智慧平臺。圖三是我們基於Azure搭建的城市大資料平臺,其中時空索引、針對時空資料的機器學習演算法和多源資料融合演算法都是以前的雲平臺所不具備的。
圖三 城市大資料平臺
大資料:大資料是一種從資料的採集、管理、分析挖掘到服務提供的端到端的、解決行業問題的綜合實力,是從資料生命週期這個維度來看的知識獲取過程(資料庫、機器學習和人工智慧技術可以成為其中的一個環節),也是一種基於資料的思維方式。通常講大資料都會提到4個V,Volume(量大)、Velocity(速度快)、Variety(多樣性)、Value(價值)。但實際上,除了Variety(多樣性)以外,其他幾個屬性很難界定,比如多大才叫大,一直很難給出一個嚴格的定義。而只要是資料就有其價值,關鍵是如何利用資料。因此,大資料不是指一個體量很大的單一資料,其關鍵在於多源資料融合(即把來自不同領域的資料的知識相互結合,形成1+1>2的合力),這是大資料的戰略制高點,不是單單在“資料”前加個“大”字那麼簡單。
多源資料的融合給資料管理、資料探勘、機器學習和人工智慧帶來了很多新興課題。當資料探勘被用來挖掘和融合多源資料中蘊含的知識時,資料探勘就跟大資料有了完美的結合。如果資料探勘還在挖掘單一資料,那就是傳統的資料探勘或者是早年間研究的“海量資料探勘”。作為資料探勘的工具,分散式機器學習的重點是解決海量資料探勘的問題,而不是解決多源資料融合的問題。要想融合多源資料,我們就需要在機器學習中設計新的多源資料融合演算法([1]是一篇關於多源資料融合的機器學習演算法的綜述),併為雲平臺設計特別的管理和索引方法。
圖四以城市大資料為例,說明了大資料和資料探勘以及人工智慧之間的關係。城市大資料就是從城市資料的感知、管理、分析到服務提供的端到端的、解決行業(如交通、環境等)問題的綜合實力。在解決一個問題時,我們通常需要同時用到來自於多個領域的資料(如預測空氣質量需要考慮氣象、交通和地理資訊等),如何融合多源資料中的知識就是一個難點。這需要在資料探勘過程中設計相應的資料管理演算法和機器學習演算法。因此,可以大致理解在圖四的第二、三(管理和分析)層面是在做資料探勘的事情,而在第三層裡,又需要用到一些改良的機器學習和人工智慧演算法。更多細節將在《Urban Computing》[2]一書中介紹。
圖四 城市計算和城市大資料
[1] Yu Zheng, Methodologiesfor Cross-Domain Data Fusion: An Overview, in IEEE Transactions on Big Data
[2] Yu Zheng, Urban Computing, MIT Press (預計2018年初出版)
作者介紹鄭宇博士,微軟亞洲研究院城市計算領域負責人,上海交通大學講座教授、博導,香港科技大學客座教授; 提出了“城市計算”的理念,以主作者身份在大資料和人工智慧領域頂尖國際會議和刊物上發表相關論文50餘篇,論文被引用14,000餘次,H-Index:56;擔任人工智慧頂尖國際期刊(SCI一區)ACM Transactions on Intelligent Systems and Technology(ACM TIST)的Editor-in-Chief(TIST近五年影響因子10.47,在所有ACM期刊中排名第一)、ACM資料探勘中國分會祕書長,以及大資料領域知名國際會議ICDE2014 和CIKM2017的工業界主席;2013年,他因在城市計算領域的貢獻被《MIT科技評論》評為全球傑出青年創新者(TR35),2016年被評為美國計算機學會傑出科學家 (ACM Distinguished Scientist)。
你也許還想看:
感謝你關注“微軟研究院AI頭條”,我們期待你的留言和投稿,共建交流平臺。來稿請寄:[email protected]。
微軟小冰進駐微軟研究院微信啦!快去主頁和她聊聊天吧。
相關推薦
五分鐘瞭解你不得不知道的人工智慧熱門詞彙
編者按:大資料和人工智慧的浪潮正在席捲全球,眾多熱門詞彙蜂擁而至:人工智慧(Artificial Intelligence)、大資料(Big Data)、雲端計算(Cloud Computing)、機器學習(Machine Learning)、資料探勘(Data Mining)、深度學習(Dee
五分鐘讓你徹底瞭解TDD、ATDD、BDD&RBE
在目前比較流行的敏捷開發模式(如極限程式設計、Scrum方法等)中,推崇“測試驅動開發(Test Driven Development,TDD)”——測試在先、編碼在後的開發實踐。TDD有別於以往的“先編碼、後測試”的開發過程,而是在程式設計之前,先寫測試指令碼或設計測試用例
五分鐘帶你瞭解雜湊演算法究竟是什麼!
大家好呀,我是你們的貝爾同學。經過一段時間的認知學習,大家應該對數字貨幣有了一定的瞭解。今天呢,我們要講一些比較深的內容,比如比特幣的雜湊演算法問題。熟悉區塊鏈的朋友首先想到的肯定就是比特幣挖礦,比特幣挖礦就是不斷修改區塊頭部的隨機數,然後計算區塊的雜湊值,知道這個雜湊值滿足特定標準的過程,那麼雜湊演算法到底
Python專題——五分鐘帶你瞭解map、reduce和filter
本文始發於個人公眾號:**TechFlow**,原創不易,求個關注 今天是Python專題第6篇文章,給大家介紹的是Python當中三個非常神奇的方法:map、reduce和filter。 不知道大家看到map和reduce的時候有沒有什麼感覺,如果看過之前我們大資料系列介紹MapReduce文章的同學
五分鐘讓你看明白到底什麽是Activity --java
Activity 什麽是Activity 寫這篇文章的目的主要是項目組開發第一次使用總結的一點小經驗,不足之處打架多多探討.1.什麽是工作流?以請假為例,現在大多公司的後臺流程是這樣的 a.郵件提出申請 b.上級回郵件同意或其他方式c.上級請假記錄 d.月底將請假上繳公司 e.人事錄電
作為前端,你不得不知道的搜索引擎優化
原創 取數據 多少 是我 div pen 鏈接 error site 今天在看文章時,看到了這篇文章。自己對搜索引擎優化了解並不是深入,以此分享給大家。 向搜索引擎提交網站地址:http://www.runoob.com/web/web-search.html 文章原文
應屆生求職程序員崗位你不得不知道的一些事
程序開發 前端開發 css3 一點 後臺語言 ... 掌握 決定 在線筆試題 本人面試的是前端開發崗位,坐標上海,目前面試過了5家IT公司,2家社招、3家校招、通過這幾次面試,自己得到了成長,也想把面試的一些經驗分享給大家,希望對大家會有一點幫助。 先說說頭兩次社招面
五分鐘教會你任何進位制之間的互相轉換
什麼是進位制? 進位制也就是進位制,是人們規定的一種進位方法。 對於任何一種進位制—X進位制,就表示某一位置上的數運算時是逢X進一位。 十進位制是逢十進一,十六進位制是逢十六進一,二進位制就是逢二進一,以此類推,x進位制就是逢x進位。 常見的進位制 二進
五分鐘帶你入門TensorFlow
本文是《人人都能學人工智慧-TensorFlow系列》文章的第一篇,這個系列會對TensorFlow的基礎使用,SoftMax,交叉熵,Dropout,CNN,LSTM和NLP等內容進行系列介紹,儘量使用通俗的語言,讓更多的人都能瞭解人工智慧,瞭解TensorFlow。 Tenso
大牛五分鐘教你如何建立並執行java執行緒
Java執行緒類也是一個object類,它的例項都繼承自java.lang.Thread或其子類。 可以用如下方式用java中建立一個執行緒: 執行該執行緒可以呼叫該執行緒的start()方法: 在上面的例子中,我們並沒有為執行緒編寫執行程式碼
除了Hadoop,其他6個你必須知道的熱門大資料技術
你知道新的市場領導者和曾經的領導者之間的關鍵區別是什麼嗎? 那就是“資料管理”。任何無法處理資料並將其投入使用的企業,很可能會讓位給那些能夠更好處理資料的。 事實上,大資料和其流動性的力量能促使企業發展。 大資料是大量資料的術語
礦工必看的挖礦指南,五分鐘帶你熊市挖礦!!!
就在前幾天CCTV再次報道區塊鏈,《比特幣“礦難”風暴,礦機量價齊跌九成,硬體市場“至暗時刻”》新聞。新聞中稱,大約有130萬臺某主流礦機在這一場比特幣暴跌的浪潮中關機,雜湊率也一再下降。 而且就在前幾天還出現了礦機按斤賣的熱搜新聞,是將區塊鏈再次推向了熱門,好多人都在問,都說區塊鏈是網際網路的第二次革
除了Hadoop,還有6個你必須知道的熱門大資料技術
你知道新的市場領導者和曾經的領導者之間的關鍵區別是什麼嗎? 那就是“資料管理”。任何無法處理資料並將其投入使用的企業,很可能會讓位給那些能夠更好處理資料的。 事實上,大資料和其流動性的力量能促使企業發展。 大資料是大量資料的術語。由於
五分鐘教你快速製作 macOS Mojave U盤啟動盤
mac os x系統是蘋果電腦預裝作業系統,蘋果系統雖然向來穩定,但凡事都有例外,比如換硬碟、對新系統不滿意想換回去、垃圾軟體太多想徹底重灌等等,下面廢魚就教大家幾招重灌系統的方法。 連線網路重灌 連線網路重灌的方法,它的優點是操作簡單,只需要在開機時,按住Comma
五分鐘帶你看完CSS3新增的偽類選擇器,讓你體驗使用CSS3的快感。
CSS選擇器用於選擇你想要的元素的樣式的模式。偽類元素主要用於對已有選擇器做進一步的限制,對已有選擇器能匹配的元素做進一步的過濾。 偽類選擇器 1.UI元素狀態偽類選擇器 UI元素狀態偽類選擇器主要用於根據UI元素的狀態進行篩選,UI元素狀態偽類選擇器有如下幾個。
一個關於Redis的主從複製的詳解(讓你瞭解你不知道的東西)
主從複製在 Redis 複製的基礎上,使用和配置主從複製非常簡單,能使得從 Redis 伺服器(下文稱 slave)能精確得複製主 Redis 伺服器(下文稱 master)的內容。每次當 slave 和 master 之間的連線斷開時, slave 會自動重連到 maste
五分鐘教你如何用函式計算部署釘釘群發機器人
如果你是釘釘多個群的管理員,想要在多個釘釘群群發訊息的時候,是不是還在為要尋找所有的群,並不斷的複製黏貼訊息而煩惱? 過去的你:(N 個群,N 次操作) 現在的你:(N 個群,1 次操作) 本篇文章適合對函式計算服務感興趣或想要在釘釘解放雙手、輕鬆的在多個群群發的使用者。本文將通過阿里雲函式計算
五分鐘瞭解什麼是Google檔案系統(GFS)?
簡介 Google檔案系統是構建在廉價伺服器之上的大型分散式檔案系統。它將伺服器故障視為正常現象,通過軟體的方式自動容錯,在保證系統可靠性和可用性的同時,大大降低系統的成本 系統架構 GFS系統的節點可以分為三種角色 GFS Master(主控伺服器) GFS
http你不得不知道的那些事(六)--請求響應細節
http相關的東西也寫了好幾篇了,但是一直都在涉及http周邊的東西,最核心最底層的沒有涉及到。本篇就要揭開網路請求的神祕面紗,將最底層的東西以最簡單的方式呈現給大家。 那就得先講講OSI七層模型,OSI(Open System Interconnect),即
五分鐘瞭解asm.js和WebAssembly
Asm.js是什麼? 相信很多讀者都或多或少地聽說過Asm.js這個名詞,但它究竟是什麼意思呢? 先看一眼官方的定義: an extraordinarily optimizable, low-level subset of JavaScript 極度