1. 程式人生 > >2016——大數據版圖

2016——大數據版圖

現象 這就是 spark 大數 fcm 還要 oop each 藥物

編者註:原文是 FirstMark Capital 的 Matt Turck 的文章。本文全面總結了大數據領域的發展態勢,分析覺得雖然大數據作為一個術語似乎已經過氣。可是大數據分析與應用才剛剛開始興起,在與 AI、人工智能等新興技術的結合下,大數據的機會或許要比大家想象的還要大。2016年 大數據版圖高清版可到此處下載。

技術分享

在喜新厭舊的技術初創企業界。已有 3年 歷史 “大數據” 聽起來似乎已經過氣了。

盡管 Hadoop 在 2006年 已經出來。但 “大數據” 這個概念大概是在 2011 到 2014年 左右才真正火起來的。

也就是在這段時間裏,至少是在媒體或者專家眼裏。“大數據” 成為了新的 “金子” 或者 “石油”。

然而,至少在我跟業界人士交談中。大家越來越感覺到這項技術已經在某種程度上陷入了停滯。

2015年 可能是數據領域的那些酷小子轉移興趣,開始沈迷於 AI 以及機器智能、深度學習等很多相關概念的年份。

拋開不可避免的炒作周期曲線態勢無論。我們的 “大數據版圖” 已經進入第 4 個年頭了。趁這個時候退一步來反思一下去年發生了什麽。思考一下這個行業的未來會如何是非常有意義的。

那麽 2016年 大數據究竟還算不算個 “東西” 呢?我們最好還是探討一下。

企業技術=艱苦工作

大數據有趣的一點在於,它不再像當初經歷過那樣有可能成為炒作的題材了。

經過炒作周期後仍能引起廣泛興趣的產品和服務往往那些大家可以接觸、可以感知。或者與大眾相關聯的:比方移動應用、社交網絡、可穿戴、虛擬現實等。

但大數據基本上就是管道設施的一種。當然,大數據為很多消費者或商業用戶體驗提供了動力。但它的核心是企業技術:數據庫、分析等,這些東西都是在後端執行的,沒幾個人能看得見。就像在那個世界工作的不論什麽人都知道那樣。用一個晚上的時間就想適應企業端的新技術是不可能的。

大數據現象在早期主要是受到了與一批骨幹互聯網公司(尤其是 Google、Facebook、Twitter 等)的共生關系的推動。這些公司既是核心大數據技術的重度用戶。同一時候也是這些技術的創造者。這些公司突然間面對著規模前所未有的龐大數據時,因為本身缺乏傳統的(昂貴的)基礎設施。也沒有辦法招募到一些最好的project師,所以僅僅好自己動手來開發所需的技術。後來隨著開源運動的迅速發展。一大批此類新技術開始共享到更廣的範圍。然後,一些互聯網大公司的project師離職去創辦自己的大數據初創企業。

其它的一些 “數字原生” 公司。包含嶄露頭角的獨角獸公司,也開始面臨著互聯網大公司的類似需求。因為它們自身也沒有傳統的基礎設施。所以自然就成為了那些大數據技術的早期採用者。而早期的成功又導致了很多其它的創業活動發生,並獲得了很多其它的 VC 資助,從而帶動了大數據的起勢。

高速發展了幾年之後,如今我們面臨的是更加廣闊、但也更加棘手的機遇:讓中等規模到跨國公司級別的更大一批企業採用大數據技術。這些公司跟 “數字原生” 公司不一樣的是,他們沒有從零開始的有利條件。

並且他們失去的會很多其它:這些公司絕大部分的現有技術基礎設施都是成功的。

那些基礎設施當然未必是功能完備的。組織內部很多人也意識到對自己的遺留基礎設施進行現代化應該是早點好過晚點。但他們不會一夜間就把自己的關鍵業務代替掉。不論什麽革命都須要過程、預算、項目管理、試點、局部部署以及完備的安全審計等。大企業對由年輕的初創企業來處理自己基礎設施的關鍵部分的慎重是能夠理解的。還有,令創業者感到絕望的是。很多(還是大多數?)企業仍頑固地拒絕把數據遷移到雲端(至少不願遷移到公有雲)。

還須要理解的還有一個關鍵是:大數據的成功不在於實現技術的某一方面(像 Hadoop 什麽的),而是須要把一連串的技術、人和流程糅合到一起。你得捕捉數據、存儲數據、清洗數據、查詢數據、分析數據並對數據進行可視化。這些工作一部分能夠由產品來完畢。而有的則須要人來做。一切都須要無縫集成起來。最後,要想讓全部這一切發揮作用,整個公司從上到下都須要樹立以數據驅動的文化,這樣大數據才不不過個 “東西”,並且就是那個(關鍵的)“東西”。

換句話說:有一堆艱苦的工作要做。

部署階段

所以,這就是在經過幾年引人矚目的初創企業如雨後春筍冒頭。VC 投資頻等頭條後,我們開始步入大數據的部署期和早期成熟期的原因。

更有前瞻性的大公司(姑且稱之為傳統技術採用周期的 “早期採用者”)在 2011 到 2013年 間開始實驗大數據技術。推出了若幹的 Hadoop 試點計劃(往往是由於趕時髦)或者嘗試一些點方案。他們招募了各種各樣此前並不存在的崗位(如 “數據科學家” 或 “首席數據官”)。他們進行了各種努力,包含吧所有數據都堆到一個數據容器(“data lake”)。然後希望緊跟著就會發生奇跡(往往不會)。他們逐步建設自己的內部能力。試驗了各種供應商。從試點計劃到生產中的局部部署,然後到如今爭論要不要全企業鋪開(全範圍鋪開實施的情況還非常罕見)。很多情況下,他們正處在這樣一個重要的拐點上。即經過大數據基礎設施的數年建設後。可以展示的成果還不多,至少在公司內部的商業用戶看來是這種。可是大量吃力不討好的工作已經做完了,如今開始進入到有影響力的應用部署階段了。

僅僅是從眼下來看。這種建構在核心架構之上的應用數量還不成比例。

接下來的一波大公司(稱之為傳統技術採用周期的 “早期多數使用者”)大多數時候對大數據技術是持觀望態度的。對於整個大數據方面的東西。他們還在心存一定程度困惑中觀望。

直到近期。他們還在指望某個大型供應商(比方 IBM)會提供一個一站式的解決方式。只是如今看來這樣的情況最近內並不會出現。

他們看待這個大數據版圖的態度是心懷恐懼,在想自己是不是真的須要跟這一堆看起來並沒有什麽不同的初創企業合作,然後修補出各種解決方式。

生態體系正在成熟

與此同一時候。在初創企業 / 供應商這一塊,整個第一波的大數據公司(2009 至 2013年 間成立的那批)如今已經融了數輪的資金,企業規模已經得到了擴大,而且從早期部署的成功或失敗中學到了東西,如今他們已經可以提供更成熟的、經受過考驗的產品了。少數一些已經成為了上市公司(包含 2015年 上市的 HortonWorks 和 New Relic),而有的(比方 Cloudera、MongoDB 等)融資已經達上億美元了。

這個領域的 VC 融資活動仍然非常有生氣,2016年 的前幾周我們見證好幾輪相當可觀的後期階段大數據融資事件:DataDog(9400 萬美元)。BloomReach(5600 萬美元),Qubole(3000 萬美元)。PlaceIQ(2500 萬美元)等。2015年 大數據初創企業拿到的融資額達到了 66.4 億美元,占整個技術 VC 總融資額額 11%。

並購活動則開展得中規中矩(自從上一版大數據版圖公布以來完畢了 34 項並購。詳細可參見附註)

隨著該領域的創業活動持續進行以及資金的不斷流入,加上適度的少量退出,以及越來越活躍的技術巨頭(尤其是 Amazon、Google、IBM)。使得這個領域的公司日益增多,最後匯成了這幅 2016 版的大數據版圖。

顯然這張圖已經非常擠了,並且還有非常多都沒辦法列進去(關於我們的方法論能夠參見附註)

在基本趨勢方面,行動開始慢慢從左轉到右(即創新、推出新產品和新公司),從基礎設施層(開發人員 / project師的世界)轉移到分析層(數據科學家和分析師的世界)乃至應用層(商業用戶和消費者的世界),“大數據原生應用” 已經在迅速冒頭—這多少符合了我們原先的一些預期。

大數據基礎設施:仍有大量創新

Google 關於 MapReduce 和 BigTable 的論文(Cutting 和 MikeCafarella 由於這個而做出了 Hadoop)的誕生問世已有 10年 了,在這段時間裏,大數據的基礎設施層已經逐漸成熟,一些關鍵問題也得到了解決。

可是,基礎設施領域的創新仍然富有活力,這非常大程度上是得益於可觀的開源活動規模。

2015年 無疑是 Apache Spark 之年。

自我們公布上一版大數據版圖以來。這個利用了內存處理的開源框架就開始引發眾多討論。

自那以後,Spark 受到了從 IBM 到 Cloudera 的各式玩家的擁護,讓它獲得了可觀的信任度。

Spark 的出現是非常有意義的,由於它攻克了一些導致 Hadoop 採用放緩的關鍵問題:Spark 速度變快了非常多(基準測試表明 Spark 比 Hadoop 的 MapReduce 快 10 到 100 倍),更easy編程,而且跟機器學習可以非常好地搭配。

除了 Spark 以外,還出現了其它的一些令人興奮的框架,比方 Flink、Ignite、Samza、Kudu 等。這些框架的發展勢頭也非常好。一些思想領袖覺得,Mesos(數據中心資源管理系統,把數據中心當作一臺大計算資源池進行編程)的出現也刺激了對 Hadoop 的需求。

即便在數據庫的世界裏。新興的玩家似乎也越來越多。

多到市場已經難以承受的地步,這裏發生了非常多令人興奮的事情,從圖形數據庫(如 Neo4j )的成熟,到專門數據庫的推出(如統計時序數據庫 InfluxDB),乃至於 CockroachDB 的出現(受 Google Spanner 靈感啟示誕生的融合了 SQL 與 NoSQL 好處的新型數據庫)。數據倉庫也在演變(如雲數據倉庫 Snowflake)。

大數據分析:如今跟 AI 結合了

大數據分析過去幾個月出現的一股趨勢是,越來越關註利用人工智能(形式和風格各異)來幫助分析大規模的數據,從而獲得預測性的洞察。

事實上近期出現復興的 AI 非常大程度上算是大數據的產物。

深度學習(近期受到關註最多的 AI 領域)背後的算法基本上是幾十年前就誕生了的,但直到近期可以以足夠廉價、足夠高速地應用到大規模數據之後才發揮出了它的最大潛能。AI 與大數據之間的關系如此緊密,以至於業界專家如今覺得 AI 已經令人懊惱地 “與大數據陷入了熱戀其中”。

只是反過來,AI 如今也在幫助大數據實現後者的承諾。

分析對 AI/ 機器學習越來越多的關註也符合大數據下一步演進的趨勢:如今數據我都有了,但到底從中能得到什麽樣的洞察呢?當然,這件事情能夠讓數據科學家來解決,從一開始他們的角色就是實現機器學習,否則的話就得想出模型來發現數據的意義。

可是機器智能如今正在逐漸發揮輔助數據科學家的作用—僅僅須要倒騰數據,新興的產品就能從中提煉出數學公式(如 Context Relevant)或者自己主動建立和推薦最有可能返回最佳結果的數據科學模型(如 DataRobot)。一批新的 AI 公司提供的產品可以自己主動識別像圖像這種復雜實體(如 Clarifai、Dextro),或者提供強大的預測性分析(如 HyperScience)。

同一時候,隨著基於無監督學習的產品的傳播和改善。看看它們與數據科學家之間的關系怎樣演變將很有趣—將來這兩者是敵還是友呢?AI 當然不會非常快代替數據科學家的位置,但估計會看到數據科學家通常運行的更簡單一點的工作越來越多的自己主動化,從而能夠極大提高生產力。

但無論如何,AI/ 機器學習絕不是大數據分析唯一值得關註的趨勢。大數據 BI 平臺的普遍成熟及其日益增強的實時能力也是一個令人興奮的趨勢(如 SiSense、Arcadia Data 等)。

大數據應用:真正的加速

隨著一些核心基礎設施的挑戰得到解決,大數據應用層正在高速構建。

在企業內部,已經出現了各種工具來幫助跨多個核心職能的企業用戶。例如說,銷售和營銷的大數據應用通過處理大規模的內外部數據來幫助找出哪位客戶可能會購買、續約或者流失。且速度越來越實時化。客服應用幫助個性化服務。

人力應用幫助找出怎樣吸引和挽留最好的員工等。

專門的大數據應用差點兒在不論什麽一個垂直行業都有出現,從醫療保健(尤其是基因組學和藥物研究)到金融、時尚乃至於執法(如 Mark43)。

有兩個趨勢值得強調一下

首先。這些應用非常多都是 “大數據原生” 的,本身都是依托在最新的大數據技術基礎上開發的,代表了一種客戶無須部署底層大數據技術就可以利用大數據的有趣方式—由於那些底層技術已經是打包的。至少對於特定功能來說是這種。

例如說,ActionIQ 就是在 Spark 基礎上開發的(或者說是 Spark 的一個派生)。所以它的客戶可以在營銷部門利用 Spark 的威力而不須要自己部署 Spark,這樣的情況下是沒有 “裝配線” 的。

其次,AI 在應用層也有非常強大的存在。

例如說。在貓捉老鼠的安全領域中。AI 被廣泛用來對付黑客,實時識別和對抗網絡攻擊。去年已經出現了一個 AI 驅動的數字助手行業,支持從任務自己主動化到會議安排(如 x.ai)以及購物等差點兒一切事情。這些解決方式對 AI 的依賴程度不一。從差點兒 100%自己主動化到 “有人參與” 等情況各不同樣,可是能夠明白的是。人的能力在 AI 幫助下得到了增強。

結論

從非常多方面來看,我們仍然處在大數據現象的早期發展階段。雖然已經花費了數年時間。但降低基礎設施來存儲和處理大規模數據還僅僅是第一階段。AI/ 機器學習已經成為大數據應用層的一股迅猛趨勢。

大數據與 AI 的結合將會推動非常多行業的驚人創新。

從這個角度來說,大數據的機會或許要比大家想象的還要大。

然而,隨著大數據繼續走向成熟。這個術語本身可能會消失,或者變得太過時以至於沒有人會再使用這個詞。

這就是成功賦能技術令人諷刺的命運歸宿—因為技術的廣泛傳播。然後到達無所不在的地步,最後被人熟視無睹。

附註:

1)因為不可能把大數據的全部公司都列到圖表上。所以我們僅僅能依照一定原則篩選部分公司出來,篩選原則一是進行過 1 輪或多輪 VC 融資的初創企業,二是把一些我們特別感興趣的較早期初創企業列進去。

2)值得註意的收購包含 Revolution Analytics(微軟 2015年1月 收購),Mortar(DataDog2015年2月 收購),Acunu 和 FoundationDB(2015年3月 被蘋果收購),AlchemyAPI(2015年3月 被 IBM 收購),Amiato(2015年4月 被 Amazon 收購),Next Big Sound(2015年5月 被 Pandora 收購)。1010Data(Advance/Newhouse 2015年8月 收購),Boundary(BMC 2015年8月 收購),Bime Analytics(Zendesk 2015年10月 收購)。CleverSafe(IBM 2015年10月 收購),ParStream(2015年11月 被思科收購)。Lex Machine(2015年11月 被 LexisNexis 收購),DataHero(2016年1月 被 Cloudability 收購)。

本文編譯自:mattturck.com,如若轉載,請註明出處:http://36kr.com/p/5043066.html

技術分享技術分享技術分享技術分享


GeoHadoop

2016——大數據版圖