1. 程式人生 > >阿里大資料OS實踐:看看年薪百萬工程師如何做的

阿里大資料OS實踐:看看年薪百萬工程師如何做的

在阿里雲的官網開啟大資料部分(整個大資料部分統稱為數加),其中包括:大資料基礎服務部分,MaxCompute、ADS、流計算、大資料開發套件;人工智慧部分,機器學習(基礎平臺是PAI)、語音識別、ET等;分享大資料交流學習裙:不定期分享視訊資料722680258,需要學習大資料歡迎加入,資料分析展現部分,資料視覺化(大屏、BI報表)、I+關係網路分析(安全領域用的比較多);資料應用部分,推薦引擎(提供面向終端使用者的服務,以大資料中介軟體存在)等。天池比賽也是基於數加平臺,數加資料市場相當於大資料的App Store。

數加是什麼?數加=數加平臺+數加市場+數加應用。平臺相當於OS部分,其上有App Store(即市場),市場上有大量的應用(包括官方應用和第三方應用)。數加平臺基於阿里十幾年在大資料上的經驗積累,在對內的平臺BASE上做了一個對外的例項即數加。數加平臺除了BASE,還包括多租戶、賬號、許可權、安全、meta、計量計費、Open API、資料市場、數加網站等模組,也包括演算法平臺PAI。

數加平臺=大資料OS=大資料的IOS。大資料OS希望提供高度整合的大資料平臺,將計算引擎、資料開發工具、資料採集和傳輸工具、資料分析工具、機器學習平臺無縫整合,提供端到端的一站式使用者體驗;提供雲數倉服務(對標redshift),革傳統資料倉庫的命,讓基於Hadoop自建資料平臺成為往事,讓客戶專注於業務系統開發,把使用者資料還給使用者,提供安全隔離的租戶空間;是開放的大資料OS,相容開源資料生態,支援各種第三方資料應用在上面安裝使用;支援資料交換和分享,讓使用者安全,可計量的使用他方資料。


大資料生態中,數加平臺最底層是計算平臺,還包括一系列支撐平臺、資料開發和演算法開發,對外提供大資料的基本職能是SQL開發(是Web介面,方便易用)、MapReduce開發、演算法開發(PAI)。Open API層可與外部應用打通。數加資料市場中,包括資料服務(包括API服務)、資料應用(基於整個資料開發平臺,以及資料API等各種東西)。

上圖中,下面是數加平臺,核心的東西是資料開發、資料分析、應用平臺,上面是各個領域的應用。

阿里早年煩惱

很早以前,阿里很多的BO用的都是IOE,其儲存昂貴、可擴充套件性差。阿里各個分支有不同的嘗試,B2B、支付寶嘗試的是Greenplum,淘寶選擇了Hadoop。此時產生了資料孤島問題,各業務部門的資料散落在多個叢集,彼此之間資料不通,資料共享太難,缺少許可權安全的管理。所以需要做資料倉庫來把資料集中在統一的一個平臺來管理。資料共享的問題解決之後,由於資料不集中,也沒有較好的資料倉庫規劃,導致資料被拖來拖去、重複儲存和計算,出現了重複建設的問題。

阿里幕後

阿里大資料背後的挑戰

  • EB級的資料算不算得動?

  • 百萬張表如何管理?

  • 資料質量之殤?

  • 大集中的資料如何確保安全?

統一的自主可控的大資料平臺

在Hadoop的基礎上,做了統一的自主可控的大資料平臺,其特點是:統一平臺,資料大集中,統一的儲存,統一的計算平臺,統一的資料開發平臺,統一的元資料又會涉及到資料治理;資源共享,彈性分配,基於ODPS多叢集技術,由數以萬計的伺服器提供超級計算能力,按需彈性分配給各資料開發團隊;資料隔離,許可權管理,基於ODPS多租戶機制,各部門可獨立管理自身的資料,獨立做資料授權。