1. 程式人生 > >阿里雲大資料計算服務MaxCompute使用教程

阿里雲大資料計算服務MaxCompute使用教程

MaxCompute簡介

大資料計算服務(MaxCompute,原名ODPS)是一種快速、完全託管的TB/PB級資料倉庫解決方案。MaxCompute向用戶提供了完善的資料匯入方案以及多種經典的分散式計算模型,能夠更快速的解決使用者海量資料計算問題,有效降低企業成本,並保障資料安全。MaxCompute主要服務於批量結構化資料的儲存和計算,可以提供海量資料倉庫的解決方案以及針對大資料的分析建模服務。隨著社會資料收集手段的不斷豐富及完善,越來越多的行業資料被積累下來。資料規模已經增長到了傳統軟體行業無法承載的海量資料(百GB、TB、乃至PB)級別。在分析海量資料場景下,由於單臺伺服器的處理能力限制,資料分析者通常採用分散式計算模式。但分散式的計算模型對資料分析人員提出了較高的要求,且不易維護。使用分散式模型,資料分析人員不僅需要了解業務需求,同時還需要熟悉底層計算模型。MaxCompute的目的是為使用者提供一種便捷的分析處理海量資料的手段。使用者可以不必關心分散式計算細節,從而達到分析大資料的目的。MaxCompute已經在阿里巴巴集團內部得到大規模應用,例如:大型網際網路企業的資料倉庫和BI分析、網站的日誌分析、電子商務網站的交易分析、使用者特徵和興趣挖掘等。

關於MaxCompute使用教程的詳細資訊:大資料計算服務MaxCompute使用教程

MaxCompute發展歷程

從2009年9月阿里雲成立,願景就是做運算/分享資料第一平臺;2010年4月,伴隨阿里金融的貸款業務上線,ODPS正式投入生產執行,2012年建立統一資料平臺,2013年具備超大規模海量資料處理能力,2014~2015年大資料平臺開始日趨成熟,2016 MaxCompute 2.0的誕生,成立之初的願景經過一步步努力逐步實現。

關鍵性里程碑

2010.04 ODPS正式投入生產執行。阿里金融的貸款業務上線穩定執行。

2013.05 ODPS公測。

2013.07 ODPS正式提供商業化服務,單叢集規模5K臺伺服器多級群能力。

2016.09 ODPS正式更名為MaxCompute,並推出2.0,實現高效能,新功能,富生態。

MaxCompute元件介紹

資料通道:

TUNNEL:提供高併發的離線資料上傳下載服務。使用者可以使用Tunnel服務向MaxCompute批量上傳或下載資料。MaxCompute Tunnel僅提供Java程式設計介面供使用者使用。

計算及分析任務:

SQL :MaxCompute只能以表的形式儲存資料,並對外提供了SQL查詢功能。使用者可以將MaxCompute作為傳統的資料庫軟體操作,但其卻能處理TB、PB級別的海量資料。需要注意的是,MaxCompute SQL不支援事務、索引及Update/Delete等操作,同時MaxCompute的SQL語法與Oracle,MySQL有一定差別,使用者無法將其他資料庫中得SQL語句無縫遷移到MaxCompute上來。此外,在使用方式上,MaxCompute SQL最快可以在分鐘,乃至秒級別完成查詢,無法在毫秒級別返回使用者結果。MaxCompute SQL的優點是對使用者的學習成本低,使用者不需要了解複雜的分散式計算概念。具備資料庫操作經驗的使用者可以快速熟悉MaxCompute SQL的使用。

MapReduce :MapReduce最早是由Google提出的分散式資料處理模型,隨後受到了業內的廣泛關注,並被大量應用到各種商業場景中。在本文件中,我們會對MapReduce模型做簡要介紹,以便於使用者快速熟悉、瞭解該模型。使用MaxCompute MapReduce的使用者需要對分散式計算概念有基本瞭解,並有相對應的程式設計經驗。MaxCompute MapReduce為使用者提供Java程式設計介面。

Graph:MaxCompute提供的Graph功能是一套面向迭代的圖計算處理框架。圖計算作業使用圖進行建模,圖由點(Vertex)和邊(Edge)組成,點和邊包含權值(Value)。通過迭代對圖進行編輯、演化,最終求解出結果,典型應用:PageRank,單源最短距離演算法 ,K-均值聚類演算法 等等。

SDK:提供給開發者的工具包,SDK的相關介紹請參考 SDK介紹。

安全:MaxCompute提供了功能強大的安全服務,為使用者的資料安全提供保護,詳情請參考 安全參考手冊。

更多精品課程:

阿里云云計算專業

阿里雲大資料專業

阿里云云安全專業