Data Lake Analytics-資料分析時代迎來新變革
前言
近期阿里雲重磅推出新的資料分析引擎Data Lake Analytics,Data Lake Analytics是Serverless化的互動式聯邦查詢服務。無需ETL,使用標準SQL即可分析與整合物件儲存(OSS)、資料庫(PostgreSQL/MySQL/SQL Server等)、NoSQL(TableStore等)資料來源的資料。本文將重點剖析Data Lake Analytics的出現,給傳統資料分析帶來了哪些變革。
請輸入圖片描述
極大的降低執行成本
傳統解決方案裡,做資料分析,需要先購買一些分析節點例項(計算和儲存一體化),無論是計算還是儲存任何一方先到達瓶頸,都要線性的擴伺服器資源,分析任務空閒的時候,計算資源的成本依舊需要承擔。Data Lake Analytics是基於Serverless架構的資料分析引擎,意味著客戶使用分析服務無需購買或者管理伺服器,升級透明,Data Lake Analytics基於ECS輕鬆做到彈性伸縮服務。能讓業務真正做到按需擴儲存,按使用量付費分析,不分析只需要擁有儲存成本,整個方案成本極低。
資料分析架構更加靈活
無論是自建Hadoop、開源的Greenplum等方案,儲存和計算成本都是一體化的。選擇了這些大資料分析技術後,儲存和計算的方案都是固化的。而Data Lake Analytics的出現,則打破了這一架構侷限性,使得資料分析方案更加靈活。客戶可以選擇將海量的KV查詢的資料儲存TableStore中,Data Lake Analytics可以高速的查詢處理TableStore中的資料。可以將業務流水資料儲存在關係型資料庫(MySQL、SQL Server、PostgreSQL)中,Data Lake Analytics可以對上述資料儲存就地分析,賦予了上述資料庫複雜的查詢能力。使用者可以將日誌或者歸檔資料儲存在OSS中,使用Data Lake Analytics快速的分析處理OSS中的資料。在對於雲上中小企業來說,可以結合業務的特點選擇最廉價的儲存搭配最普惠靈活的的分析能力,同時Data Lake Analytics還可以很好的將上述眾多資料來源做聯邦查詢。
ETL搬資料時代結束
以往資料分析,需要將各路資料來源(關係型資料庫、日誌、NoSQL等),按照天或者小時級別做抽取,彙總到資料倉庫中做資料關聯處理。Data Lake Analytics設計之初天然具有聯邦分析能力,使得客戶的資料不再需要搬遷至資料倉庫彙總分析,而是就地分析。同時還能很好的跨異構資料來源做關聯分析、迴流至關係型資料庫或者OLAP引擎。
分析時效性大幅提升
傳統數倉,無論是H+1 還是T+1方案,由於資料同步週期長,架構鏈路長,導致時效性很差。Data Lake Analytics的多資料來源聯邦查詢處理能力,避免了資料搬遷的同時,大大提升了資料處理的時效性,同時由於縮短了採集、儲存、計算的鏈路,方案執行更加穩定。
總結
傳統資料分析的抽取-裝載-轉換-迴流的架構支撐了資料倉庫多年的發展,而Data Lake Analytics的出現,給傳統資料分析架構帶來革新的同時,也賦予了雲上目前OSS、TableStore、關係型資料庫(PostgreSQL/MySQL/SQL Server等)儲存強大的OLAP分析能力。對於雲上中小企業來說,可以選擇用最廉價、最適合業務場景的儲存,來搭配最普惠靈活的的分析能力。
阿里雲Data Lake Analytics正是最普惠靈活的分析能力的實踐者,目前公測期間免費試用,歡迎大家前來體驗。
Data Lake Analytics產品詳情:
瞭解更多大資料家族產品詳情,歡迎點選:
點選觀看大資料家族產品釋出會:
【阿里雲新品釋出】開啟新一代資料智慧開發之路: