1. 程式人生 > >Severless SQL on OSS 實驗(DataLakeAnalytics on OSS)

Severless SQL on OSS 實驗(DataLakeAnalytics on OSS)

status sans 用戶名 ops adding pad hnu bucket join

摘要: 數據存儲在OSS後,可以有多種方式查詢分析OSS數據,如自建Spark/Presto/Impala(阿裏雲EMR以及Hadoop社區官方已支持OSS), 使用MaxCompute、DataLakeAnalytics等。

基於OSS的數據查詢分析

數據存儲在OSS後,有多種查詢分析的方法,包括阿裏雲MaxCompute、DataLakeAnalytics產品等Severless查詢分析服務,也可以自建Spark、Presto、Imapla應用來分析OSS上的數據。

技術分享圖片

實驗步驟(DataLakeAnalytics on OSS)

本次實驗,主要介紹實驗DataLakeAnalytics如何Severless地查詢分析OSS上的數據。

技術分享圖片

服務開通

OSS服務:

1.開通OSS服務https://www.aliyun.com/product/oss

DataLakeAnalytics服務:

1.申請DataLakeAnalytics的試用資格
備註:目前DataLakeAnalytics公測中,需提交公測申請,開通試用。

操作步驟

準備數據

登錄控制臺, 並創建目錄

技術分享圖片

請創建華東1區域的OSS測試Bucket(目前DataLakeAnalytics產品公測區域為華東1)。

技術分享圖片

備註:Bucket名稱是全局唯一,如果提示名稱已存在,請更換一個Bucket名稱。

創建目錄(建議目錄如下):

創建目錄workshop_sh/trade, workshop_sh/user

技術分享圖片

技術分享圖片

下載模擬數據(該數據本次實驗的模擬數據)

http://testdatasample.oss-cn-hangzhou.aliyuncs.com/workshop_sh/workshop_sh.zip

將下載的將交易記錄和開戶信息數據,分別上傳到trade、user目錄

技術分享圖片

技術分享圖片

登錄Data Lake Analytics控制臺

點擊“登錄數據庫”,輸入開通服務時分配的用戶名和密碼,登錄Data Lake Analytics控制臺。

技術分享圖片

公測期間的分配的用戶名、密碼,開通服務的消息中可以查看

技術分享圖片

創建Schema和Table

創建Schema

輸入創建SCHEMA的語句,點擊“同步執行”。

CREATE SCHEMA sh_trade

CREATE SCHEMA sh_trade

(註意:同一個阿裏雲region,schema名全局唯一,建議根據業務定義,已有重名schema,在創建時會提示報錯,則請換一個schema名字。)

技術分享圖片

創建表

在“數據庫”的下拉框中,選擇剛剛創建的schema。
然後在SQL文本框中輸入建表語句如下,並點擊同步執行。其中,Location替換為您的Bucket和測試數據的路徑

1.創建交易記錄表:
說明:LOCATION 'oss://Bucket名稱/交易記錄表目錄/'
實驗中,替換LOCATION 'oss://您的OSS存儲空間名稱/workshop_sh/user/'。如:oss://workshopsh20180608100/workshop_sh/user

技術分享圖片

2.創建開戶信息表:
說明:LOCATION 'oss://Bucket名稱/開戶信息表目錄/'
實驗中,替換LOCATION 'oss://您的OSS存儲空間名稱/workshop_sh/user/'。 如:oss://workshopsh20180608100/workshop_sh/user

技術分享圖片

3.建表完畢後,刷新頁面,在左邊導航條中能看到schema下的2張表

技術分享圖片

SQL查詢(同步執行)

1.查詢交易機構SXS_0010,在0603至0604的100條交易記錄

技術分享圖片

顯示執行結果

技術分享圖片

2.查詢各城市、男性女性人群,購買的基金總額(多表Join查詢)

技術分享圖片

技術分享圖片

SQL查詢(異步執行)

異步執行查詢,將查詢結果,以CSV格式,輸出到OSS上

技術分享圖片

點擊“執行狀態”,可看到該異步查詢任務的執行狀態

主要分為:“RUNNING”,“SUCCESS”,“FAILURE”。

點擊“刷新”,當STATUS變為“SUCCESS”時,可以查看到查詢結果輸出到OSS的文件路徑。

技術分享圖片

查看導出OSS的結果文件

技術分享圖片

實驗耗費

OSS存儲的費用

原文鏈接


Severless SQL on OSS 實驗(DataLakeAnalytics on OSS)