USQL如何幫愛普新媒降低80%成本,提升50%數據分析速度
——愛普新媒CTO 牛德恒
USQL是什麽?
數據湖分析(USQL)是一種可擴展性強、成本低廉的無服務器SQL分析計算引擎,可輕松完成面向海量數據的數據建模工作,SQL即可完成數據查詢和分析,極大降低使用大數據的門檻,且無需數據庫管理員和運維人員,大幅度減少對大數據工程師的依賴。
USQL在愛普新媒案例中的表現
計算成本降低97.5%
相較於愛普新媒現在每月花費在數據倉庫UDW(用於臨時存放數據)的數千元,處理同樣的數據,USQL可將成本控制在每月幾十元,因為USQL按照實際分析數據量計費,每GB數據分析價格極低,且不使用時不計費。
任務周期縮短55.6%
愛普新媒現有架構下,處理不固定的數據需求,數據導入與分析平均處理時長為1.8天,而USQL可省去數據導入的步驟,減少運維工作量,大幅度縮短每次任務完成時間。
分析效率提升5倍
愛普新媒所有真實業務SQL均已落地,其中最耗時的SQL分析時間可從600秒降至118秒,整體明顯提高SQL分析效率。
大數據工程師投入降為0
目前每月需投入大數據工程師20個人日,使用USQL產品,業務分析師可直接通過SQL在對象存儲UFile中完成數據分析,極大減少對工程師的依賴,有限的人力資源可得到更好的利用。
關於愛普新媒
成立於2010年,是一家專註於移動互聯網產品研發和新媒體整合營銷的高新技術型公司,旗下擁有100余款精品軟件,內容涵蓋日常生活、效率工具、文章資訊等多個方面,主營以天氣預報、快遊等綜合自媒體矩陣為載體的推廣業務和以雲魔方DSP移動互聯網廣告分發平臺為基礎的廣告投放業務。
面臨的數據挑戰
愛普新媒廣告業務數據規模達到數百TB,日增長量為1TB左右,業務日常不固定的分析需求多,現有的大數據處理方案下,數據部門每月需投入大數據工程師20個人日,額外花費數千元維持一個數據倉庫集群,且平均每次需求處理時長為1.8天。基於已有架構,數據部門將廣告日誌數據壓縮後存放於對象存儲UFile中,接收到業務分析師不固定的數據需求後,再將用於分析的原始數據,臨時加載到數據倉庫UDW中,完成SQL分析後實施清除操作。
圖:愛普新媒現有架構
業務分析師的抱怨
對於業務分析師而言,數據規模達到數百TB,無法自主完成分析,必須極大程度依賴大數據工程師;並且每次任務處理周期長,若後續有需求變更或分析結果未達預期,還需重新走一遍處理流程;此外當對分析結果存有疑問時,無法查看原始數據進行校驗。
數據部門的煩惱
業務每月的不固定數據分析需求多,又無法自主完成,需要占用數據部門有限的技術人力資源;需求變動返工次數多,會導致大量重復性工作;並且隨著數據規模日增長量的不斷提升,用於臨時存放不固定需求數據的GreenPlum成本一直在增加。
產品訴求
基於現狀,愛普新媒的產品需求清晰明確:
支持數百TB規模的數據分析
業務分析師能夠獨立完成不固定需求分析工作
具有較強的Ad-Hoc能力
縮短每次需求處理時長
降低計算成本投入和運維投入
選擇USQL產品
帶著上述訴求,愛普新媒留意到UCloud推出的USQL產品,對其無運維、低成本、低門檻的產品理念產生濃厚興趣,當即聯系UCloud架構師表達試用的意願。
在與其數據部門溝通的過程中,UCloud架構師發現對方務實且擁有開放的學習態度,對雲計算也一直保持極大的好奇心,接觸了解過數據湖以及Serverless的概念,為雙方的交流奠定了良好的基礎。此外現有架構中計算與存儲是分離的狀態,其原始數據並未與GreenPlum強耦合,這為更換分析引擎的方案實施提供了便利。
USQL替換GreenPlum
新架構中使用USQL替換原先用於臨時加載數據的GreenPlum,省去數據從UFile導入到GreenPlum的過程,並使得業務分析師能夠直接通過SQL分析UFile中海量數據,全程無需大數據工程師的參與。
圖:愛普新媒新架構
此外,數據對接中發現,愛普新媒的數據格式為JSON並通過GZIP格式壓縮,UCloud了解後一周內完成USQL產品升級,得以支持這兩種數據格式,減少對接上的障礙,並協助愛普新媒重新布局其現有數據,目前愛普新媒實際業務SQL已全部落地,同時完成產品培訓以及現場演示。
圖:實際業務SQL示例
結果顯示分析效率可提高5倍,CTO觀看USQL的實例演示後,當場測算成本,對其在降低成本、提高效率、減少人力方面的表現感到超出預期,已決定將所有離線計算業務都放在USQL上。
如果您也有大數據分析成本的困擾,歡迎加入我們的數據分析群共同探討!
USQL如何幫愛普新媒降低80%成本,提升50%數據分析速度