1. 程式人生 > 其它 >阿里OneData構建資料指標體系

阿里OneData構建資料指標體系

資料指標來輔助業務決策

GMV、日活使用者、月活使用者、PV、UV、頁面停留時長

OneData指標規範

以維度建模作為理論基礎,構建匯流排矩陣,定義業務域、資料域、業務過程、度量/原子指標、維度、維度屬性、修飾詞、修飾型別、時間週期、派生指標等。

業務域:比資料域更高維度的業務劃分方法,適用於特別龐大的業務系統,且業務板塊之間的指標或業務重疊性較小。例如用車業務板塊包含乘客端、司機端,電商業務板塊包含商城、返利模組。

業務過程:業務過程可以概括為一個個不可拆分的行為事件,如下單、支付、評價等業務過程/事件。這裡的事件跟埋點的事件類似,詳情可檢視

業務域倒還能理解,簡單來說就是對不同業務的分類;業務過程也容易理解,相當於畫業務流程圖

資料域:是聯絡較為緊密的資料主題的集合,是對業務物件高度概括的概念層歸類,目的是便於資料管理與應用。簡而言之,資料域就類似於我們電腦桌面要建立不同的資料夾來儲存資料,這些個資料夾名就是資料域。

維度:是度量的環境,用來反映業務的一類屬性,這類屬性的集合構成一個維度,可以從who-where-when-what層面來看。

維度屬性:維度屬性隸屬於維度,相當於維度的具體說明,如使用者維度中性別為男、女。

修飾詞:指除了統計維度以外指標的業務場景。

修飾型別:對修飾詞的抽象劃分。

簡而言之,維度和修飾都可以理解為原子指標的一些限定條件,懂sql的會更好理解一些,一般是寫sql時,放在where語句後邊的。

度量/原子指標:原子指標和度量含義相同,某一業務行為事件下的度量,是業務定義中不可拆分的指標,如註冊數。

時間週期:用來明確資料統計的時間範圍或是時間點,如最近30天、自然周、截至當日等。

指標型別:包含原子指標、派生指標。原子指標 = 行為事件+度量派生指標 = 一個原子指標+多個修飾詞+時間週期

例如:原子指標=完單量,派生指標=近一週iOS乘客完單量,包含時間週期=近一週,修飾詞=iOS,維度=乘客,原子指標=完單量。

---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

模型設計

此時主導的是我們的模型設計工程師,按照阿里的OneData建模理論的指導,模型設計工程師會採用三層建模的方式把資料更加科學的組織儲存。分為 ODS(操作資料層),DWD(明細資料層)、DWS(彙總資料層)、ADS (應用資料層),這是業務對資料分層常用的模型。

阿里的一套針對指標的規範定義,讓大家在一個標準下看資料消除歧義(指標拆分體系)

資料域:面向業務的大模組,不會經常變。比如我們公司有環貿快版打版服務、億訂電商業務、供應鏈業務等等大的業務模組類似產品線。

業務過程:如電商業務中的下單、支付、退款等都屬於業務過程。

時間週期:就是統計範圍,如近30天、自然周、截止到當天等。

修飾型別:比較好理解的如電商中支付方式,終端型別等。

修飾詞:除了維度意外的限定詞,如電商支付中的微信支付、支付寶支付、網銀支付等。終端型別為安卓、IOS等

原子指標:不可再拆分的指標如支付金額、支付件數等指標

維度:常見的維度有地理維度(國家、地區等)、時間維度(年、月、周、日等)

維度屬性:如地理維度中的國家名稱、ID、省份名稱等。

派生指標:原子指標+修飾詞+時間週期就組成了一個派生指標。

關於資料指標還有two more thing要談:

1. 怎麼分出指標的重要性。績效考核指標,部門負責人關注的指標

2. 關於虛榮指標。

PV、UV、月活、總使用者數、總商品數

主路徑的專戶率,訪問-商品列表、商品列表-商品詳情、商品詳情-加購、加購-下單轉化率:降低流失就能提高交易額的。

使用者的次日留存、7日留存率(新使用者7日後是否再次訪問)、30日留存率:等能直接反應使用者的質量和運營做的好壞。

商品的動銷率(銷售款數/上架款數):能直接反映這批商品的好壞。

基於阿里OneData的模型設計體系

首先你要知道這些概念。什麼是資料倉庫、資料倉庫和資料庫的區別、資料倉庫的分層、資料模型的定義。

資料倉庫與資料庫的區別

阿里的資料分層分為:ODS、DWD、DWS、ADS。

ODS(操作資料層):是資料倉庫第一層資料,直接從原始資料過來的,經過簡單地處理,爆款率涉及到的表結構比如訂單表、專場表、商品表、使用者表等。

DW*(彙總資料層):這個是資料倉庫的第二層資料,DWD和DWS很多情況下是並列存在的,這一層儲存經過處理後的標準資料。增加了維度形成了統計寬表,比如專場的爆款商品有哪些。

ADS(應用資料層):這個是資料倉庫的最後一層資料,為應用層資料,直接可以給業務人員使用。比如某日某個專場爆款率是多少、總的爆款率是什麼。

資料模型有很多,如:正規化模型、維度模型、Data Vault

星型模型的基本概念

星型模型中有兩個重要的概念:事實表和維度表。