資料為王的時代，資料分析已是必修課

阿新 • • 發佈：2020-10-17

作者 | 李謙恆

資料工程師。邏輯重於程式碼，高效勝過勤奮。崇尚 life work balance。

前言

在告別了人口紅利之後，對於成熟或平臺型產品而言，增長的核心不再是對增量使用者的擴張，而是對存量使用者的精細化運營，提升轉化效率及使用者價值挖掘，其中資料分析、運營扮演著一個重要的角色，但如何正確科學地分析資料並驅動業務改變和增長卻一直成為困擾，本文將梳理資料分析體系及資料運營一般方法論，幫助提升對資料分析的理解。

什麼是資料分析

資料分析是對產品運營有標準、統一、客觀且直觀的理解，通過資料應用的種種方法幫助提升對產品、使用者、趨勢、渠道、營銷的理解和洞察，發現問題與潛在機會，從而驅動產品改變與提升。

資料分析的價值並不在於資料本身，而在於隱藏在海量雜亂的資料背後的行為洞察與規律。

為什麼要做資料分析

資料分析解決的是一個決策路徑的問題，不再是“我覺得式”的拍腦袋，而是還原事物本來“應該是”的客觀規律。

資料證明規律，規律帶來洞察，洞察改變產品。

最近幾年來火熱的以頭條、ins 為代表的增長黑客理論，就是在基礎資料平臺及技術革新的基礎上，實現了對使用者和內容的精細化運營，從而達到增長，可以理解為是一種以資料為核心驅動力的產品哲學。

在網際網路發展的歷史中，沉澱下來的資料分析方法論有很多，建立在深淺不一的數學統計學原理之上，下文會介紹一些資料分析體系規劃的一般方法論及案例，從“點、線、面”三個維度依次講述資料分析的三個層級。

一、“點”：概念與趨勢

概念：指標、維度與多維分析

指標與維度，是在瞭解資料分析之前必須要理解的概念，也是最困擾的問題之一：

指標：指標是指通過特定的統計邏輯計算出來能量化事物發展程度的度量，如 pv，uv 等
維度：維度可以簡單理解為我們觀察資料指標的角度，如時間、年齡、渠道、終端等

在統計學中，根據性質可以將指標分為絕對指標和相對指標：

絕對指標：是指統計量的絕對值，用於反映規模、大小的量級指標，如活躍使用者數
相對指標：是指統計量的比率值，用於反映程度、質量的健康水平指標，如人均使用時長

相對指標是由絕對指標通過計算得來，可以說絕對指標是相對指標的基礎，而相對指標常常蘊含著更大的資訊量，這也是為什麼在分析過程中，需要構建相對指標來輔助分析的原因。

單一的指標沒有意義，至少需要有一個維度以上的對比才能產生價值，且只有放在同一個維度下對比才有意義，對比的維度根據觀察粒度可以分為巨集觀、中觀、微觀三個視角：

**多維分析：**下面以訊息量為例，演示多維分析的遞進式下鑽分析

考慮的維度越多，洞察就可能越深入
維度不是越多越好，分析維度最好控制在五維以內
通過求和或均值的方式聚合某一些維度，可達到降維分析的效果

機器學習：相比於人類肉眼而言，機器具備同時處理更多維度資料的分析與挖掘能力，輔以合適的演算法，機器學習是可以獲取比人類更深入的資料洞察，這也是為什麼機器學習成為了一項越來越熱門技術的原因。

二、“線”：分析與洞察

資料分析按照時間邏輯可分為原因分析、現狀分析及預測分析，分別反映過去、現狀及未來的產品情況。由此，我們得出了資料分析的三個階段，分別是描述性、驗證性及探索性分析：

描述性分析：是對資料來源最初的認知，使用幾個關鍵資料來描述整體的情況，如結構、邏輯樹、漏斗分析
驗證性分析：側重於驗證之前假設的真偽性，探索兩個時間之間的相關性，如相關、因子、關聯分析
探索性分析：側重於在資料中探索新的特徵，挖掘資料潛在的內在聯絡，如聚類、迴歸、預測分析

描述性分析

結構分析法：基於某些維度計算組成成分，進而分析某一總體現象的內部結構特徵的統計方法
邏輯樹分析法：通過不斷用更小的量化指標去細分一個大的指標，從而達到定位問題的目的
漏斗分析法：用來分析從潛在使用者到終端使用者這個過程中使用者數量的變化趨勢，從而尋找到最佳的優化空間

驗證性分析

AB 測試：AB 測試是通過對 n 組相似使用者群體，分別下發不同版本的配置 /UI/ 文案，通過收集資料反饋，來做出最優決策一種線上測試方法，是目前主流的科學決策方法，但需要注意，AB測試不能度量長期目標。

**魔法數字：**當新使用者在一定時間裡、以某種頻率使用了某個功能時，會有更大的可能留下來，成為忠誠使用者，而一旦發現了這樣的功能，反過來引導使用者多次使用，達到一定次數，就可能為產品帶來更高的留存，這些能夠大大提高使用者留存的神奇數字。

相關性與因果性：忽略了外部的關鍵因素，會得出荒謬的因果結論。A 和 B 的資料高度相關，有人就片面認為A影響了 B，或者 B 影響了 A；但是，有時候真實原因是 C 同時影響了 A 和 B，而 C 被忽略掉了。

探索性分析

聚類分析：“物以類聚，人以群分”，聚類是通過統計學原理計算樣本之間的距離從而達到無監督分類的一種多元分析方法，其優勢在於不需要加入人為的干預就能達到分類預測的效果，是典型的機器學習的應用場景。

場景分析：場景定位是獲取產品洞察及挖掘使用者需求重要的手段，通常通過文字挖掘、歸納總結、抽樣調查等方式細分場景，同時對不同場景進行分析及深耕，挖掘使用者潛在需求。

三、“面”：體系與精細化

資料指標體系

在維度和指標的基礎上進行多維分析後，我們獲取了對產品和使用者更好的理解，在此基礎上，我們按照產品邏輯進行模組、分析維度及指標集的歸納整理，使之成為一種有機、條理化的體系，就是我們所說的資料指標體系。

時間序列預測與異動監控平臺

在完成資料指標體系搭建後，一個棘手的問題來了，對於每天產生的數以千計的資料指標來說，如何做到日常的異動監控？

這個問題可以簡化成一個時間序列分析問題，其核心在於通過歷史資料來預測未來的發展趨勢，通過模型預測解決異動監控的問題，我們引入了 Facebook 開源的時間序列框架 Prophet，其原理在於將一個時間序列，拆解為趨勢、週期性、季節性、節假日及隨機性五個模組：

g(t)：趨勢函式，用來擬合時間序列中的非週期性變化，判斷序列處於上升或下降趨勢；
s(t)：週期性變化，週期性包括每週、月、季節等變化趨勢；
h(t)：變點，潛在的具有非固定週期的節假日及變點對預測值造成的影響；
ϵ(t)：噪聲項，表示未預測到的隨機波動。通過模擬資料分析師日常的分析視角，可以對一個核心序列進行各個關鍵維度的拆解，組合使用 Prophet 對每一個下鑽指標進行建模，可以達到迅速定位異動原因的效果，其結果常常可以與經驗豐富的資料分析師媲美。

使用者價值模型：使用者群的精細化運營

對於一個成熟的產品來說，產品功能、產品設計、互動方式及營銷方案都是多種多樣的，同時使用者需求和偏好也是多樣化的，兩者隨著產品發展階段會出現不同程度的矛盾，精細化運營就是通過各種手段進行使用者分群，對不同需求和偏好的使用者群進行差異化的產品側運營。

同時，在產品發展的各個階段，我們需要對使用者進行拉新、促活、留存的運營，但由於資源的有限性，需要對不同的使用者群體實行有針對性的運營策略，從而實現投入產出比的最大化。因此，準確且全面的使用者分群顯得尤為重要。

RFM 使用者價值模型：由三個神奇的要素構成（R、F、M），通過這三個要素的有機結合可以幫助我們更為客觀、全面地看待使用者價值：

R：最近一次消費時間 (Recency)，越近越好，響應更為及時，運營產生的效果更加好
F：消費頻率 (Frequency)，越高越好，說明使用者滿意度高，復購意願更強，忠誠度更高
M：消費金額 (Monetary)，越高越好，說明使用者本身付費意願更強，對收入的貢獻度更高

個性化推薦系統

個性化推薦是精細化運營的一種，如果分群是對使用者群的精細化運營，那麼推薦系統可以理解為對單個使用者粒度的精細化運營，通常是我們資料應用的加工程度和工藝達到最大化的一層，也是資料對產品所能產生的最直接的影響與變現。

推薦系統是基於使用者的歷史行為、社交關係、興趣點、所處上下文環境等資訊，去判斷使用者當前需要或感興趣的物品/服務，或幫助使用者進行決策的一類應用。

搜尋與推薦本質上都是幫助使用者快速發現有用資訊的工具，其輸出的結果常常是相同的，但同樣是建立使用者與資訊之間的連線，兩者在結構上有天然的差別，其差別主要源於在使用者動機及資訊流動機制上。

推薦系統產生的原因有很多，其核心原因在於資訊過載、使用者偏好、無明確需求。推薦系統的任務和作用就在於在於連線，縮短使用者與有價值資訊之間的路徑，讓使用者離偏好的東西更近一步，提升產品體驗與轉化效率。

推薦系統的組成會根據不同的業務場景而有所不同，但通常會包含以下五個通用模組，我們暫且稱之為 “AFRRF”，五個模組環環相扣，互為依賴：

一個好的推薦系統，需要平衡和連線使用者、內容和產品三方的需求，在提供準確推薦結果的前提下，提供資訊活水流動的機制，其中長尾資訊的挖掘是至關重要的一部分，系統化的設計保持生態系統處於自我迭代發展的自迴圈機制，也就是我們說的產品的可持續發展。

其他雜談

在當前所處的大資料趨勢與環境下，無論是資料規模還是資料加工程度和工藝都正在得到了持續且長足的發展，資料採集、分析、挖掘對於產品的發展已經變得越來越重要，可以說對資料的理解程度決定了對使用者和產品的洞察能力，也決定了產品能否持續迭代優化，提升使用者體驗。

全文完

以下文章您可能也會感興趣：

我們正在招聘 Java 工程師，歡迎有興趣的同學投遞簡歷到 [email protected] 。

資料為王的時代，資料分析已是必修課

什麼是資料分析

為什麼要做資料分析

一、“點”：概念與趨勢

二、“線”：分析與洞察

描述性分析

驗證性分析

探索性分析

三、“面”：體系與精細化

資料指標體系

時間序列預測與異動監控平臺

使用者價值模型：使用者群的精細化運營

其他雜談

資料為王的時代，資料分析已是必修課

資訊時代資料為王

亞馬遜涉嫌利用收集的資料為自身牟利，英國將正式調查

雲端計算時代，資料中心架構三層到大二層的演變

大資料時代，資料倉庫究竟是幹嘛的？

ElementUI中 el-table-column 顯示的資料為多個返回資料的拼接

蘋果 iPhone 12 正式步入 5G 時代，但影響力已不如當年

Android Studio中在避免資料為空後進行資料傳遞

英雄互娛宣佈更名為“英雄遊戲”，旗下已擁有十大自研工作室

IDC 與華為聯合釋出《全快閃記憶體資料中心白皮書》，目前已有多個應用

資料中臺的“自動化資料治理”時代已來

面經手冊 · 第4篇《HashMap資料插入、查詢、刪除、遍歷，原始碼分析》

設計一個非同步雙埠RAM，深度為16，資料位寬為8bit

Python資料分析，資料視覺化：漏斗圖

“上海名媛”其實是“拼夕夕名媛”，資料分析告訴你真實的名媛其實都是什麼樣子！...

Visual Studio2019在編譯時的警告C6385、C6386從..中讀取的資料無效: 可讀大小為..個位元組，但可能讀取了..個位元組以及寫入到..時緩衝區溢位: 可寫大小為..個位元組，但可能寫入了..個位元組

資料分析例項--以電票資料為例

用75W條捐贈資料，來分析誰當總統的概率更大

元分析中的漏斗圖，出版偏誤的檢驗，資料框的行列數（R）

mysql的表字段裡面有值，但Mybatis獲取資料為null（2020-12-11）

資料為王的時代，資料分析已是必修課

什麼是資料分析

為什麼要做資料分析

一、“點”：概念與趨勢

二、“線”：分析與洞察

描述性分析

驗證性分析

探索性分析

三、“面”：體系與精細化

資料指標體系

時間序列預測與異動監控平臺

使用者價值模型：使用者群的精細化運營

其他雜談

相關推薦