1. 程式人生 > >大資料---資料分析師的完整流程與知識結構體系

大資料---資料分析師的完整流程與知識結構體系

作為資料分析師,無論最初的職業定位方向是技術還是業務,最終發到一定階段後都會承擔資料管理的角色。因此,一個具有較高層次的資料分析師需要具備完整的知識結構。

01

資料採集

瞭解資料採集的意義在於真正瞭解資料的原始面貌,包括資料產生的時間、條件、格式、內容、長度、限制條件等。這會幫助資料分析師更有針對性的控制資料生產和採集過程,避免由於違反資料採集規則導致的資料問題;同時,對資料採集邏輯的認識增加了資料分析師對資料的理解程度,尤其是資料中的異常變化。比如:

Omniture中的Prop變數長度只有100個字元,在資料採集部署過程中就不能把含有大量中文描述的文字賦值給Prop變數(超過的字元會被截斷)。

在Webtrekk323之前的Pixel版本,單條資訊預設最多隻能傳送不超過2K的資料。當頁面含有過多變數或變數長度有超出限定的情況下,在保持資料收集的需求下,通常的解決方案是採用多個sendinfo方法分條傳送;而在325之後的Pixel版本,單條資訊預設最多可以傳送7K資料量,非常方便的解決了程式碼部署中單條資訊過載的問題。(Webtrekk基於請求量付費,請求量越少,費用越低)。

當用戶在離線狀態下使用APP時,資料由於無法聯網而發出,導致正常時間內的資料統計分析延遲。直到該裝置下次聯網時,資料才能被髮出並歸入當時的時間。這就產生了不同時間看相同歷史時間的資料時會發生資料有出入。

在資料採集階段,資料分析師需要更多的瞭解資料生產和採集過程中的異常情況,如此才能更好的追本溯源。另外,這也能很大程度上避免“垃圾資料進導致垃圾資料出”的問題。

02

資料儲存

無論資料儲存於雲端還是本地,資料的儲存不只是我們看到的資料庫那麼簡單。比如:

資料儲存系統是MySql、Oracle、SQL Server還是其他系統。

資料倉庫結構及各庫表如何關聯,星型、雪花型還是其他。

生產資料庫接收資料時是否有一定規則,比如只接收特定型別欄位。

生產資料庫面對異常值如何處理,強制轉換、留空還是返回錯誤。

生產資料庫及資料倉庫系統如何儲存資料,名稱、含義、型別、長度、精度、是否可為空、是否唯一、字元編碼、約束條件規則是什麼。

接觸到的資料是原始資料還是ETL後的資料,ETL規則是什麼。

資料倉庫資料的更新更新機制是什麼,全量更新還是增量更新。

不同資料庫和庫表之間的同步規則是什麼,哪些因素會造成資料差異,如何處理差異的。

在資料儲存階段,資料分析師需要了解資料儲存內部的工作機制和流程,最核心的因素是在原始資料基礎上經過哪些加工處理,最後得到了怎樣的資料。由於資料在儲存階段是不斷動態變化和迭代更新的,其及時性、完整性、有效性、一致性、準確性很多時候由於軟硬體、內外部環境問題無法保證,這些都會導致後期資料應用問題。

03

資料提取

資料提取是將資料取出的過程,資料提取的核心環節是從哪取、何時取、如何取。

從哪取,資料來源——不同的資料來源得到的資料結果未必一致。

何時取,提取時間——不同時間取出來的資料結果未必一致。

如何取,提取規則——不同提取規則下的資料結果很難一致。

在資料提取階段,資料分析師首先需要具備資料提取能力。常用的Select From語句是SQL查詢和提取的必備技能,但即使是簡單的取數工作也有不同層次。第一層是從單張資料庫中按條件提取資料的能力,where是基本的條件語句;第二層是掌握跨庫表提取資料的能力,不同的join有不同的用法;第三層是優化SQL語句,通過優化巢狀、篩選的邏輯層次和遍歷次數等,減少個人時間浪費和系統資源消耗。

其次是理解業務需求的能力,比如業務需要“銷售額”這個欄位,相關欄位至少有產品銷售額和產品訂單金額,其中的差別在於是否含優惠券、運費等折扣和費用。包含該因素即是訂單金額,否則就是產品單價×數量的產品銷售額。

04

資料探勘

資料探勘是面對海量資料時進行資料價值提煉的關鍵,以下是演算法選擇的基本原則:

沒有最好的演算法,只有最適合的演算法,演算法選擇的原則是兼具準確性、可操作性、可理解性、可應用性。

沒有一種演算法能解決所有問題,但精通一門演算法可以解決很多問題。

挖掘演算法最難的是演算法調優,同一種演算法在不同場景下的引數設定相同,實踐是獲得調優經驗的重要途徑。

在資料探勘階段,資料分析師要掌握資料探勘相關能力。一是資料探勘、統計學、數學基本原理和常識;二是熟練使用一門資料探勘工具,Clementine、SAS或R都是可選項,如果是程式出身也可以選擇程式設計實現;三是需要了解常用的資料探勘演算法以及每種演算法的應用場景和優劣差異點。

05

資料分析

資料分析相對於資料探勘更多的是偏向業務應用和解讀,當資料探勘演算法得出結論後,如何解釋演算法在結果、可信度、顯著程度等方面對於業務的實際意義,如何將挖掘結果反饋到業務操作過程中便於業務理解和實施是關鍵。

06

資料展現

資料展現即資料視覺化的部分,資料分析師如何把資料觀點展示給業務的過程。資料展現除遵循各公司統一規範原則外,具體形式還要根據實際需求和場景而定。基本素質要求如下:

工具。PPT、Excel、Word甚至郵件都是不錯的展現工具,任意一個工具用好都很強大。

形式。圖文並茂的基本原則更易於理解,生動、有趣、互動、講故事都是加分項。

原則。領導層喜歡讀圖、看趨勢、要結論,執行層歡看數、讀文字、看過程。

場景。大型會議PPT最合適,彙報說明Word最實用,資料較多時Excel更方便。

最重要一點,資料展現永遠輔助於資料內容,有價值的資料報告才是關鍵。

07

資料應用

資料應用是資料具有落地價值的直接體現,這個過程需要資料分析師具備資料溝通能力、業務推動能力和專案工作能力。

資料溝通能力。深入淺出的資料報告、言簡意賅的資料結論更利於業務理解和接受,打比方、舉例子都是非常實用的技巧。

業務推動能力。在業務理解資料的基礎上,推動業務落地實現資料建議。從業務最重要、最緊急、最能產生效果的環節開始是個好方法,同時要考慮到業務落地的客觀環境,即好的資料結論需要具備客觀落地條件。

專案工作能力。資料專案工作是循序漸進的過程,無論是一個數據分析專案還是資料產品專案,都需要資料分析師具備計劃、領導、組織、控制的專案工作能力。