1. 程式人生 > 其它 >《從1開始資料分析師成長之路》學習筆記

《從1開始資料分析師成長之路》學習筆記

### 《從1開始資料分析師成長之路》學習筆記
- - 一、描述、概括、分析
- - 1. 描述
- 2. 概括
- 3. 分析
- 4. 小結:
- 二、傳統資料VS大資料
- - 1. 資料獲取方式
- 2. 傳統資料與大資料的區別
- 三、資料分析與資料探勘
- - 1. 資料分析的大致模組:
- 2. 資料探勘的理論知識體系
- 四、資料分析的主要工作內容
- - 1. 製作報表
- 2. 異常資料分析
- - 資料異常的監測及處理
- 3. 資料需求處理
- 4. 專案性分析
- - 任務VS 專案
- 五、資料分析師進階
- - - - 格局的培養
- 六、資料分析實戰
- - 1. 報表系統製作
- 2. 發現異常
- 3. Logistic迴歸建模方法過程
- 七、總結
- 八、參考資料
## 一、描述、概括、分析
### 1. 描述
描述是對事物或是物件的直接描寫。
描述性的統計變數:
1. 平均數:所有資料之和除以資料的個數。 表示整體平均水平
2. 眾數:資料中出現頻率最高的數值。 展示資料的主要集中範圍
3. 中位數:將資料 從小到大 排列,位置處於中間的數值。 用來與平均數進行對比,判斷資料是否平滑
4. 方差:每個資料與平均值的差值的平方,再取平均值。 用來判斷資料波動情況
5. 極差:最大值-最小值
6. 上/下四分位點:將資料 從大到小 排列,位置處於前1/4或是後1/4的數值。
### 2. 概括
概括是在具象描述的基礎上抽離出的概念與總結。
比如有:正態分佈、均勻分佈、泊松分佈等。、
### 3. 分析
分析是將研究物件的整體分為各個部分、方面、因素和層次,並分別加以考察的認識活動。分析的有效性建立在一個共識之上:一切結果都是有原因的。 `
資料分析一定是以目標為前提,以結果為導向 ` 。
### 4. 小結:
1. 描述的意義在於讓我們知道這個人的外形,這個資料集的長相。
2. 概況的意義在於從整體上對物件有一個進一步的瞭解和認識。
3. 分析的特點在於為了達成一個目標而對物件進行一步步地探索和挖掘。
## 二、傳統資料VS大資料
### 1. 資料獲取方式
資料的獲取方式:自有資料和外部資料。
1. 自有資料包括:爬蟲抓取、使用者留存、使用者上傳。
2. 外部資料:資料交易、資料共享。
### 2. 傳統資料與大資料的區別
1. 大資料記錄的是一個過程,傳統資料的記錄方式更傾向於對結果的簡單描述。
2. 大資料與傳統資料的核心差異在於其價值的不可估量。
3. 傳統資料的價值體現在資訊傳遞和表徵,是對現象的描述和反饋,讓人通過資料去了解資料。
4. 大資料是對物件發生過程的全紀錄,通過資料不僅能夠了解物件,還能夠分析物件,掌握物件運作的規律,挖掘物件內部的結構與特點,甚至能瞭解物件自己都不知道的資訊。
## 三、資料分析與資料探勘
### 1. 資料分析的大致模組:
1. 明確分析目標:更注重解決業務上的問題。目的性極強,區別於資料探勘的找關聯、做分類、搞聚類。
2. 資料收集:來源廣,可以是資料庫、資訊採集表、走訪等各種形式。資料探勘則偏向於對資料庫資料的讀取。
3. 資料清洗:由於資料來源廣,資料格式欄位不一,需要根據目的進行歸類、整合、預估和填補等。
4. 資料分析:最重要的過程,時刻以目標為前提,結果為導向。資料探勘更傾向使用貝葉斯、決策樹、聚類分類等幾個演算法進行資料操作。
5. 資料報告:最簡單、最通俗易懂的闡述結果,做這件事有xx%的概率收穫XX元。
6. 執行與反饋。
自學資料分析或者資料探勘的關鍵是構建應用場景!
### 2. 資料探勘的理論知識體系
- 概率基礎
隨機變數、數字特徵、概率、引數估計、假設檢驗
- 演算法邏輯
聚類分析、決策樹、關聯演算法、貝葉斯、迴歸分析、神經網路。
## 四、資料分析的主要工作內容
### 1. 製作報表
格式、函式、圖表、VBA。
基礎的資料透視表和資料透檢視必須非常熟練。
圖表是一種表達方式。製作圖表的核心標準是: 受眾能迅速準確地獲得你想表達的內容 。因此我們要知道每一個圖表的特點、優勢、特徵。
專業報表格式:微軟雅黑9號字型,欄位行底色淺色35%灰色底色,字型白色加粗,上下居中,左右居中,首行首列做凍結窗格。
- 折線圖傳遞變化趨勢的資訊
- 餅狀圖傳遞組成成分的資訊
- 柱狀圖傳遞數值大小的資訊
- 散點圖傳遞資料集中度的資訊
- 面積圖傳遞數值積累的資訊
製作報表必須非常 嚴謹客觀 ,資料分析只有100%和0%!
熟練掌握VBA有助於提高工作效率。
### 2. 異常資料分析
敏感度、邏輯性、執行力。
異常資料:不符合隨機波動的資料。通過背資料可以培養我們的資料敏感性。
統計學中6西格瑪概念
其來自正態分佈。
- 函式曲線下68.268949%的面積在平均數左右的一個標準差範圍內。
- 95.449974%的面積在平均數左右兩個標準差的範圍內。
- 99.730020%的面積在平均數左右三個標準差的範圍內。
- 99.993666%的面積在平均數左右四個標準差的範圍內
#### 資料異常的監測及處理
發現異常–>分析原因–>給出方案–>推動執行–>監控效果–>反思總結
### 3. 資料需求處理
MySQL、目的性、全域性思維
小建議:資料分析師一定要有自己的需求表,並且做一個優先順序排序!
### 4. 專案性分析
擴充套件專案、優化專案、主動專案、框架性
專案分類:主動專案好被動專案。
被動專案:擴充套件類和優化類。
主動專案:使用者分析、商戶分析、其他。
建議先搭好框架,然後執行。自頂向下的思維。
專案性分析的核心:制定方案。
制定方案的思路(本質就是找最優解,利潤最大化的方案):找到問題原因–>窮舉所有可能的方案–>比較每個方案的優劣–>比較篩選方案的可行性–>找到最優解。
#### 任務VS 專案
- 任務
單一的執行和服從命令。
- 專案
一系列任務的合集。
## 五、資料分析師進階
資料分析思維:邏輯性、方向性、絕對客觀與絕對理性。
要自信:沒有解決不了的問題,沒解決只是因為投入大於產出。
做錯事時的態度:客觀理性,第一時間先把問題解決、找到錯誤的原因,再自己檢討。
##### 格局的培養
- 站在員工的角度考慮問題
- 站在管理者的角度考慮問題
- 站在公司的角度考慮問題
- 站在行業的角度考慮問題
- 站在國家的角度考慮問題
- 站在歷史的角度考慮問題
## 六、資料分析實戰
### 1. 報表系統製作
報表系統製作環節:
1. 業務邏輯
2. 資料埋點
3. 報表結構
4. 資料調取
5. 報表系統
資料報表體系三大模 :獲客模組、轉化模組、交易模組
圖表製作的一個重要準則——保持客觀性。
### 2. 發現異常
同比:一般情況下指今年第n月與去年第n月比。同比發展速度主要是消除季節變動的影響,用以說明本期發展水平比去年同期發展水平對比而達到的相對發展速度。
環比:一般指報告期水平與前一時期水平之比,表明現象逐期發展速度。
注意那些應該異常但是沒有異常的資料!
### 3. Logistic迴歸建模方法過程
1. 資料調取與資料清洗
2. 資料準備
3. 迴歸建模
4. 模型檢驗
衡量模型好壞的指標
- VIF(方差膨脹因子)
容忍度的倒數,VIF越大,顯示共線性越嚴重。0<VIF<10,不存在多重共線性;10<=VIF<100,存在較強的多重共線性;VIF>=100存在嚴重多重共線性。
- 預測
- ROC曲線
用來確定判定為0/1的分割點位置。
- K-S值計算
用來衡量模型區分度的重要標準。logistic迴歸模型一般要求K-S值在30%以上才算做有效。
增大樣本量的一種方法:從樣本中多次隨機選擇記錄組成一個新的資料組。
- 模型使用
## 七、總結
讀完這本書,對於資料分析有了一個大致的瞭解,算是小白入門階段。資料分析是以目的為前提,結果為導向的。一切思考要始終圍繞這個出發。
後期的學習要以實戰為基礎,培養自己的思維能力、資料敏感度、處事態度,在實戰中提升技能和軟實力。
## 八、參考資料
張旭東老師的《從1開始資料分析師成長之路》
後記:
我從本碩藥學零基礎轉行計算機,自學路上,走過很多彎路,也慶幸自己喜歡記筆記,把知識點進行總結,幫助自己成功實現轉行。
2020下半年進入職場,深感自己的不足,所以2021年給自己定了個計劃,每日學一技,日積月累,厚積薄發。
如果你想和我一起交流學習,歡迎大家關注我的微信公眾號 每日學一技 ,掃描下方二維碼或者搜尋 每日學一技 關注。
這個公眾號主要是分享和記錄自己每日的技術學習,不定期整理子類分享,主要涉及 C – > Python – >
Java,計算機基礎知識,機器學習,職場技能等,簡單說就是一句話,成長的見證!