產品讀書《誰說菜鳥不會資料分析(入門篇)》
什麼是資料分析?怎麼樣才是資料分析的思維?資料分析的流程有哪些?常用的資料方法又有哪些?工具呢?可以學習的網站有哪些?我覺得《誰說菜鳥不會資料分析(入門篇)》講的很清楚,能夠基本解決你想要了解的有關資料分析的基礎知識,當然,如果你沒有太多時間去詳細完整地看完整本書,那以下內容會對你有比較大的幫助。這是我學習過程中的學習筆記,也是這本書知識點的概括和總結,希望對你有所幫助。
一 資料分析那些事兒
1、什麼是資料分析?
資料分析指用適當的統計分析方法對收集來的大量資料進行分析,將它們加以彙總和理解並消化,以求最大化地開發資料的功能,發揮資料的作用。
2、分類和作用
探索性資料分析側重於發現新的特徵,驗證性資料分析側重於驗證已有假設。
3、資料分析6步曲
資料收集:資料庫、公開出版物、網際網路、市場調查
資料處理:資料清洗、資料轉化、資料提取、資料計算
注:資料探勘是高階的資料分析,側重解決:分類、聚類、關聯、預測,重點在尋找模式和規律。
撰寫報告:結論、建議或解決方案
3、常用指標和術語
- 平均數
- 絕對數:5000人、300元、50家
- 相對數:20%、6倍、7成、1:5、3‰、120元/人
- 百分比
- 百分點:1個百分點=1%,是指變動的幅度
- 頻數:絕對數,是一組資料中個別資料重複出現的次數
- 頻率:相對數,次數與總次數的比,反應一個整體中各部分之間的關係。
- 比例:相對數,總體中各部分佔全部的比,如:男生的比例是30:50(男生:男生+女生)
- 比率:相對數,不同類別的比,如男女比率:3:2(男生:女生)
- 倍數:相對數,一個數除以另一個數所得的商,如A/B=C,那麼A是B的C倍。
- 番數:相對數,指原來數量的2的N次方,如翻一番,意思是原來數量的2倍,翻兩番意思是4倍
- 同比:相對數,指歷史同時期進行比較,如去年12月與今年12月相比是同比,反應相對發展情況
- 環比:相對數,指與前一個統計期進行比較,如今年5月與今年4月相比是環比,反應逐期發展情況
二 確定分析思路
1、資料分析方法論
資料分析方法論用來巨集觀地指導資料分析,更多的是指資料分析思路。
2、常用的資料分析方法論
營銷方面的理論模型:4P、使用者使用行為、STP理論、SWOT等
管理方面的理論模型:PEST、5W2H、時間管理、生命週期、邏輯樹、金字塔、SMART原則等
1)PEST分析法:用於巨集觀環境的分析。【PEST主要用於行業分析】
- 政治Political:政治體制、經濟體制、財政政策、稅收政策、產業政策、投資政策、國防開支等等
- 經濟Economic:收入水平、消費偏好、就業情況、儲蓄情況等等
- 技術Technological:新技術的發明和發展、技術更新速度、傳播速度、專利情況等等
- 社會Social:受教育程度、文化水平、宗教信仰、風俗習慣、審美觀點、價值觀等等
2)5W2H分析方法【5W2H可用於使用者行為分析、業務問題等等】
3)邏輯樹分析法:將問題的所有子問題分層羅列,逐步向下擴充套件【邏輯樹可用於業務問題專題分析】
作用:理清思路、避免重複和無關的思考
原則:要素化:相同問題歸納為要素
框架化:各個要素構成框架,遵守不重不漏原則
關聯化:保持必要的相互關係
4)4P營銷理論【4P主要用於公司整體經營情況分析】
- 產品Product:滿足需求的東西
- 價格Price:購買產品的價格,關係到企業利潤、成本補償、產品銷售促銷等。影響定價的三要素:需求、成本、競爭。
- 渠道Place:產品從生產到使用者的流轉環節。
- 促銷Promotion:刺激使用者消費,促進消費增長。促銷的四大要素:廣告、宣傳推廣、人員推銷、銷售促進。
5)、使用者行為理論【使用者行為理論使用者使用者行為研究分析】
有使用行為軌跡:認知——熟悉——試用——使用——忠誠
網站分析指標體系:
三、資料準備
- 欄位與記錄
- 資料型別:字元型資料、數值型資料
1、二維資料-----轉->一維資料
2、文字資料匯入EXCEL:資料---自文字/自網站
3、問卷錄入要求:數值題、單選題、多選題(二分法、多重分類法)、排序題、開放性文字題
四、資料處理(EXCEL)
Step 1、資料清洗:刪除多餘重複的資料,補齊缺失資料,糾正或刪除錯誤資料。
- 重複資料的處理:函式法countif、條件格式、高階篩選、透視表、刪除重複值、
- 缺失值的處理:定位輸入、查詢替換、條件格式(可以接受缺失值在10%以下)
定位輸入(Ctrl+G)
1)使用樣本統計量的值(常用:平均值)代替缺失值
2)用統計模型(迴歸模型、判別模型)計算出來的值去替代缺失值
3)刪除缺失記錄
4)保留,但在分析時排除
注:CTRL+ENTER 批修改值
- 檢查資料邏輯錯誤
1)IF函式:IF(COUNTIF(B3:H3,"<>0")>3,“錯誤”,“正確”) 如果錄入的選項(非0的資料)超過3個,則單元格顯示“錯誤”,否則,顯示“正確”。
2)條件格式 OR AND
eg:=OR(B3=1,B3=0)=FALSE 如果“B3為1或0”的命題是錯誤的(=FALSE),則會被條件格式突出標記出來。
Step 2、資料加工
1)資料抽取
- 欄位分列:選單法(特定分隔符時方便)、LEFT/RIGHT函式
- 欄位合併:CONCATENAT、&
- 欄位匹配:VLOOKUP
2)資料計算:
- 簡單計算:加減乘除等
- 函式計算:平均值、求和、日期的加減法
3)資料分組 :VLOOKUP
4)資料轉換:行列轉換、資料轉換、多選題錄入方式轉換
5)資料抽樣:RAND
五、資料分析
1、資料分析方法
補充:矩陣關聯分析法:第一象限(高度關注區)、第二象限(優先改進區)、第三象限(無關緊要區)、第四象限(維持優勢區);發展矩陣、改進難易矩陣
綜合分析的5個步驟:
資料標準化:0-1標準化、Z標準化
權重確定方法:專家訪談法、德爾菲法、層次分析法、主成分分析法、因子分析法、迴歸分析法、目標優化矩陣表等
2、高階資料分析方法
3、資料透視表
- 百分比計算
- 環比、同比計算
- 資料分組計算
六、資料展現
1、通過關係選擇圖表:表達形象化、突出重點體現專業化
- 成分:餅圖、百分比堆積柱形圖、百分比堆積條形圖、瀑布圖
- 排序:柱形圖、條形圖、氣泡圖、帕累託圖
- 時間序列:折線圖、柱形圖、、面積圖
- 頻率分佈:柱形圖、條形圖、折線圖
- 相關性:柱形圖、對稱條形圖(旋風圖)、散點圖、氣泡圖
- 多重資料比較:雷達圖
2、表格:
- 突出顯示單元格
- 資料條
- 圖示集
- 迷你圖
3、其他好看的圖:
- 平均線圖
- 雙座標圖
- 豎形折線圖
- 人口金字塔圖
- 漏斗圖
- 矩陣圖、發展矩陣圖
- 瀑布圖:用於財務分析,表示企業成本的構成、變化等
- 帕累託圖:又叫排列圖、主次圖,按照發生頻次的高低繪製的直方圖
- 旋風圖:對稱條形圖,可用於活動/行為前後的指標變化,具有因果關係指標之間的變化和聯絡
七、圖表規範化
1、圖表元素:標題、圖例、單位、腳註、資料來源
2、注意事項:
- 餅圖:從12點鐘開始、資料保持在5項以內(定位理論)、不要使用餅圖分離、不需要圖例、不要3D效果
- 複合餅圖/複合條形圖:當元素大於5項時
- 柱形圖:同一資料序列使用相同的顏色、不要使用傾斜的標籤(太長可用條形圖代替、縱座標軸一般從0開始(若新增資料標籤縱座標可刪除)、最好新增資料標籤、刻度線和網格線多餘、可以設定為Arial字型
- 條形圖:同柱形圖(由大到小排列)
- 折線圖:線條不要超過5條、不要使用傾斜標籤、縱座標軸一般從0開始、刻度線和網格線多餘、預測值用虛線表示
注:圖表會撒謊
(1)虛張聲勢的增長----刻度調整
(2)3D效果的偽裝----簡約不用3D效果
(3)逆序排列的誤導
(4)一維圖形的障眼法
3、圖表美化:簡約、整潔、對比
1)最大化資料墨水比:圖表中每一滴墨水都要有存在的理由【用在資料元素上(曲線、條形、扇形等),不要用在非資料元素(座標軸、填充色、網格線等和原始資料無關的元素)】
去掉不必要的背景填充色、去掉無意義的顏色分類、去掉裝飾性的漸變色、去掉網格線、邊框、刪掉不必要的圖例、去掉不必要的座標軸、去掉裝飾性圖片、以上不能去掉的元素儘量淡化、對需要強調的資料元素進行突出標識
2)、找出隱形的線
3)、圖表喜歡的數字格式:Arial字型
4)、突出對比:直線、箭頭、陰影等【瞭解基礎配色】
八、資料分析報告
1、資料分析報告的作用:
- 展示分析結果
- 驗證分析質量
- 提供決策參考
2、資料分析報告的種類
- 專題分析報告:單一性、深入性:切忌蜻蜓點水,泛泛而談
- 綜合分析報告:全面性、聯絡性:從巨集觀角度反映指標之間關係
- 日常資料通報:進度性、規範性、時效性
3、資料分析報告的結構
- 標題:解釋基本觀點、概況主要內容、交代分析主題、提出問題
- 目錄
- 前言:背景分析、目的、思路
- 正文:
- 結論與建議
資料分析誤區:
- 分析目的不明確,為分析而分析;
- 缺乏業務知識,分析結果偏離實際;
- 一味追求使用高階分析方法,熱衷研究模型;
附錄: