1. 程式人生 > >資料分析的基本方法

資料分析的基本方法

隨著網際網路的蓬勃發展,大資料、人工智慧等概念的火熱, 資料逐漸成為各類公司的主要財富和制勝祕笈。在這種情況下,資料分析可以幫助公司做出更合適運營決策。 本文簡單介紹下個人總結的資料分析方法(寫的不好,僅供入門參考,高手就見諒則個),請大家指正,謝謝!

本文主要分為五個部分:

  1. 需求確認
  2. 瞭解資料
  3. 提取資料
  4. 資料分析
  5. 出結論

一、需求確認

資料分析的目的是為了瞭解業務的現狀如何,有沒有什麼問題,或者應該怎麼做。所以,資料分析必須先正確理解業務的需求再開展分析,不然很容易南轅北轍,累死累活半天,結果還被領導一頓批,那個冤啊。

跟業務確認需求有以下幾個方法:

  1. 先了解這個分析的目的是什麼?業務期望看到的結果是什麼樣的?
  2. 跟業務確認好需要分析的時間視窗,資料維度;
  3. 按照你的理解複述下業務的所有需求;
  4. 可以草擬一個交付結果的框架;

二、瞭解資料

需求確認後,就得了解這個資料分析需要用到的資料了,大致包含以下內容:

  1. 資料的儲存位置,什麼庫?什麼表?什麼欄位?
  2. 資料粒度,是賬號的維度?還是人的維度,訂單的維度等等?
  3. 資料的時間範圍?
  4. 資料關聯關係,是一對一,一對多,還是多對多?
  5. 有沒有重複值、異常值、缺失值?
  6. 資料表插入、更新資料的業務邏輯?

三、提取資料

根據大家資料儲存的方式(Mysql、MongoDB等各類資料庫,本地檔案等),選擇合適的方法,提取出所有需要的欄位,並且合併成一張資料寬表。這個寬表的每一行代表一個基本業務單元(如一個人、一個訂單等),一個列,代表每個業務的單元的各項屬性(也稱為特徵、變數)。

四、資料分析

資料寬表合併好後,可以開始正式的分析了。這裡以研究的目標變數是單維度為示例,比如什麼樣的使用者會響應推廣的活動,什麼樣的貸款使用者會逾期等。 具體的分析分為單維度分析和多維度分析,下面以什麼樣的貸款使用者會逾期簡單說明下:

1. 單維度分析

單維度分析比較簡單,可以選取的維度非常多,比如性別、年齡、職業、收入狀況等等。 下面的結果表明:男性的逾期率是女性的2倍(逾期率本身會有多種口徑,這裡不單獨說明)

性別 放款使用者數 逾期使用者數 逾期比例
100 20 20%
100 10 10%

2.多維度分析

在單維度的基礎上,增加同時看的維度數,比如同時看性別、年齡的不同組合下,使用者的逾期率水平。 這個其實就是個列聯表,思想上也有點像決策樹模型。

五、出結論

OK,資料有了(需要確保自己的資料是正確的),我們該把我們的結論以郵件或者PPT的形式彙報給領導或者業務方了。 為了保證我們的結果,業務放願意看,也能看懂,需要注意2點:

  1. 儘量按照總-分-總的結構來,開頭就能說明分析結論,中間寫分析過程,最後總結下。
  2. 參照金字塔原理寫序言的方法開頭,情景-衝突-問題-答案(具體方法見《金字塔原理》)

本文恐怕只能作為新手入門的參考,待有時間再修改補充,原諒我的表達能力實在渣渣。