1. 程式人生 > >人人都應該成為資料分析師

人人都應該成為資料分析師

640?wx_fmt=png&wxfrom=5&wx_lazy=1

以下文章內容,來自草堂君的新書《人人都會資料分析-從生活例項學統計》。因為新書中增添和細化了很多知識點,所以草堂君會逐步將這些內容補充到統計基礎導航頁中來,幫助大家建立資料分析思維。限於篇幅,只擷取書中部分內容

大資料時代改變著人們的生活和商業活動,同時也改變著就業市場的需求。資料分析能力已經成為不少具有前瞻性公司招聘人才時要求的基本技能之一,因為無論什麼工作崗位,崗位的工作職責中必定包括資料分析和結果展示的要求。例如,銷售崗位的市場調研資料分析;財務崗位的財務資料分析;生產崗位的生產資料分析等。資訊化時代的發展要求人人都需要掌握一定的資料分析能力,這不僅能幫助人們在工作中解決各種問題,提高個人的工作能力和工作效率,還能在生活中幫助人們在面對艱難選擇時理性地做出正確的選擇。資料分析能力這麼重要,那麼資料分析能力包括哪些?資料分析師是如何練成的呢?本節將向你介紹如何一步一步成為資料分析師。

資料分析過程

資料分析能力貫穿在資料分析的所有步驟中,在分工細緻的專業諮詢公司,資料分析的每個具體步驟甚至都由專人負責,由此可見,資料分析能力是一項綜合性的能力。如下圖所示,資料分析過程一般包括六個步驟:確定目標資料、資料採集、資料清洗、資料儲存、資料分析、結果視覺化及結果支援的決策等步驟。

0?wx_fmt=png

確定目標資料

在獲取資料之前,首先需要根據資料分析的目的篩選出需要採集的目標資料,這是確保整個資料分析過程合理有效的首要條件,因為只有對目標資料進行分析才有可能得到對分析者有用的分析結果。確定需要採集的目標資料種類時,不僅要全面篩選出重要資料的種類,而且要避免篩選出具有重複功能的資料種類。例如,某食品工廠為了降低自動化生產線的物料損耗,需要記錄如下資料種類:物料損耗型別、數量、金額,發生物料損耗的工藝位置、時間、操作人員,物料損耗的原因等。

目標資料採集

確定好目標資料以後,第二步就是依據確定的目標資料列表對目標資料進行有效採集。根據資料採集的難易程度,資料採集可以分為資料實時採集和資料抽樣採集兩種形式。雖然資料實時採集的成本較高,但是實時資料分析的結果能夠更真實地反映資料總體的情況,且隨著計算機軟硬體技術和感測器裝置的快速發展,資料實時採集的成本也將快速降低,因此,現在已經有越來越多的資料採集過程使用資料實時採集的形式。例如,通過感測器對生產過程的溫溼度、產品重量等生產資料進行採集就是資料實時採集的過程。因為資料實時採集的資料量都很龐大,所以常被冠以“大資料”的名號。對於一般的資料分析過程,更多采用資料抽樣採集的形式,然後用樣本的資料特徵來推斷總體的資料特徵。例如,用問卷調查的形式對顧客的滿意度進行抽樣調查就是資料抽樣採集的過程。資料的抽樣採集首先需要從總體中抽取合適的樣本,儘量使樣本能夠反映總體的特徵,這樣才能使資料分析結果具有參考性。

資料清洗

資料採集回來以後,需要對採集回來的資料進行清洗,提高資料質量。無論是通過感測器採集的實時資料還是通過問卷調查採集的抽樣資料,都不可避免地會出現各種資料缺失和記錄錯誤的情況。糾正拼寫錯誤、處理缺失資料以及清除無意義的資料是資料清洗中非常關鍵的步驟。因為垃圾資料即使應用最合適的資料分析方法,最終也將產生錯誤的分析結果,從而誤導業務本身。

關於資料清洗的必要性,有一個發生在美國的經典案例。在20世紀的八九十年代,很多美國公司在從事業務的過程中會有意識地記錄顧客的郵政編碼,以此分析主要客戶的來源地。結果有不止一家公司發現有很大一部分客戶住在紐約的斯克內克塔迪,郵政編碼是12345,但是該小鎮的人口卻不足70000人。後來才發現,由於顧客往往不願意將他們的真實資訊填入問卷,所以12345這個郵政編碼會以很高的頻率出現在顧客的檔案資料庫中。如果直接分析這些失真的資料,將導致錯誤的結論,除非資料分析師提前發現異常,並採取了相應措施來驗證和清洗資料。

資料儲存

在計算機技術還未發展起來的年代,各種資料都是以紙質檔案的形式儲存的,特別是某些需要儲存大量資料的單位,甚至需要用整棟樓的空間來存放這些紙質的資料檔案。例如,公安部門的人口資訊資料,氣象部門的氣象資訊資料和製造業的生產資料等。紙質檔案的資料儲存形式雖然更容易,也很便宜,但是存在著資料儲存過程容易發生錯誤,儲存在各地的資料無法共享以及資料檢索過程麻煩等問題,所以在大資料時代的今天,用紙質檔案進行資料儲存的方式已經越來越少被採用,取而代之的是各種資料庫的資料儲存形式。

最近幾年,很多拖延了幾十年的大案要案被偵破,資料庫在其中發揮了非常重要的作用。例如,白銀市的連環殺人案。在1988年至2002年的14年間,在甘肅省白銀市有9名女性慘遭入室殺害,部分受害人曾遭受性侵害,作案手段殘忍,極具隱蔽性,造成巨大的社會恐慌。直到2016年,殺人犯高承勇才被抓獲,此時距離首案時間已經過去長達28年。案件能被破獲的關鍵是公安機關建立了DNA資料庫,採集和儲存了大量的DNA資料,通過對DNA資料的比對分析,初步確定了犯罪嫌疑人的姓氏為高姓,極大地縮小了偵查人群的範圍,後經指紋和DNA取樣比對,最終確定犯罪嫌疑人為高承勇。

目前市場上有許多資料庫產品,如Oracle,Microsoft SQL Serve,Microsoft Access,Visual FoxPro等,這些產品都有各自的特點,在資料庫市場上佔有一席之地。

資料分析

在經過了以上資料處理步驟以後,就需要採用不同的資料分析方法對資料進行分析,得到所需的資料分析結果。資料分析方法的理論基礎是統計學。統計學是一門古老的學科,隨著時代的發展,它所囊括的內容也越來越豐富,甚至發展出應用於各種領域的分支學科。統計學是數學的一個重要組成部分,以數理統計學為基礎,對收集到的資料進行描述,然後通過推斷與預測,為最終的決策提供資料參考。統計理論是資料分析過程的核心基礎,只有學會了統計理論才能快速而正確的選擇合適的資料分析方法對資料進行分析。本書將會在接下來的篇章中完整的介紹統計基礎,幫助大家邁出成為資料分析師最紮實的一步。

0?wx_fmt=png

結果的視覺化

資料經過不同的分析技術分析以後,將會得到含義豐富的資料分析結果,這些結果可以用兩種方式進行陳述:一種是數值加文字說明的方式;另一種是視覺化圖表的形式。後者因為具有直觀形象、易於理解的特點,逐漸成為結果展示不可缺少的方式。統計圖是視覺化圖表中非常重要的組成部分,包括直方圖、箱圖、散點圖和柏拉圖等。如下圖所示,不同的統計圖適用於不同的情形,這部分內容將在第5章中詳細介紹。

0?wx_fmt=png

總結一下

本節完整介紹了資料分析過程的所有步驟,相信大家學習完以後,對資料分析過程已經有了框架性的瞭解。要想成為一名能夠獨當一面的資料分析師,當然最好是能夠掌握六個步驟所需的所有技能,但是這些技能也有重要性的區別。在六個步驟所需要的所有能力中,資料採集、資料清洗、資料儲存和資料結果展示都可以由資料庫軟體和統計分析軟體快速完成,只需要簡單學習軟體操作即可掌握,而最重要且最難掌握的是資料分析的統計理論基礎,只有熟練使用各種資料統計分析方法,才能夠獨立進行資料分析,併成為一名真正有價值的資料分析師。如果將各種資料庫軟體和統計分析軟體比作武功招式的話,統計理論基礎就是資料分析的內功,只有掌握了內功,武功招式才能發揮出最大的威力,它們是相輔相成、互相促進的關係。

溫馨提示:

  • 資料分析課程私人定製,一對一輔導,新增微信(possitive2)諮詢!

  • 生活統計學QQ群:134373751,用於分享文章提到的各種案例資料、軟體、資料檔案等。

  • 生活統計學微信交流群,用於各自行業的資料研究專案及其成果交流分享;由於人數大於100人,請新增微信possitive2,拉您入群。

  • 資料分析諮詢,請點選首頁下方“互動諮詢”板塊,獲取諮詢流程!