Python資料分析實戰(1)資料分析概述
作者:Corley
源自:快學python
一、入門資料分析
1.大資料時代的基本面
大資料產業發展現狀:現在資料已經呈現出了爆炸式的增長,每一分鐘可能就會有:
13000+個iPhone應用下載
Twitter上釋出98000+新微博
發出1.68億+條Email
淘寶雙十一10680+個新訂單
12306出票1840+張
在大資料時代,出現了三大變革:
從隨機樣本到全量資料
從精確性到混雜性
從因果關係到相關關係
舉一個典型的例子:男士到超市買尿布會順帶買一些啤酒,通過大資料分析出的結果促使超市在尿布的貨架附近放一些啤酒,從而增大銷量,買尿布與買啤酒之間沒有因果關係,但是存在著某種相關關係。
國內大資料應用狀況如下(來自CSDN):
可以看到,大資料的應用已經具有一定規模,但是還有很大的發展空間。
人才方面的需求主要包括:
資料分析師
統計分析
預測分析
流程優化
大資料工程師
平臺開發
應用開發
技術支撐
資料架構師
業務理解
應用部署
架構設計
之所以要學習資料分析,是因為資料正變得越來越常見和廉價,分析可以為資料提供稀缺且附帶額外價值的服務。
2.資料分析師職業前景
資料分析師需要解決的問題:
預估需求、分配產能 在大資料時代,更需要解讀資料的能力。Q:烤箱的產能有限,該選擇生產哪些種類的麵包? A:列出最受歡迎的幾種麵包,優先生產明星商品。關鍵是找出明星商品,這需要統計出麵包的總營業額,再算出每種麵包佔總營業額的相對比例,優先生產能囊括七成營業額的產品組合。這會用到統計的次數分配表和直方圖,此種分析法也稱為ABC分析法,如下:
評估行銷方案成效 統計並不是分析資料就好了,從分析的結果推測該如何影響顧客的行為,並且將之擬定為具體的商業計劃,並據此行動才是關鍵。Q:想在網上銷售麵包,哪一種廣告比較有效? A:寫出兩種文案,分別廣告一段時間看看成效如何。要比較廣告成效,最好的方法是用統計的隨機對照實驗,讓兩種廣告隨機出現,一段時間後,觀察哪種廣告的效果比較好,再大範圍運用效果比較好的廣告。
產品品管 發現結果以及形成結果的原因之間的關係非常重要。Q:怎麼從麵包判斷,麵包師傅有沒有偷工減料? A:抽查幾個麵包,秤秤看重量差距有沒有過大。你需要先知道麵包的平均重量,再對面包進行抽樣,看看麵包的重量是否呈現常態分佈的鐘形曲線?若是偏離曲線,就可能暗示麵包品管有問題。如下:
一名好的資料分析師是一個好的產品規劃者和行業的領跑者;在IT企業,優秀的資料分析師很有希望成為公司的高層。
資料分析師的工作流程如下:
資料分析師的三大任務:
分析歷史
預測未來
優化選擇
資料分析師要求的8項技能:
統計學
統計檢驗、P值、分佈、估計
基本工具
Python
SQL
多變數微積分和線性代數
資料整理
資料視覺化
軟體工程
機器學習
資料科學家的思維
資料驅動
問題解決
資料分析師要求的三大能力:
統計學基礎和分析工具應用
計算機編碼能力
特定應用領域或行業的知識
典型的資料分析師的成長曆程:
3.成為資料分析師之路
成為資料分析師的自我修養:
敏感
探究
細緻
務實
資料分析師需要具備的技能如下:
熟悉Excel資料處理
資料敏感度較強
熟悉公司業務和行業知識
掌握資料分析方法
相關分析法
迴歸分析法
聚類分析法
判別分析法
主成分分析法
因子分析法
對應分析法
時間序列
對比分析法
分組分析法
交叉分析法
結構分析法
漏斗圖分析法
綜合評價分析法
因素分析法
矩陣關聯分析
基本分析方法
高階分析方法
在不同行業資料分析從業人員的工作內容和職責:
從事資料分析的工作
學做日報
日銷、庫存類的表
產品銷售預測
庫存計算和預警
流量分析相關表
覆盤
資料分析挖掘工作人員
給產品優化提供資料支援
驗證產品改進效果
為高層提供郵件和報表
網際網路+分析
KPI指標監控
各種週期性報表
針對某一業務問題做分析報告
針對業務進行線下建模和分析
資料分析很重要的學科基礎是數學,但是數學不好也沒有關係,可以用Python來幫助學習:Python不僅是一門程式語言,而且是資料探勘機器學習等技術的基礎,方便建立自動化的工作流;Python入門不難,它對數學要求並不是太高,重要的是需要知道如何用語言表達一個演算法邏輯;Python有很多封裝好的工具庫和命令,我要做的是用哪些數學方法解決一個問題,並構建出來。
要想快速入門Python資料分析,就要使用好Python相關的工具包:(1)Python最大的特點是擁有一個巨大而活躍的科學計算社群,採用python進行科學計算的趨勢也越來越明顯。(2)由於Python有不斷改良的庫,使其成為資料處理任務的一大代替方案,結合其在通用程式設計方面的強大實力,完全可以只是用Python這一種語言去構建以資料為中心的應用程式,其中:
常用資料分析庫
Numpy
Scipy
Pandas
matplotlib
常用高階資料分析庫
nltk
igraph
scikit-learn
(3)作為一個科學計算平臺,Python的能夠輕鬆整合C、C++以及Fortran程式碼。
資料分析的準備工作:
瞭解資料
資料清洗與初步分析
繪圖與視覺化
資料聚合與分組處理
資料探勘
資料分析與資料探勘的常用演算法:
線性迴歸
時間序列分析
分類演算法
聚類演算法
降維演算法
學習和從事資料分析工作的方法為:
勤思考
多動手
多總結
結語
以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,謝謝大家對小編的支援。