1. 程式人生 > 實用技巧 >Python資料分析實戰(1)資料分析概述

Python資料分析實戰(1)資料分析概述

作者:Corley

源自:快學python

一、入門資料分析

1.大資料時代的基本面

大資料產業發展現狀:現在資料已經呈現出了爆炸式的增長,每一分鐘可能就會有:

  • 13000+個iPhone應用下載

  • Twitter上釋出98000+新微博

  • 發出1.68億+條Email

  • 淘寶雙十一10680+個新訂單

  • 12306出票1840+張

在大資料時代,出現了三大變革:

  • 從隨機樣本到全量資料

  • 從精確性到混雜性

  • 從因果關係到相關關係

舉一個典型的例子:男士到超市買尿布會順帶買一些啤酒,通過大資料分析出的結果促使超市在尿布的貨架附近放一些啤酒,從而增大銷量,買尿布與買啤酒之間沒有因果關係,但是存在著某種相關關係。

國內大資料應用狀況如下(來自CSDN):

可以看到,大資料的應用已經具有一定規模,但是還有很大的發展空間。

人才方面的需求主要包括:

  • 資料分析師

    • 統計分析

    • 預測分析

    • 流程優化

  • 大資料工程師

    • 平臺開發

    • 應用開發

    • 技術支撐

  • 資料架構師

    • 業務理解

    • 應用部署

    • 架構設計

之所以要學習資料分析,是因為資料正變得越來越常見和廉價,分析可以為資料提供稀缺且附帶額外價值的服務。

2.資料分析師職業前景

資料分析師需要解決的問題:

  • 預估需求、分配產能 在大資料時代,更需要解讀資料的能力。Q:烤箱的產能有限,該選擇生產哪些種類的麵包? A:列出最受歡迎的幾種麵包,優先生產明星商品。關鍵是找出明星商品,這需要統計出麵包的總營業額,再算出每種麵包佔總營業額的相對比例,優先生產能囊括七成營業額的產品組合。這會用到統計的次數分配表和直方圖,此種分析法也稱為ABC分析法,如下:

  • 評估行銷方案成效 統計並不是分析資料就好了,從分析的結果推測該如何影響顧客的行為,並且將之擬定為具體的商業計劃,並據此行動才是關鍵。Q:想在網上銷售麵包,哪一種廣告比較有效? A:寫出兩種文案,分別廣告一段時間看看成效如何。要比較廣告成效,最好的方法是用統計的隨機對照實驗,讓兩種廣告隨機出現,一段時間後,觀察哪種廣告的效果比較好,再大範圍運用效果比較好的廣告。

  • 產品品管 發現結果以及形成結果的原因之間的關係非常重要。Q:怎麼從麵包判斷,麵包師傅有沒有偷工減料? A:抽查幾個麵包,秤秤看重量差距有沒有過大。你需要先知道麵包的平均重量,再對面包進行抽樣,看看麵包的重量是否呈現常態分佈的鐘形曲線?若是偏離曲線,就可能暗示麵包品管有問題。如下:

一名好的資料分析師是一個好的產品規劃者和行業的領跑者;在IT企業,優秀的資料分析師很有希望成為公司的高層。

資料分析師的工作流程如下:

資料分析師的三大任務:

  • 分析歷史

  • 預測未來

  • 優化選擇

資料分析師要求的8項技能:

  • 統計學

    • 統計檢驗、P值、分佈、估計

  • 基本工具

    • Python

    • SQL

  • 多變數微積分和線性代數

  • 資料整理

  • 資料視覺化

  • 軟體工程

  • 機器學習

  • 資料科學家的思維

    • 資料驅動

    • 問題解決

資料分析師要求的三大能力:

  • 統計學基礎和分析工具應用

  • 計算機編碼能力

  • 特定應用領域或行業的知識

典型的資料分析師的成長曆程:

3.成為資料分析師之路

成為資料分析師的自我修養:

  • 敏感

  • 探究

  • 細緻

  • 務實

資料分析師需要具備的技能如下:

  • 熟悉Excel資料處理

  • 資料敏感度較強

  • 熟悉公司業務和行業知識

  • 掌握資料分析方法

    • 相關分析法

    • 迴歸分析法

    • 聚類分析法

    • 判別分析法

    • 主成分分析法

    • 因子分析法

    • 對應分析法

    • 時間序列

    • 對比分析法

    • 分組分析法

    • 交叉分析法

    • 結構分析法

    • 漏斗圖分析法

    • 綜合評價分析法

    • 因素分析法

    • 矩陣關聯分析

    • 基本分析方法

    • 高階分析方法

在不同行業資料分析從業人員的工作內容和職責:

  • 從事資料分析的工作

    • 學做日報

    • 日銷、庫存類的表

    • 產品銷售預測

    • 庫存計算和預警

    • 流量分析相關表

    • 覆盤

  • 資料分析挖掘工作人員

    • 給產品優化提供資料支援

    • 驗證產品改進效果

    • 為高層提供郵件和報表

  • 網際網路+分析

    • KPI指標監控

    • 各種週期性報表

    • 針對某一業務問題做分析報告

    • 針對業務進行線下建模和分析

資料分析很重要的學科基礎是數學,但是數學不好也沒有關係,可以用Python來幫助學習:Python不僅是一門程式語言,而且是資料探勘機器學習等技術的基礎,方便建立自動化的工作流;Python入門不難,它對數學要求並不是太高,重要的是需要知道如何用語言表達一個演算法邏輯;Python有很多封裝好的工具庫和命令,我要做的是用哪些數學方法解決一個問題,並構建出來。

要想快速入門Python資料分析,就要使用好Python相關的工具包:(1)Python最大的特點是擁有一個巨大而活躍的科學計算社群,採用python進行科學計算的趨勢也越來越明顯。(2)由於Python有不斷改良的庫,使其成為資料處理任務的一大代替方案,結合其在通用程式設計方面的強大實力,完全可以只是用Python這一種語言去構建以資料為中心的應用程式,其中:

  • 常用資料分析庫

    • Numpy

    • Scipy

    • Pandas

    • matplotlib

  • 常用高階資料分析庫

    • nltk

    • igraph

    • scikit-learn

(3)作為一個科學計算平臺,Python的能夠輕鬆整合C、C++以及Fortran程式碼。

資料分析的準備工作:

  • 瞭解資料

  • 資料清洗與初步分析

  • 繪圖與視覺化

  • 資料聚合與分組處理

  • 資料探勘

資料分析與資料探勘的常用演算法:

  • 線性迴歸

  • 時間序列分析

  • 分類演算法

  • 聚類演算法

  • 降維演算法

學習和從事資料分析工作的方法為:

  • 勤思考

  • 多動手

  • 多總結

結語

以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,謝謝大家對小編的支援。