1. 程式人生 > >資料分析與資料探勘 - 01入門介紹

資料分析與資料探勘 - 01入門介紹

### 一 資料分析的定義 資料分析就是用合適的方法來發揮出資料的最大價值,這是一門結合了統計學,高等數學,工程學,商業決策等知識的技能,其中高等數學,工程學和統計學這些都是硬技能,而商業決策是屬於軟技能,資料分析師就是具備這些技能的崗位。資料分析師也有所側重點,有的人是商業出身,偏向於商業領域,有的人是統計學出身,偏向於統計領域,有的人是工程學出身,更偏向於it領域。企業在進行招聘的時候,他們會根據自己的需求選擇合適的資料分析師。
> 顯然,我是工程領域出身,我們的課程是偏向於it領域的,適合往it領域發展的程式設計師入門學習,或者商業領域,統計學領域的資料分析師補充自己。 ### 二 資料分析的產生 在如今的網際網路企業的發展中,流量的增長是一個永恆不變的話題。我們知道拉一個新使用者的成本要遠高於維護一個老客戶的成本。既然這樣,如果我們能夠讓老客戶產生價值,推出合適的營銷策略或者老帶新類似這樣的方案,就能夠用更少的成本產生更大的價值,這也就是資料分析師存在的理由。
### 三 資料分析的發展 早期的資料分析是使用excel,即使現在也有很多商業領域的資料分析人員依舊在使用。除此之外,還有一些資料分析商用的軟體,比如tableau,spss等等。所使用的方式是先從伺服器匯出資料到軟體當中去,然後通過一個功能函式進行資料的處理,比如excel中可以使用vlookup函式來進行縱向查詢,最後再進行視覺化的處理。顯然,早起的資料分析更側重於呈現結果,然後根據結果對企業的發展作出預測。

具體的過程如下所示: 1. 分析現狀-通過視覺化的現狀來直觀描述企業經營發展中的情況 1. 發現問題-從呈現結果中預測可能問題的原因 1. 收集加工-使用更多的資料來驗證問題的產生源頭 1. 分析策略-結合業務場景分析使用者或者商品的現狀 1. 提出方案-根據商業邏輯和分析結果提出有效解決方案
我們能夠預見的是,早期資料量比較少,一般都是以G為單位,類似於excel,tableau和spss這樣的軟體,所能夠處理的資料量是有限的,當資料量達到T,TB甚至更大的量級是,這是無法處理的。這就需要it領域的知識來處理這些海量的資料,比如使用MySQL,hlive,hbase等等。
### 四 資料分析VS資料探勘 除了資料分析之外,你一定還聽說過資料探勘,那麼他們之間有什麼異同呢?首先現在的大多數企業已經模糊了對資料分析與資料探勘的區別,但是他們還是有所差異,具體如下: 1. 資料分析更多采用統計學的知識,對源資料進行描述性和探索性分析,從結果中發現價值資訊來評估和修正現狀。資料探勘不僅僅用到統計學的知識,還要用到機器學習的知識,這裡會涉及到模型的概念。資料探勘具有更深的層次,來發現未知的規律和價值。 2. 從側重點上來說,相比較而言,資料分析更多依賴於業務知識,資料探勘更多側重於技術的實現,對於業務的要求稍微有所降低。 3. 從資料量上來說,資料探勘往往需要更大資料量,而資料量越大,對於技術的要求也就越高。 4. 從技術上來說,資料探勘對於技術的要求更高,需要比較強的程式設計能力,數學能力和機器學習的能力。 5. 從結果上來說,資料分析更多側重的是結果的呈現,需要結合業務知識來進行解讀。而資料探勘的結果是一個模型,通過這個模型來分析整個資料的規律,一次來實現對於未來的預測,比如判斷使用者的特點,使用者適合什麼樣的營銷活動。顯然,資料探勘比資料分析要更深一個層次。 ### 五 機器學習的流程 上文中我們提到了資料探勘需要用到機器學習的知識,其實資料探勘與機器學習的流程是一樣的,具體如下: 1. 資料來源-企業生產中所產生的資料 2. 預處理-處理髒資料,比如有缺失值,異常值等等,修改資料的格式 3. 特徵工程-把資料抽象成我們需要的指標或特徵 4. 資料建模-搭建機器學習的模型,用該模型來訓練資料 5. 資料驗證-使用測試資料來驗證我們的模型 ### 六 資料的產生 很多時候我們會發現在瀏覽網站或者app時總會給我們推薦一些與我們相關的資訊,這其實就是根據我們的網際網路行為來進行預測的,前端獲取到使用者的行為資料,傳輸到後端,然後儲存到伺服器上,具體行為如下: 1. 瀏覽網頁時或者app時,你的點選和停留行為都會被伺服器所記錄,最終儲存到資料庫上 2. 瀏覽購物app時,你的訂單,新增購物車,收藏,關注等行為 3. 瀏覽快手,抖音等洗腦app時,你的關注,停留,評論,點贊,轉發等行為都會被記錄在伺服器上 ### 七 資料預處理 預處理就是提前處理一下,當把資料從源中讀取出來之後,我們可能會發現有些資料不符合我們的要求,比如有缺失值或者異常值(年齡為0),我們的處理可能是刪除,也可能是填充,我們把這些髒資料整理成乾淨的資料。除此之外,我們可能還需要進行資料的變換,把原始資料轉化成符合模型要求的資料。
### 八 資料建模 資料清洗完了之後,進行視覺化展示,然後我們使用一條線去擬合這些點,這條線就是一個函式,有了這個函式我們就可以進行預測,這個函式就是一個模型,這就是資料建模的過程。
![image.png](https://cdn.nlark.com/yuque/0/2020/png/281865/1598815317047-93a276b7-016b-4e2a-ad92-173337bf1ef2.png#align=left&display=inline&height=878&margin=%5Bobject%20Object%5D&name=image.png&originHeight=878&originWidth=1484&size=160667&status=done&style=none&width=1484)