1. 程式人生 > >資料分析需要知道的一些概念

資料分析需要知道的一些概念

目錄

  • 一、什麼是商業智慧
  • 二、什麼是資料倉庫
  • 三、什麼是資料探勘
  • 四、資料探勘的數學基礎
  • 五、資料探勘的十大演算法
  • 六、什麼是資料視覺化
  • 七、什麼是使用者畫像
  • 八、什麼是埋點
  • 九、資料採集都有哪些方式
  • 十、什麼是資料清洗
  • 十一、什麼是資料整合
  • 十二、什麼是資料變換
  • 十三、什麼是方差、標準差

一、什麼是商業智慧

BI:Business Intelegence,商業智慧,基於資料倉庫,經過資料探勘後,得到了商業價值的過程。例如利用資料預測使用者購物行為屬性商業智慧

二、什麼是資料倉庫

DW:Data Warehouse,資料倉庫,資料庫的升級概念,一般量更龐大,將多個數據來源的資料進行彙總、整理而來

三、什麼是資料探勘

DM:Data Mining,資料探勘
資料探勘流程:Knowledge Discovery in Database,也叫資料庫中的知識發現,簡稱KDD
KDD流程:輸入資料->資料預處理->資料探勘->後處理->資訊

  1. 資料清洗
    去除重複資料、干擾資料及填充缺失值
  2. 資料整合
    將多個數據源中的資料存放在一個統一的資料儲存中
  3. 資料變換
    將資料轉換成適合資料探勘的形式,比如將數值東籬一個特定的0~1的區間

資料探勘的核心

  1. 分類
    通過訓練集得到一個分類模型,然後用這個模型可以對其他資料進行分類
    分類是已知了類別,然後看樣本屬於哪個分類
  2. 聚類
    將資料自動聚類成幾個類別,
    聚類是不知道有哪些類別,按照 樣本的屬性來進行聚類
  3. 預測
    通過當前和歷史資料預測未來趨勢,可以更好地幫助我們識別機遇和風險
  4. 關聯分析
    發現數據中的關聯規則,被廣泛應用於購物、事務資料分析中

資料探勘的基本流程

  1. 商業理解。從商業的角度理解專案需求
  2. 資料理解 。嘗試收集部分資料,對資料進行探索
  3. 資料準備。開始收集資料,並進行清洗、整合等操作
  4. 模型建立。選擇和應用資料探勘模型,並進行優化,以便得到更好的分類結果
  5. 模型評估。對模型進行評價,確認模型是否實現了預定的商業目標
  6. 上線釋出。把挖掘的知識轉換成使用者的使用形式

四、資料探勘的數學基礎

  • 概率論與資料統計
  • 線性代數
  • 圖論
  • 最優化方法

五、資料探勘的十大演算法

  • 分類
    • C4.5。十大演算法之首,決策樹演算法,特點包括:1.構造過程中剪枝 2.處理連續屬性;3.處理不完整的資料
    • 樸素貝葉斯。基於概率論原理,計算未知物體出現的條件下,各個類別出現的概率,取概率最大的分類
    • SVM。 超平面的分類模型
    • KNN。每個樣本的分類都可以用其最接近的K個鄰居的分類代表
    • Adaboost。構建分類器的提升演算法,可以讓多個弱的分類器組成一個強的分類器
    • CART。決策樹演算法,分類樹 + 迴歸樹
  • 聚類
    • K-Means。將物體分成K類,計算新點跟K箇中心點的距離,哪個距離近,則新點歸為哪一類
    • EM。最大期望演算法,求引數的最大似然估計的一種方法
  • 關聯分析
    • Apriori。挖掘關聯規則的演算法,通過挖掘頻繁項集揭示物品之間的關聯關係
  • 連線分析
    • PageRank。起源於論文影響力的計算方式,如果一篇文論被引入的次數越多,就代表這篇論文的影響力越強,Google將其用於計算網頁權重

六、什麼是資料視覺化

資料視覺化主要是藉助於圖形化手段,清晰有效地傳達與溝通訊息,讓我們直觀瞭解資料分析的結果

資料視覺化工具:

  • python庫
    • Matplotlib
    • Seaborn
    • Bokeh、Plotly、Pyecharts、Mapbox 和 Geoplotlib等
  • 商業智慧軟體
    • Tableau
    • PowerBI
  • 視覺化大屏
    大屏作為一種視覺效果強、科技感強的技術,被企業老闆所青睞,可以很好地展示公司的資料化能力
    • DataV(阿里)
    • FineReport
  • 前端視覺化元件
    視覺化元件都是基於 Web 渲染的技術的,Web 渲染技術:Canvas(點陣圖)、SVG (失量圖)和 WebGL(3D繪圖)
    • Echarts
    • D3
    • Three.js
    • AntV

七、什麼是使用者畫像

簡單的說,使用者畫像就是標籤的彙總
使用者畫像是現實世界中的使用者的數學建模,將海量資料進行標籤化,來複以更精準的使用者畫像
使用者標籤能產生的業務價值

  1. 在獲客上,找到優勢的宣傳渠道,通過個性化的宣傳手段吸引有潛在需求的使用者
  2. 在粘客上,提升使用者的單價和消費頻次
  3. 在留客上,降低流失率,顧客流失率降低 5%,公司利潤提升 25% ~ 85%

使用者標籤4個緯度

  1. 基礎資訊
    性別、年齡、地域、收入、學歷、職業等
  2. 消費資訊
    消費習慣、購買意向、是否對促銷敏感
  3. 行為分析
    時間段、頻次、時長、訪問路徑
  4. 內容分析
    瀏覽的內容、停留時長、瀏覽次數,內容型別,如金融、娛樂、教育、體育、時尚、科技等

資料處理的3個階段

  1. 業務層
    獲客預測、個性化推薦、使用者流失率、GMV趨勢預測
  2. 演算法層
    使用者興趣、使用者活躍度、產品購買偏好、使用者關聯關係、使用者滿意度、渠道使用偏好、支付使用偏好、優惠券偏好
  3. 資料層
    使用者屬性、投訴次數、產品購買次數、渠道使用頻率、優惠券使用、訪問時長、支付渠道使用、瀏覽內容頻次

八、什麼是埋點

在需要的位置採集相應的資訊,進行上報。比如使用者資訊、裝置資訊、操作行為資料
埋點一般是在需要統計資料的地方植入統計程式碼。
第三方工具有:友盟、Google Analysis、Talkingdata等,一般是前端埋點的方式

九、資料採集都有哪些方式

  • 開源資料來源
  • 爬蟲抓取
  • 日誌採集
  • 感測器

十、什麼是資料清洗

資料清洗是去除重複資料、干擾資料及填充缺失值
資料清洗的4個關鍵點(完全合一)

  1. 完整性:單條資料是否存在空值,統計的欄位是否完善
  2. 全面性:觀察某一列的全部數值,判斷列是否有問題,比如:資料定義、單位標識、數值本身。例如有的單位是克,有的是千克或磅
  3. 合法性:資料的型別、內容、大小的合法性。例如存在非ASCII字元,性別未知,年齡超過150歲等。
  4. 唯一性:資料是否存在重複記錄。因為資料通常來自不同渠道的彙總,重複的情況是常見的,行和列資料都需要是唯一的

十一、什麼是資料整合

資料整合是將多個數據源合併存放在一個數據儲存中(如資料倉庫)
大資料專案中80%的工作都和資料整合有關。

Extract / 提取 :從datasource/txt/csv/Excel/等原始資料來源中 Extract資料。
Transform / 轉換 :將資料預處理,欄位補全、型別檢查、去除重複資料等,根據預定的條件將資料統一起來。
Load / 裝載 :將轉換完的資料存到資料倉庫中。

資料整合的兩種架構

  1. ELT
    過程為資料提取(Extract)——轉換(Transform)——載入(Load),在資料來源抽取後首先進行轉換,然後將轉換的結果寫入目的地。

  2. ETL
    過程為資料提取(Extract)——載入(Load)——轉換(Transform),在資料抽取後將結果先寫入目的地,然後利用資料庫的聚合分析能力或者外部框架,如Spark來完成轉換的步驟。

商業軟體:

  • Informatica PowerCenter
  • IBM InfoSphere DataStage
  • Oracle Data Integrator
  • Microsoft SQL Server Integration Services

開源軟體:

  • Kettle
  • Talend
  • Apatar
  • Scriptella
  • DataX
  • Sqoop

ETL和ELT的區別:
ETL和ELT主要是先清洗資料還是先入庫的區別。
ETL一般使用主流框架用程式在提取的時候就將資料進行清洗,ELT則是將資料存到資料倉庫,再用sql進行資料清洗。

未來使用ELT作為資料整合架構的會越來越多,有以下好處:

  1. 使用 ELT 方法,在提取完成之後,資料載入會立即開始。一方面更省時,另一方面 ELT 允許 BI 分析人員無限制地訪問整個原始資料,為分析師提供了更大的靈活性,使之能更好地支援業務。
  2. 在 ELT 架構中,資料變換這個過程根據後續使用的情況,需要在 SQL 中進行,而不是在載入階段進行。這樣做的好處是你可以從資料來源中提取資料,經過少量預處理後進行載入。這樣的架構更簡單,使分析人員更好地瞭解原始資料的變換過程。

十二、什麼是資料變換

資料變換是資料準備的重要環節,通過資料平滑、資料聚集、資料概化和規範化等方式將資料轉換成適用於資料探勘的形式

  1. 資料平滑。去除資料中的噪聲,將連續資料離散化
  2. 資料聚集。對資料進行彙總,例如Sum、Max、Mean等
  3. 資料概化。將資料由較低的概念抽象成較高的概念,如北上廣深圳概化為中國。
  4. 資料規範化。合屬性資料按比例縮放,將原來的數值對映到新的特定區域中。
    • min-max規範化。
      將原始資料變化到[0, 1]的空間中,公式為:新數值=(原數值-極小值) / (極大值-極小值),對應的有SciKit-Learn的preprocessing.MinMaxScaler函式
    • z-score規範化。
      可以用相同的標準比較不同規格的成績。公式為:新數值=(原數值-均值) / 標準差。對應的有SciKit-Learn的preprocessing.scale函式,求出每行每列的值減去了平均值,再除以方差的結果,使得數值都符合均值為0,方差為1的正態分佈
    • 小數定標規範化。
      通過移動小數點的位置來進行規範化
  5. 屬性構造。構造出新的屬性並新增到屬性集中。

十三、什麼是方差、標準差

  • 方差和標準差是測算離散趨勢最重要、最常用的指標
  • 標準差是方差的平方根
  • 一個較大的標準差,代表大部分數值和其平均值之間差異較大;一個較小的標準差,代表這些數值較接近平均值。
  • 由於方差是資料的平方,與檢測值本身相差太大,人們難以直觀的衡量,所以常用方差開根號換算回來這就是我們要說的標準差。