資料分析需要知道的一些概念
目錄
- 一、什麼是商業智慧
- 二、什麼是資料倉庫
- 三、什麼是資料探勘
- 四、資料探勘的數學基礎
- 五、資料探勘的十大演算法
- 六、什麼是資料視覺化
- 七、什麼是使用者畫像
- 八、什麼是埋點
- 九、資料採集都有哪些方式
- 十、什麼是資料清洗
- 十一、什麼是資料整合
- 十二、什麼是資料變換
- 十三、什麼是方差、標準差
一、什麼是商業智慧
BI:Business Intelegence,商業智慧,基於資料倉庫,經過資料探勘後,得到了商業價值的過程。例如利用資料預測使用者購物行為屬性商業智慧
二、什麼是資料倉庫
DW:Data Warehouse,資料倉庫,資料庫的升級概念,一般量更龐大,將多個數據來源的資料進行彙總、整理而來
三、什麼是資料探勘
DM:Data Mining,資料探勘
資料探勘流程:Knowledge Discovery in Database,也叫資料庫中的知識發現,簡稱KDD
KDD流程:輸入資料->資料預處理->資料探勘->後處理->資訊
- 資料清洗
去除重複資料、干擾資料及填充缺失值 - 資料整合
將多個數據源中的資料存放在一個統一的資料儲存中 - 資料變換
將資料轉換成適合資料探勘的形式,比如將數值東籬一個特定的0~1的區間
資料探勘的核心
- 分類
通過訓練集得到一個分類模型,然後用這個模型可以對其他資料進行分類
分類是已知了類別,然後看樣本屬於哪個分類 - 聚類
將資料自動聚類成幾個類別,
聚類是不知道有哪些類別,按照 樣本的屬性來進行聚類 - 預測
通過當前和歷史資料預測未來趨勢,可以更好地幫助我們識別機遇和風險 - 關聯分析
發現數據中的關聯規則,被廣泛應用於購物、事務資料分析中
資料探勘的基本流程
- 商業理解。從商業的角度理解專案需求
- 資料理解 。嘗試收集部分資料,對資料進行探索
- 資料準備。開始收集資料,並進行清洗、整合等操作
- 模型建立。選擇和應用資料探勘模型,並進行優化,以便得到更好的分類結果
- 模型評估。對模型進行評價,確認模型是否實現了預定的商業目標
- 上線釋出。把挖掘的知識轉換成使用者的使用形式
四、資料探勘的數學基礎
- 概率論與資料統計
- 線性代數
- 圖論
- 最優化方法
五、資料探勘的十大演算法
- 分類
- C4.5。十大演算法之首,決策樹演算法,特點包括:1.構造過程中剪枝 2.處理連續屬性;3.處理不完整的資料
- 樸素貝葉斯。基於概率論原理,計算未知物體出現的條件下,各個類別出現的概率,取概率最大的分類
- SVM。 超平面的分類模型
- KNN。每個樣本的分類都可以用其最接近的K個鄰居的分類代表
- Adaboost。構建分類器的提升演算法,可以讓多個弱的分類器組成一個強的分類器
- CART。決策樹演算法,分類樹 + 迴歸樹
- 聚類
- K-Means。將物體分成K類,計算新點跟K箇中心點的距離,哪個距離近,則新點歸為哪一類
- EM。最大期望演算法,求引數的最大似然估計的一種方法
- 關聯分析
- Apriori。挖掘關聯規則的演算法,通過挖掘頻繁項集揭示物品之間的關聯關係
- 連線分析
- PageRank。起源於論文影響力的計算方式,如果一篇文論被引入的次數越多,就代表這篇論文的影響力越強,Google將其用於計算網頁權重
六、什麼是資料視覺化
資料視覺化主要是藉助於圖形化手段,清晰有效地傳達與溝通訊息,讓我們直觀瞭解資料分析的結果
資料視覺化工具:
- python庫
- Matplotlib
- Seaborn
- Bokeh、Plotly、Pyecharts、Mapbox 和 Geoplotlib等
- 商業智慧軟體
- Tableau
- PowerBI
- 視覺化大屏
大屏作為一種視覺效果強、科技感強的技術,被企業老闆所青睞,可以很好地展示公司的資料化能力- DataV(阿里)
- FineReport
- 前端視覺化元件
視覺化元件都是基於 Web 渲染的技術的,Web 渲染技術:Canvas(點陣圖)、SVG (失量圖)和 WebGL(3D繪圖)- Echarts
- D3
- Three.js
- AntV
七、什麼是使用者畫像
簡單的說,使用者畫像就是標籤的彙總
使用者畫像是現實世界中的使用者的數學建模,將海量資料進行標籤化,來複以更精準的使用者畫像
使用者標籤能產生的業務價值
- 在獲客上,找到優勢的宣傳渠道,通過個性化的宣傳手段吸引有潛在需求的使用者
- 在粘客上,提升使用者的單價和消費頻次
- 在留客上,降低流失率,顧客流失率降低 5%,公司利潤提升 25% ~ 85%
使用者標籤4個緯度
- 基礎資訊
性別、年齡、地域、收入、學歷、職業等 - 消費資訊
消費習慣、購買意向、是否對促銷敏感 - 行為分析
時間段、頻次、時長、訪問路徑 - 內容分析
瀏覽的內容、停留時長、瀏覽次數,內容型別,如金融、娛樂、教育、體育、時尚、科技等
資料處理的3個階段
- 業務層
獲客預測、個性化推薦、使用者流失率、GMV趨勢預測 - 演算法層
使用者興趣、使用者活躍度、產品購買偏好、使用者關聯關係、使用者滿意度、渠道使用偏好、支付使用偏好、優惠券偏好 - 資料層
使用者屬性、投訴次數、產品購買次數、渠道使用頻率、優惠券使用、訪問時長、支付渠道使用、瀏覽內容頻次
八、什麼是埋點
在需要的位置採集相應的資訊,進行上報。比如使用者資訊、裝置資訊、操作行為資料
埋點一般是在需要統計資料的地方植入統計程式碼。
第三方工具有:友盟、Google Analysis、Talkingdata等,一般是前端埋點的方式
九、資料採集都有哪些方式
- 開源資料來源
- 爬蟲抓取
- 日誌採集
- 感測器
十、什麼是資料清洗
資料清洗是去除重複資料、干擾資料及填充缺失值
資料清洗的4個關鍵點(完全合一)
- 完整性:單條資料是否存在空值,統計的欄位是否完善
- 全面性:觀察某一列的全部數值,判斷列是否有問題,比如:資料定義、單位標識、數值本身。例如有的單位是克,有的是千克或磅
- 合法性:資料的型別、內容、大小的合法性。例如存在非ASCII字元,性別未知,年齡超過150歲等。
- 唯一性:資料是否存在重複記錄。因為資料通常來自不同渠道的彙總,重複的情況是常見的,行和列資料都需要是唯一的
十一、什麼是資料整合
資料整合是將多個數據源合併存放在一個數據儲存中(如資料倉庫)
大資料專案中80%的工作都和資料整合有關。
Extract / 提取 :從datasource/txt/csv/Excel/等原始資料來源中 Extract資料。
Transform / 轉換 :將資料預處理,欄位補全、型別檢查、去除重複資料等,根據預定的條件將資料統一起來。
Load / 裝載 :將轉換完的資料存到資料倉庫中。
資料整合的兩種架構
ELT
過程為資料提取(Extract)——轉換(Transform)——載入(Load),在資料來源抽取後首先進行轉換,然後將轉換的結果寫入目的地。ETL
過程為資料提取(Extract)——載入(Load)——轉換(Transform),在資料抽取後將結果先寫入目的地,然後利用資料庫的聚合分析能力或者外部框架,如Spark來完成轉換的步驟。
商業軟體:
- Informatica PowerCenter
- IBM InfoSphere DataStage
- Oracle Data Integrator
- Microsoft SQL Server Integration Services
開源軟體:
- Kettle
- Talend
- Apatar
- Scriptella
- DataX
- Sqoop
ETL和ELT的區別:
ETL和ELT主要是先清洗資料還是先入庫的區別。
ETL一般使用主流框架用程式在提取的時候就將資料進行清洗,ELT則是將資料存到資料倉庫,再用sql進行資料清洗。
未來使用ELT作為資料整合架構的會越來越多,有以下好處:
- 使用 ELT 方法,在提取完成之後,資料載入會立即開始。一方面更省時,另一方面 ELT 允許 BI 分析人員無限制地訪問整個原始資料,為分析師提供了更大的靈活性,使之能更好地支援業務。
- 在 ELT 架構中,資料變換這個過程根據後續使用的情況,需要在 SQL 中進行,而不是在載入階段進行。這樣做的好處是你可以從資料來源中提取資料,經過少量預處理後進行載入。這樣的架構更簡單,使分析人員更好地瞭解原始資料的變換過程。
十二、什麼是資料變換
資料變換是資料準備的重要環節,通過資料平滑、資料聚集、資料概化和規範化等方式將資料轉換成適用於資料探勘的形式
- 資料平滑。去除資料中的噪聲,將連續資料離散化
- 資料聚集。對資料進行彙總,例如Sum、Max、Mean等
- 資料概化。將資料由較低的概念抽象成較高的概念,如北上廣深圳概化為中國。
- 資料規範化。合屬性資料按比例縮放,將原來的數值對映到新的特定區域中。
- min-max規範化。
將原始資料變化到[0, 1]的空間中,公式為:新數值=(原數值-極小值) / (極大值-極小值),對應的有SciKit-Learn的preprocessing.MinMaxScaler函式 - z-score規範化。
可以用相同的標準比較不同規格的成績。公式為:新數值=(原數值-均值) / 標準差。對應的有SciKit-Learn的preprocessing.scale函式,求出每行每列的值減去了平均值,再除以方差的結果,使得數值都符合均值為0,方差為1的正態分佈 - 小數定標規範化。
通過移動小數點的位置來進行規範化
- min-max規範化。
- 屬性構造。構造出新的屬性並新增到屬性集中。
十三、什麼是方差、標準差
- 方差和標準差是測算離散趨勢最重要、最常用的指標
- 標準差是方差的平方根
- 一個較大的標準差,代表大部分數值和其平均值之間差異較大;一個較小的標準差,代表這些數值較接近平均值。
- 由於方差是資料的平方,與檢測值本身相差太大,人們難以直觀的衡量,所以常用方差開根號換算回來這就是我們要說的標準差。