資料科學的七個工作流程
阿新 • • 發佈:2019-01-04
工作流程(workflow stages)
- 問題的定義
- 獲取訓練和測試資料
- 資料準備、清洗
- 分析,識別模式和探索資料
- 模型,預測和解決問題
- 視覺化,報告,和呈現問題解決步驟和找到解決方案
- 提供或提交結果
- 我們可以結合各個工作流程步驟,我們可以通過視覺化分析資料。
- 把有些步驟先執行,我們可以先分析資料然後再進行資料清洗。
- 執行某個步驟多次,要很多的視覺化。
- 放棄這些流程的定式。
- 分類(classifying)。這裡的分類不是分類問題,是對我們的樣本進行分類,我們希望理解不同的分類對解決我們問題的影響和相關性。
- 關聯(correlating)。我們可以根據訓練資料集中的可用特徵來解決問題。統計學上,特徵和目標是否有相關性,隨著特徵值變化,目標的狀態也會變化。
- 轉換(converting)。在建模階段,需要準備資料。根據模型演算法的選擇,可能需要將所有的元素進行轉換為數值等有效值,例如將文字分類值轉換為數值
- 完整(completing)。資料預處理可能需要去估計所有特徵的缺失值。模型在沒有缺失值的資料上會表現的更好。
- 修正(correcting)。我們也需要分析給定的訓練資料中錯誤的樣本,並修改這些資料或者是排除錯誤樣本。
- 建立(creating)。我們可以基於給定的原始特徵,構造新的特徵,使新特徵遵循正確,相關性,完整性等目標。
- 視覺化(charting)。根據資料的性質和解決的目標選擇正確的視覺化。