1. 程式人生 > >資料科學的七個工作流程

資料科學的七個工作流程

工作流程(workflow stages)
  1. 問題的定義
  2. 獲取訓練和測試資料
  3. 資料準備、清洗
  4. 分析,識別模式和探索資料
  5. 模型,預測和解決問題
  6. 視覺化,報告,和呈現問題解決步驟和找到解決方案
  7. 提供或提交結果
這個工作流程提供了每個階段的下一個步驟。但是沒什麼東西是絕對的。
  • 我們可以結合各個工作流程步驟,我們可以通過視覺化分析資料。
  • 把有些步驟先執行,我們可以先分析資料然後再進行資料清洗。
  • 執行某個步驟多次,要很多的視覺化。
  • 放棄這些流程的定式。
工作流目標(workflow goals) 資料科學工作流主要解決七個主要問題。
  • 分類(classifying)。這裡的分類不是分類問題,是對我們的樣本進行分類,我們希望理解不同的分類對解決我們問題的影響和相關性。
  • 關聯(correlating)。我們可以根據訓練資料集中的可用特徵來解決問題。統計學上,特徵和目標是否有相關性,隨著特徵值變化,目標的狀態也會變化。
  • 轉換(converting)。在建模階段,需要準備資料。根據模型演算法的選擇,可能需要將所有的元素進行轉換為數值等有效值,例如將文字分類值轉換為數值
  • 完整(completing)。資料預處理可能需要去估計所有特徵的缺失值。模型在沒有缺失值的資料上會表現的更好。
  • 修正(correcting)。我們也需要分析給定的訓練資料中錯誤的樣本,並修改這些資料或者是排除錯誤樣本。
  • 建立(creating)。我們可以基於給定的原始特徵,構造新的特徵,使新特徵遵循正確,相關性,完整性等目標。
  • 視覺化(charting)。根據資料的性質和解決的目標選擇正確的視覺化。