1. 程式人生 > >資料整理總結

資料整理總結

收集

  • 根據資料來源及其格式,收集資料的步驟各不相同。
  • 高階收集過程:獲取資料(從網際網路下載檔案、抓取網頁、查詢 API 等),然後將該資料匯入程式設計環境(例如 Jupyter Notebook)。

評估

  • 評估資料的目的包括:

    • 質量:內容問題。低質量資料也稱為髒資料。
    • 整潔度:使分析難易進行的問題。不整潔資料也稱為雜亂資料。條理資料的要求包括:
      1. 每個變數成一列。
      2. 每個觀察結果成一行。
      3. 每種觀察單位構成一個表格。
  • 評估型別:

    • 目測評估:使用你喜歡的軟體應用程式(Google 表格、Excel、文字編輯器等)觀察資料。
    • 程式設計評估:使用程式碼來檢視資料的特定部分和摘要(例如 pandas 的 headtail 和 info方法)。

清洗

  • 清洗型別:
    • 手動(不推薦,除非問題是一次性出現)
    • 程式設計
  • 程式設計資料清洗過程:
    1. 定義:將評估轉換為定義的清洗任務。這些定義也可以作為指令列表,以便其他人(或你自己將來)可以回顧和重現自己的工作。
    2. 程式碼:將這些定義轉換為程式碼並執行。
    3. 測試:可視上或使用程式碼練習資料集,確保清洗操作可順序進行。
  • 清洗之前,請務必備份原始資料!

重新評估與迭代

  • 清洗後,如有必要,請重新評估和迭代任何資料整理步驟。

儲存(可選)

  • 例如,如果將來使用,可將資料儲存到檔案或資料庫中。