資料整理總結
阿新 • • 發佈:2018-11-23
收集
- 根據資料來源及其格式,收集資料的步驟各不相同。
- 高階收集過程:獲取資料(從網際網路下載檔案、抓取網頁、查詢 API 等),然後將該資料匯入程式設計環境(例如 Jupyter Notebook)。
評估
-
評估資料的目的包括:
- 質量:內容問題。低質量資料也稱為髒資料。
- 整潔度:使分析難易進行的問題。不整潔資料也稱為雜亂資料。條理資料的要求包括:
- 每個變數成一列。
- 每個觀察結果成一行。
- 每種觀察單位構成一個表格。
-
評估型別:
- 目測評估:使用你喜歡的軟體應用程式(Google 表格、Excel、文字編輯器等)觀察資料。
- 程式設計評估:使用程式碼來檢視資料的特定部分和摘要(例如 pandas 的
head
、tail
和info
方法)。
清洗
- 清洗型別:
- 手動(不推薦,除非問題是一次性出現)
- 程式設計
- 程式設計資料清洗過程:
- 定義:將評估轉換為定義的清洗任務。這些定義也可以作為指令列表,以便其他人(或你自己將來)可以回顧和重現自己的工作。
- 程式碼:將這些定義轉換為程式碼並執行。
- 測試:可視上或使用程式碼練習資料集,確保清洗操作可順序進行。
- 清洗之前,請務必備份原始資料!
重新評估與迭代
- 清洗後,如有必要,請重新評估和迭代任何資料整理步驟。
儲存(可選)
- 例如,如果將來使用,可將資料儲存到檔案或資料庫中。