淺析TypeScript中const和readonly的區別、列舉和常量列舉的區別以及關於typescript中列舉的相關知識
阿新 • • 發佈:2021-10-15
資料清洗
資料清洗概念:
資料分析過程:
明確需求>>>收集採集>>>資料清洗>>>資料分析>>>資料報告(資料視覺化)
資料清洗專業定義:
資料清洗是從記錄表,表格,資料庫中檢測,糾正或刪除損壞或者不正確的記錄的過程
專業名詞解釋:
髒資料:沒有經過處理自身含有一定問題的資料(缺失,異常,重複)
乾淨的資料:可以直接帶人模型的資料(或者是已經處理過的資料)
處理資料的常見方式:
1.讀取外部資料:
read_csv();read_excel();read_html();read_sql()
2.資料概覽:
data.index 概覽行索引
data.columns 檢視有哪些列欄位
data.head() 檢視前五條資料
data.tail() 檢視後五條資料
data.shape() 檢視有幾行幾列
data.describe() 概覽資料
data.info() 查看錶格資料
data.dtypes() 檢視各個列欄位的資料型別
3.簡單處理 (移除收尾空格,大小寫轉換)
4.重複值處理
duplicated()檢視是否含有重複資料
當中的省略部分可以通過.sum()求和檢視是否有重複值
通過drop_duplicates()刪除重複資料
5.缺失值的處理
fillna() 填充缺失值
dropna()刪除缺失值
isnull()/notnull() 檢視是否有缺失值
6.異常值的處理
刪除異常值,修正異常值
7.字串處理
切割,填充,篩選
8.時間格式處理
Y (year 年) m(month 月) d(day 日) H(hour 小時)M(minute 分)S(second 秒)
# 步驟三到步驟八沒有固定順序
實戰練習:
現有檔案:
進行資料概覽
處理表格資料:
①刪除列欄位:無用欄位
data.drop(columns='Unnamed:0')
直接有結果顯示 需要加上引數 inplace=True 提交修改
②:去除列欄位收尾的空格