資料清洗之重複值與缺失值的處理

阿新 • • 發佈：2021-07-06

1.重複值的處理方法：所有欄位完全相同的重複值，一般直接刪除，即只保留一個。

2.缺失值的處理方法：
缺失值佔比很高，可以刪除（超過60%）
缺失值佔比不高：使用均值，中位數，眾數填充
缺失值佔比不高：用模型擬合填充

3.使用零售電商資料進行舉例：

程式碼：

import pandas as pd

# 各個欄位的含義
#
# InvoiceNo：發票編碼，一般為 6 位整數，C 開頭表示退貨訂單
# StockCode：產品程式碼，一般為 5 位整數
# Description：商品名稱
# Quantity：下單數量
# UnitPrice：每單位商品價格，以英鎊表示
# InvoiceDate：下單時間
# CustomerID：顧客ID，一般為 5 位整數
# Country：顧客所在國家或地區

# 這個csv檔案的編碼格式是ISO-8859-1
online_retail_pd = pd.read_csv(r'D:\pycharm_project\電商背後的資料密碼\第二章 資料分析\online_retail.csv', encoding='ISO-8859-1')
# print(online_retail_pd.info())
# print(online_retail_pd.head())

# 所有的欄位值都是一樣的話，那麼這類資料沒有參考意義
# 顯示出重複的值，keep=False保留所有的重複行
duplicated_data_index = online_retail_pd.duplicated(keep=False)
# 排序，排序的好處就是我能夠很清楚的瞭解到每一個重複的值
online_retail_pd[duplicated_data_index].sort_values(
    ['InvoiceNo', 'StockCode', 'Description', 'Quantity', 'InvoiceDate', 'UnitPrice', 'Country', 'CustomerID'])

print(len(online_retail_pd))
# inplace=True，刪除重複值，重複的值只保留一行  刪除前是541909行資料
online_retail_pd.drop_duplicates(inplace=True)
# 刪除後是536641行資料
print(len(online_retail_pd))

資料清洗之重複值與缺失值的處理

1.重複值的處理方法：所有欄位完全相同的重複值，一般直接刪除，即只保留一個。

3.5.3 資料排序；重複數值、缺失值處理

1.匯入三方庫 import numpy as npimport pandas as pd df = pd.read_csv(\'table.csv\',index_col=\'ID\') #用來指定表格的索引值df.head(2)

python實現資料清洗(缺失值與異常值處理)

1。將本地sql檔案寫入mysql資料庫本文寫入的是python資料庫的taob表 source [本地檔案]

函式下午茶(2):資料檢測與缺失值處理~

技術標籤：資料分析python資料分析pandas 資料檢測與缺失值處理~ 1.DataFrame.isnull()和notnull()函式

資料清洗之異常值處理

1.異常值的處理方法： 1）. 3δ原則：與平均值的偏差超過標準3個標準差 2）. 箱線圖法：異常值>上四分位數+1.5IQR 或異常值<下四分位數-1.5IQR， IQR=上四分位數-下四分位數

Pandas 資料清洗之處理空值

本文參考自菜鳥教程。資料清洗是對一些沒有用的資料進行處理的過程。即處理資料集中資料缺失、資料格式錯誤、錯誤資料或重複資料的情況。

python 檢查資料中是否有缺失值,刪除缺失值的方式

# 檢查資料中是否有缺失值 np.isnan(train).any() Flase：表示對應特徵的特徵值中無缺失值

pandas 缺失值與空值處理的實現方法

1.相關函式 df.dropna() df.fillna() df.isnull() df.isna() 2.相關概念空值：在pandas中的空值是\"\"

Vuex 存值與取值（vue+vuex+axios從後臺獲取資料存入vuex，元件之間共享資料）

vue 各個元件之間傳值，基於父子、兄弟元件，傳值可能會很方便，但是如果是沒有關聯的元件之間要使用同一組資料，vuex 就可以很好的解決。

SQL中的重複值與null值處理

目錄資料準備 null空值處理空值 \'\' 空值 null count與distinct union與distinct sum與null 重複值處理group by、distinct與row_number互換

基於Python資料結構之遞迴與回溯搜尋

目錄 1. 遞迴函式與回溯深搜的基礎知識 2. 求子集 (LeetCode 78) 3. 求子集2 (LeetCode 90)

C筆記-左值與右值

目錄前言:工欲善其事,必先利其器兩種資料參考資料及其使用說明官方對於左值和右值的定義實際使用時的疑問左值的涵蓋範圍重要概念: 左值轉化(lvalue conversion)左值與指標概念上的區別左值與指標值的互相轉化指標值的

Tableau技巧：將單個值與其他值進行比較

作者|GUEST 編譯|VK 來源|Analytics Vidhya 介紹我們有多少次嘗試將一個值與一個範圍進行比較，結果卻不令人滿意？

資料解析之正則與BS4

1.資料解析 1.資料解析就是應用一定的技術手段在響應資料中獲取目標資料 2.常用資料解析方式:

微信小程式-頁面之間跳轉傳值與取值（商品簡介到詳情跳轉示例）

以商品簡介介面跳轉到商品詳情介面為例子講解，下面例子對應的介面就是home.wxml跳轉到goodsDetail.wxml。

高效能JavaScript(二)資料存取之閉包與作用域

技術標籤：高效能JavaScriptjavascript 閉包、作用域與記憶體如果在閱讀下面文章中，對作用域、作用域鏈、活動物件以及執行速度產生的影響有疑問的可閱讀:高效能JavaScript(二)資料存取之作用域鏈

pandas（13）：資料清洗（重複記錄）

資料來源： df= pd.DataFrame({\'k1\': [ \'s1\']* 3 + [\'s2\']* 5,\'k2\' : [1, 1, 2, 3, 3, 4, 4,4]})

關於vue專案全域性變數定義、賦值與取值以及全域性方法的定義和使用

關於vue全域性變數的管理可參看 vuex官方文件此處只是本人在開發過程中的一些記錄，方便查閱，希望能給各位帶來一些幫助！

處理缺失值--探索缺失值模式（列表顯示、圖形探究、用相關性探究）

處理缺失值的高階方法--探索缺失值模式在決定如何處理缺失資料前，瞭解哪些變數有缺失值、數目有多少、是什麼組合形式等資訊非常有用，要知道資料為何缺失。

handsontable有顯示值與實際值的下拉框cobbobox擴充套件

一、效果與使用二、程式碼 /// <reference path=\"handsontable.full.min.js\" /> //封閉在IIFE中