Pandas 資料重複處理 duplicated()和drop_duplicates()
阿新 • • 發佈:2021-02-12
技術標籤:機器學習找不到女朋友系列AIpythonjava資料分析大資料演算法
文章目錄
duplicated()和drop_duplicates()
導庫
import pandas as pd
import numpy as np
建立資料集
x=np.array([[1,2,3],[3,4,5],[1,2,3],[1,2,3]])
x=pd.DataFrame(x)
x
duplicated()
返回每行資料是否重複
x.duplicated()
計算重複資料數目
x.duplicated().sum()
drop_duplicates()
刪除重複值
x=x.drop_duplicates()
x