1. 程式人生 > >pandas 中 dataframe 重複元素個數的獲取

pandas 中 dataframe 重複元素個數的獲取

方法有二:

1. 在呼叫duplicated方法後,非重複的元素會被標記為False,而重複的元素會被標記為True

count = 0
for i in users_info['user_id'].duplicated():
    if i == True:
        count = count + 1
count

【注1】users_info為一個dataframe框,user_id為其中一列

【注2】duplicated( )方法只會把重複的元素標記為True,而不會標記被重複的元素

2.這行程式碼的速度更快,drop_duplicates(['user_id'])方法為刪除user_id列中相同的元素

users_info.shape[0] - users_info.drop_duplicates(['user_id']).shape[0]
【注】shape[0] 為獲取行數