Python for Data Science - Removing duplicates

阿新 • • 發佈：2021-01-02

Chapter 2 - Data Preparation Basics

Segment 3 - Removing duplicates

import numpy as np
import pandas as pd

from pandas import Series, DataFrame

Removing duplicates

DF_obj = DataFrame({'column 1':[1,1,2,2,3,3,3],
                    'column 2':['a','a','b','b','c','c','c'],
                    'column 3':['A','A','B','B','C','C','C']})
DF_obj

	column 1	column 2	column 3
0	1	a	A
1	1	a	A
2	2	b	B
3	2	b	B
4	3	c	C
5	3	c	C
6	3	c	C

DF_obj.duplicated()

0    False
1     True
2    False
3     True
4    False
5     True
6     True
dtype: bool

DF_obj.drop_duplicates()

	column 1	column 2	column 3
0	1	a	A
2	2	b	B
4	3	c	C

DF_obj = DataFrame({'column 1':[1,1,2,2,3,3,3],
                    'column 2':['a','a','b','b','c','c','c'],
                    'column 3':['A','A','B','B','C','D','C']})
DF_obj

	column 1	column 2	column 3
0	1	a	A
1	1	a	A
2	2	b	B
3	2	b	B
4	3	c	C
5	3	c	D
6	3	c	C

DF_obj.drop_duplicates(['column 3'])

	column 1	column 2	column 3
0	1	a	A
2	2	b	B
4	3	c	C
5	3	c	D

Python for Data Science - Removing duplicates

Chapter 2 - Data Preparation Basics Segment 3 - Removing duplicates import numpy as np import pandas as pd

Python for Data Science - Treating missing values

Chapter 2 - Data Preparation Basics Segment 2 - Treating missing values import numpy as np import pandas as pd

Python for Data Science - Filtering and selecting data

Chapter 2 - Data Preparation Basics Segment 1 - Filtering and selecting data import numpy as np import pandas as pd

Python for Data Science - Concatenating and transforming data

Chapter 2 - Data Preparation Basics Segment 4 - Concatenating and transforming data import numpy as np import pandas as pd

Python for Data Science - Creating standard data graphics

Chapter 4 - Practical Data Visualization Segment 1 - Creating standard data graphics import numpy as np

Python for Data Science - Defining elements of a plot

Chapter 4 - Practical Data Visualization Segment 2 - Defining elements of a plot import numpy as np from numpy.random import randn

Python for Data Science - Using NumPy to perform arithmetic operations on data

Chapter 5 - Basic Math and Statistics Segment 1 - Using NumPy to perform arithmetic operations on data

Python for Finance: Data Visualization

https://www.mlq.ai/python-for-finance-data-visualization/ Data visualization is an essential step in quantitative analysis with Python.

Python for迴圈與getitem的關係詳解

這篇文章主要介紹了Python for迴圈與getitem的關係詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python for i in range ()用法詳解

for i in range ()作用： range()是一個函式， for i in range () 就是給i賦值：比如 for i in range （1，3）：

Python for迴圈及基礎用法詳解

Python 中的迴圈語句有 2 種，分別是 while 迴圈和 for 迴圈，前面章節已經對 while 做了詳細的講解，本節給大家介紹 for 迴圈，它常用於遍歷字串、列表、元組、字典、集合等序列型別，逐個獲取序列中的各個元素。

Python for迴圈通過序列索引迭代過程解析

這篇文章主要介紹了Python for迴圈通過序列索引迭代過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python for迴圈搭配else常見問題解決

這篇文章主要介紹了Python for迴圈搭配else常見問題解決,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python-for迴圈的內部機制

Python中，使用for迴圈可以迭代容器物件中的元素，這裡容器物件包括是列表（list）、元組（tuple）、字典（dict）、集合（set）等。但是，為什麼這些物件可以使用for迴圈進行操作呢？

Python for 迴圈語句

Pythonfor 迴圈語句 Python for迴圈可以遍歷任何序列的專案，如一個列表或者一個字串。高傭聯盟www.cgewang.com

Python for迴圈語句

for迴圈 1.for迴圈可以遍歷任意序列，例如：一個字串，一個列表遍歷，就是檢視序列中的每個元素（for迴圈、遍歷、迭代，是自動播放所有序列當中的元素）

[資料分析-資料探勘]BI-data analytics-data science

*資料分析**是一個相當廣的領域，其中包含了資料科學。資料科學是最近比較火的一個名詞，與傳統的資料分析相比都是從資料中找到知識和見解，只是在使用的技能和方式下有一定差異。並不是所有的資料分析都是

《SLIQ：A fast scalable classifier for data mining》論文筆記

1 簡介本文根據1996年《SLIQ：A fast scalable classifier for data mining》翻譯總結的，即一個快速的可擴充套件的資料探勘分類器。看了論文，論文中沒找到SLIQ的縮寫，還不清楚為什麼這麼叫。

python-for表示式

　　for表示式用於其他區間，元組，列表等可迭代物件建立新的列表 [表示式　for 迴圈計數器　in 可迭代物件]

python - LOAD DATA LOCAL INFILE批量匯入資料到mysql

最近正好要學習TPC-DS, 需要用到批量匯入資料。這裡用到了mysql自帶的LOAD DATA LOCAL INFILE來匯入資料。

Python for Data Science - Removing duplicates

Chapter 2 - Data Preparation Basics

Segment 3 - Removing duplicates

Removing duplicates

相關推薦