速戰速決 Python - python 第三方庫（pandas）: DataFrame連線，去重，空值處理

阿新 • • 發佈：2022-01-20

速戰速決 Python https://github.com/webabcd/PythonSample
作者 webabcd

速戰速決 Python - python 第三方庫（pandas）: DataFrame連線，去重，空值處理

示例如下:

thirdLib/pandas/sample3.py

# pandas
#   DataFrame 連線：append(), concat(), merge(), join()
#   DataFrame 去重
#   DataFrame 空值處理

import pandas as pd

data1 = {
    "name": ["zhao", "qian"],
    "age": [40, 25], 
    "city": ["beijing ", "beijing"],
    "gender": ["M", "F"]
} 
a = pd.DataFrame(data=data1) 
data2 = { 
    "name": ["qian", "sun"],
    "age": [25, 22], 
    "city": ["beijing", "shanghai"],
    "salary": [100, 150]
} 
b = pd.DataFrame(data=data2) 
print(a)
'''
   name  age      city gender
0  zhao   40  beijing       M
1  qian   25   beijing      F
'''
print(b)
'''
   name  age      city  salary
0  qian   25   beijing     100
1   sun   22  shanghai     150
'''

# append() 在 DataFrame 資料的末尾追加指定的 DataFrame 資料
print(a.append(b))
'''
   name  age      city gender  salary
0  zhao   40  beijing       M     NaN
1  qian   25   beijing      F     NaN
0  qian   25   beijing    NaN   100.0
1   sun   22  shanghai    NaN   150.0
'''


# drop_duplicates() 去重
#   subset - 根據指定的欄位去重
#   keep - first保留第一條重複資料，last保留最後一條重複資料，False刪除全部重複資料
#   inplace - 是否直接修改原物件
#     False 預設值，原物件不變，返回資料修改後的副本
#     True 直接修改原物件，返回值為 None
print(a.append(b).drop_duplicates(subset=['age','city'], keep='first', inplace=False))
'''
   name  age      city gender  salary
0  zhao   40  beijing       M     NaN
1  qian   25   beijing      F     NaN
1   sun   22  shanghai    NaN   150.0
'''


# concat() 拼接多個 DataFrame 資料
print(pd.concat([a, b]))
'''
   name  age      city gender  salary
0  zhao   40  beijing       M     NaN
1  qian   25   beijing      F     NaN
0  qian   25   beijing    NaN   100.0
1   sun   22  shanghai    NaN   150.0
'''

# concat() 拼接多個 DataFrame 資料
#   ignore_index=True 重建索引
print(pd.concat([a, b], ignore_index=True))
'''
   name  age      city gender  salary
0  zhao   40  beijing       M     NaN
1  qian   25   beijing      F     NaN
2  qian   25   beijing    NaN   100.0
3   sun   22  shanghai    NaN   150.0
'''

# concat() 拼接多個 DataFrame 資料
#   join='outer' 預設值，各方列名不相同的也整合到一起
#   join='inner' 各方列名不相同的就捨棄，只保留列名相同的資料
print(pd.concat([a, b], ignore_index=True, join='inner'))
'''
   name  age      city
0  zhao   40  beijing
1  qian   25   beijing
2  qian   25   beijing
3   sun   22  shanghai
'''

# concat() 拼接多個 DataFrame 資料
#   axis=1 橫向拼接
print(pd.concat([a, b], axis=1))
'''
   name  age      city gender  name  age      city  salary
0  zhao   40  beijing       M  qian   25   beijing     100
1  qian   25   beijing      F   sun   22  shanghai     150
'''


# merge() 整合 2 個 DataFrame 資料
#   on='name' 以 name 列為關聯關鍵字整 2 個 DataFrame 資料
#   如果 2 個 DataFrame 資料的關聯關鍵字不相同，則類似這麼設定 left_on="name1", right_on="name2"
print(pd.merge(a, b, on='name'))
'''
   name  age_x   city_x gender  age_y   city_y  salary
0  qian     25  beijing      F     25  beijing     100
'''

# merge() 整合 2 個 DataFrame 資料
#   how='inner' 預設值，只整合兩邊都存在的資料
#   how='outer' 整合兩邊的全部資料
#   how='left' 只整合左邊存在的資料
#   how='right' 只整合右邊存在的資料
print(pd.merge(a, b, on='name', how='outer'))
'''
   name  age_x    city_x gender  age_y    city_y  salary
0  zhao   40.0  beijing       M    NaN       NaN     NaN
1  qian   25.0   beijing      F   25.0   beijing   100.0
2   sun    NaN       NaN    NaN   22.0  shanghai   150.0
'''

# merge() 整合 2 個 DataFrame 資料
#   suffixes - 相同列名整合時，為列名加上指定的字尾，以便區分列是來自哪個 DataFrame 的
print(pd.merge(a, b, on='name', how='outer', suffixes=("_left", "_right")))
'''
   name  age_left city_left gender  age_right city_right  salary
0  zhao      40.0  beijing       M        NaN        NaN     NaN
1  qian      25.0   beijing      F       25.0    beijing   100.0
2   sun       NaN       NaN    NaN       22.0   shanghai   150.0
'''


# join() 整合 2 個 DataFrame 資料
#   相當於 how='left' 的 merge()
print(a.join(b.set_index("name"), on="name", lsuffix="_left", rsuffix='_right'))
'''
   name  age_left city_left gender  age_right city_right  salary
0  zhao        40  beijing       M        NaN        NaN     NaN
1  qian        25   beijing      F       25.0    beijing   100.0
'''



# 以下用於說明空值如何處理
index3 = ['zhao', 'qian', 'sun', 'li', 'zhou']
data3 = {
    "age": [None, None, 22, 28, 28],
    "city": ['beijing', 'beijing', None, 'beijing', 'shanghai']
}
c = pd.DataFrame(data=data3, index=index3)
print(c)
'''
NaN 數字型別的空值（來自 numpy 的 nan），None 其他型別的空值
       age      city
zhao   NaN   beijing
qian   NaN   beijing
sun   22.0      None
li    28.0   beijing
zhou  28.0  shanghai
'''

# isnull() 判斷資料是否有空值
# notnull() 判斷資料是否沒有空值
print(c.isnull())
'''
        age   city
zhao   True  False
qian   True  False
sun   False   True
li    False  False
zhou  False  False
'''

# 獲取指定列沒有空值的資料
print(c[c.age.notnull()])
'''
       age      city
sun   22.0      None
li    28.0   beijing
zhou  28.0  shanghai
'''

# dropna() 刪除空值資料
#   how="any" 有一個欄位空值，則整行刪除
#   how="all" 所有欄位都空值，才整行刪除
#   subset=["column1", "column2"] 只從指定的列中查詢
print(c.dropna(how="any"))
'''
       age      city
li    28.0   beijing
zhou  28.0  shanghai
'''
print(c.dropna(how="any", subset=["age"]))
'''
       age      city
sun   22.0      None
li    28.0   beijing
zhou  28.0  shanghai
'''

# 為指定的欄位中的空值填充一個指定的值
#   inplace=False 預設值，原物件不變，返回資料修改後的副本
#   inplace=True 直接修改原物件，返回值為 None
print(c.fillna({'age':0,'city':'unknown'}, inplace=True)) # None
print(c)
'''
       age      city
zhao   0.0   beijing
qian   0.0   beijing
sun   22.0   unknown
li    28.0   beijing
zhou  28.0  shanghai
'''

速戰速決 Python https://github.com/webabcd/PythonSample
作者 webabcd

速戰速決 Python - python 第三方庫（pandas）: DataFrame連線，去重，空值處理

速戰速決 Python - python 第三方庫（pandas）: DataFrame連線，去重，空值處理速戰速決 Python https://github.com/webabcd/PythonSample

速戰速決 Python - python 第三方庫（pandas）: DataFrame篩選和分組

速戰速決 Python - python 第三方庫（pandas）: DataFrame篩選和分組速戰速決 Python https://github.com/webabcd/PythonSample

速戰速決 Python - python 第三方庫（pandas）: DataFrame基礎

速戰速決 Python - python 第三方庫（pandas）: DataFrame基礎速戰速決 Python https://github.com/webabcd/PythonSample

速戰速決 Python - python 第三方庫（pandas）: Series基礎

速戰速決 Python - python 第三方庫（pandas）: Series基礎速戰速決 Python https://github.com/webabcd/PythonSample

速戰速決 Python - python 第三方庫（openpyxl）: excel樣式處理

速戰速決 Python - python 第三方庫（openpyxl）: excel樣式處理速戰速決 Python https://github.com/webabcd/PythonSample

速戰速決 Python - python 第三方庫（openpyxl）: excel資料處理

速戰速決 Python - python 第三方庫（openpyxl）: excel資料處理速戰速決 Python https://github.com/webabcd/PythonSample

python學習筆記16（Pandas）

技術標籤：筆記pythonpandas Pandas是一個開放原始碼的Python庫，它使用強大的資料結構提供高效能的資料操作和分析工具。 Pandas的主要特點：快速高效的DataFrame物件，具有預設和自定義的索引。將資料從不同檔

python基礎-面向物件（四）靜態屬性。類方法，靜態方法

1.靜態屬性：把類的函式屬性（method）方法變成像資料屬性（field）一樣呼叫。

【Python Pandas】合併，正則替換，去重，排序

import pandas as pd # 讀取excel檔案，並儲存為DataFrame df1 = pd.read_excel(r\"C:\\Users\\admin\\Desktop\\不規則動詞\\不規則動詞_irregular verbs\\Sheet1.xlsx\",

<python>從入門到實踐（7） --常用第三方庫（持續更新）

常用的第三方庫（持續更新）安裝第三方庫使用pip命令：在命令列中執行命令

python常用第三方庫---BeautifulSoup庫（搬運）

BeautifulSoup4是爬蟲必學的技能。BeautifulSoup最主要的功能是從網頁抓取資料，Beautiful Soup自動將輸入文件轉換為Unicode編碼，輸出文件轉換為utf-8編碼。BeautifulSoup支援Python標準庫中的HTML解析器,還支援一些

深入淺析python的第三方庫pandas

pandas模組 pandas是一個強大的分析結構化資料的工具集；它的使用基礎是Numpy（提供高效能的矩陣運算）；用於資料探勘和資料分析，同時也提供資料清洗功能。

這可能是最快的python http請求庫（類似於requests）

fast_requests 2020年4月29日16:16:03更新：介紹用c++寫的python庫，真多執行緒多併發，效能超強，多執行緒下載二進位制的檔案效果最佳這可能是最快的http請求庫，暫支援get方法，執行緒多的話寬頻可以跑滿。專案地

【python】詳解python資料結構堆（heapq）庫使用

資料結構堆（heap）是一種優先佇列。使用優先佇列能夠以任意順序增加物件，並且能在任意的時間（可能在增加物件的同時）找到（也可能移除）最小的元素，也就是說它比python的min方法更加有效率。

小渣渣學習筆記 python資料分析（pandas）待續。。

chapter1 ：Pandas DataFrame 基礎知識 2021.6.22 一、載入資料集 #read_csv 函式載入csv檔案（head取前5條）

預備知識-python核心用法常用資料分析庫（上）

1、預備知識-python核心用法常用資料分析庫（上）目錄1、預備知識-python核心用法常用資料分析庫（上）概述實驗環境任務一：環境安裝與配置【實驗目標】【實驗步驟】任務二：Pandas資料分析實戰【任務目標】【任務

預備知識-python核心用法常用資料分析庫（下）

2、預備知識-python核心用法常用資料分析庫（下）概述 Python 是當今世界最熱門的程式語言，而它最大的應用領域之一就是資料分析。在python眾多資料分析工具中，pandas是python中非常常用的資料分析庫，在資料分析

python常用庫（轉載）

GUI 圖形介面 Tkinter :Tkinter wxPython:wxPython PyGTK:PyGTK PyQt:PyQt PySide:PySide Web框架 django：django

Python標準庫（1） — itertools模組

目錄[-] 簡介官方描述：Functional tools for creating and using iterators.即用於建立高效迭代器的函式。

python常用標準庫（math數學模組和random隨機模組）

常用的標準庫數學模組 import math ceil-- 上取整對一個數向上取整（進一法），取相鄰最近的兩個整數的最大值。

速戰速決 Python - python 第三方庫（pandas）: DataFrame連線，去重，空值處理

速戰速決 Python - python 第三方庫（pandas）: DataFrame連線，去重，空值處理

示例如下:

相關推薦