python DataFrame 交併差集

阿新 • • 發佈：2020-08-19

smysqldb = mysql.MYSQL(host=source_param['db_ip'], port=int(source_param['db_port']),
                       user=source_param['db_user'],
                       pwd=source_param['db_pwd'], db=source_param['db_name'])
tmysqldb = mysql.MYSQL(host=target_param['db_ip'], port=int(target_param['db_port']),
                       user=target_param['db_user'],
                       pwd=target_param['db_pwd'], db=target_param['db_name'])
desc_sql = "SELECT c.COLUMN_NAME AS filed_name,c.COLUMN_TYPE AS filed_type,c.DATA_TYPE as data_type,c.CHARACTER_MAXIMUM_LENGTH as char_length FROM information_schema. TABLES t INNER JOIN information_schema. COLUMNS c ON t.TABLE_NAME = c.TABLE_NAME" \
           + " AND t.TABLE_SCHEMA = c.TABLE_SCHEMA WHERE t.TABLE_NAME = '{table_name}' AND t.TABLE_SCHEMA = '{database_name}'"
filed_columns = ['filed_name', 'filed_type', 'data_type', 'char_length']

df1 = pd.DataFrame(smysqldb.ExecQuery(
    desc_sql.format(table_name=source_param['table_name'], database_name=source_param['db_name'])),
    columns=filed_columns)
df2 = pd.DataFrame(tmysqldb.ExecQuery(
    desc_sql.format(table_name=target_param['table_name'], database_name=target_param['db_name'])),
    columns=filed_columns)

df1內容

df2內容

可以看出df2比df1多兩個欄位 etl_date,real_pay_success_time

1)innner、left join 、rigtht join、outer join

inner_df = pd.merge(df1, df2, how='inner')  ## 計算df1=df2的部份
print(inner_df)

left_df = pd.merge(df1, df2, how='left')  ## df1部分
print(left_df) #df1部分

right_df = pd.merge(df1, df2, how='right')  ## df2部分
 
print(right_df) #df2部分

outer_df = pd.merge(df1, df2, how='outer')  ## 取合集：df1和df2所有資料的集合
print(outer_df) #df2部分

2)求差集

df1-df2

df = pd.concat([df1, df2, df2]).drop_duplicates(subset=['filed_name', 'filed_type'], keep=False)#df1-df2
print(df)

df2-df1

df = pd.concat([df2, df1, df1]).drop_duplicates(subset=['filed_name', 'filed_type'], keep=False)#df2-df1
 
print(df)

上面的df2-df1等同於

fileds_df = df1.append(df2).drop_duplicates(subset=['filed_name', 'filed_type'], keep=False) #drop_duplicates重複資料刪除 
print(fileds_df)
fileds_df = df2.append(df1).drop_duplicates(subset=['filed_name', 'filed_type'], keep=False)
print(fileds_df)

python DataFrame 交併差集

smysqldb = mysql.MYSQL(host=source_param[\'db_ip\'], port=int(source_param[\'db_port\']), user=source_param[\'db_user\'],

Pandas DataFrame求差集的示例程式碼

在Pandas中求差集沒有專門的函式。處理辦法就是將兩個DataFrame追加合併，然後去重。

spark計算兩個DataFrame的差集、交集、合集

技術標籤：sparksqlDataFramesparkscaladataframe spark計算兩個DataFrame的差集、交集、合集

基於python求兩個列表的並集.交集.差集

這篇文章主要介紹了基於python求兩個列表的並集.交集.差集,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

【python--集合】增刪改交集差集並集反交集子集和超集

# dic = {} print(type(dic)) se = {} print(type(se)) se = set() print(type(se)) # # # 建立空集合 se = set()

Pandas中兩個dataframe的交集和差集的示例程式碼

建立測試資料： import pandas as pd import numpy as np #Create a DataFrame df1 = { \'Subject\':[\'semester1\',\'semester2\',\'semester3\',\'semester4\',\'semester1\',\'semester3\'],\'Score\':[62,47

python 求兩個列表的交集，並集，差集

技術標籤：pythonpython列表 a = [1, 5, 8, 9, 6] b = [2, 1, 8, 6, 9, 3, 7] print(\'求兩個列表的交集intersection:\', list(set(a).intersection(set(b))))# 求兩個列表的交集

Python入門基礎篇 No.38 —— 集合_特點_建立和刪除_交集並集差集運算

技術標籤：# 基礎python程式語言資料結構經驗分享程式人生 Python入門基礎篇 No.38 —— 集合_特點_建立和刪除_交集並集差集運算

Python list的並集，交集，差集

技術標籤：Python a = [] b = [] 並集 list(set(a).intersection(set(b))) 交集 list(set(a).union(set(b)))

Python程式碼閱讀（第16篇）：列表求差集

本篇閱讀三種不同的列表差集的實現方式。分別是列表直接求差difference，列表中所有元素根據條件函式求差difference_by，列表中所有元素根據條件函式求對稱差symmetric_difference_by。

【Python學習】—列表(list)集合的交集，並集差集

一、list基本操作 list = [1, 2, 3]list.append(5)print(list) list.extend([6, 7]) # extend是將可迭代物件的元素依次加入列表print(list) list.append([6, 7]) # append是把傳入的引數當成一個元素加入列表p

在Python中如何差分時間序列資料集

差分是一個廣泛用於時間序列的資料變換。在本教程中，你將發現如何使用Python將差分操作應用於時間序列資料。

Oracle 兩個逗號分割的字串,獲取交集、差集(sql實現過程解析)

Oracle資料庫的兩個欄位值為逗號分割的字串，例如：欄位A值為“1,2,3,5”，欄位B為“2”。

python dataframe NaN處理方式

將dataframe中的NaN替換成希望的值 import pandas as pd df1 = pd.DataFrame([{\'col1\':\'a\',\'col2\':1},{\'col1\':\'b\',\'col2\':2}])

python DataFrame轉dict字典過程詳解

這篇文章主要介紹了python DataFrame轉dict字典過程詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

解決python DataFrame 列印結果不換行問題

如下所示：加入程式碼： pd.set_option(\'display.width\',5000) 補充知識：Python 實現不換行列印字元的3種簡單方法

python實現交併比IOU教程

交併比（Intersection-over-Union，IoU），目標檢測中使用的一個概念，是產生的候選框（candidate bound）與原標記框（ground truth bound）的交疊率，即它們的交集與並集的比值。最理想情況是完全重疊，即比值為1。

Python介面測試結果集實現封裝比較

引言　　介面測試執行完後，我們需要進行斷言，斷言的主要目的是用程式碼來判斷實際結果和預期結果是否一致，這跟手工測試中用肉眼去判斷是一樣的思路。既然這樣，我們可以將已知的預期結果和未知的實際結果簡單的封

Python Dataframe常見索引方式詳解

建立一個示例資料框： import pandas as pd df = pd.DataFrame([[\'喬峰\',\'男\',95,\'降龍十八掌\',\'主角\'],[\'虛竹\',93,\'天上六陽掌\',[\'段譽\',92,\'六脈神劍\',[\'王語嫣\',\'女\',\'熟知武訣\',[\'包不

C# Linq 交集、並集、差集、去重

其實只要明白 LINQ查詢操作符的 Distinct、Union、Concat、Intersect、Except、Skip、Take、SkipWhile、TakeWhile、Single、SingleOrDefault、Reverse、SelectMany,Aggregate()(這個挺偏的，具體意思有空再寫，可以

python DataFrame 交併差集

相關推薦