python 資料清洗之資料合併、轉換、過濾、排序
資料合併
在pandas中可以通過merge對資料進行合併操作。
import numpy asnp
import pandas aspd
data1 = pd.DataFrame({'level':['a','b','c','d'],
'numeber':[1,3,5,7]})
data2=pd.DataFrame({'level':['a','b','c','e'],
'numeber':[2,3,6,10]})
print(data1)
結果為:
print(data2)
結果為:
print(pd.merge(data1,data2))
結果為:
可以看到data1和data2中用於相同標籤的欄位顯示,而其他欄位則被捨棄,這相當於SQL中做inner join連線操作。
此外還有outer,ringt,left等連線方式,用關鍵詞how的進行表示。
data3 = pd.DataFrame({'level1':['a','b','c','d'],
'numeber1':[1,3,5,7]})
data4=pd.DataFrame({'level2'
:['a','b','c','e'],'numeber2':[2,3,6,10]})
print(pd.merge(data3,data4,left_on='level1',right_on='level2'))
結果為:
兩個資料框中如果列名不同的情況下,我們可以通過指定letf_on 和right_on兩個引數把資料連線在一起
print(pd.merge(data3,data4,left_on='level1',right_on='level2',how='left'))
結果為:
其他詳細引數說明
重疊資料合併
有時候我們會遇到重疊資料需要進行合併處理,此時可以用comebine_first函式。
data3 = pd.DataFrame({'level':['a','b','c','d'],
'numeber1':[1,
相關推薦
python 資料清洗之資料合併、轉換、過濾、排序
資料合併 在pandas中可以通過merge對資料進行合併操作。 import numpy asnp import pandas aspd data1 = pd.DataFrame({'level':['a','b','c'
python開發基礎之資料型別、字元編碼、檔案操作
一、知識點 1.身份運算: 2.現在計算機系統通用的字元編碼工作方式:在計算機記憶體中,統一使用Unicode編碼,當需要儲存到硬碟或者需要傳輸的時候,就轉換為UTF-8編碼。用記事本編輯的時候,從檔案讀取的UTF-8字元被轉換為Unicode字元到記憶體裡,編輯完成後,儲存的時候再把Unicode轉
python學習筆記之資料型別、字元編碼、檔案處理
1、資料型別 1、數字(int,float) 整形(int):定義 age=20 #本質age=int(20) 浮點型別:salary=3000.3 #本質salary=float(3000.3) 還有不常用的長整型、複數。 2、字串
Python基礎資料結構之資料轉換(Dict,Set,Tuple,List)
本章是Python基礎資料結構的第六篇,由於之前沒有接觸過太多的Python版本的資料結構,所以在學習的過程中集百家之長和自己的見解,加以實踐,學習Python。 Python中用到tuple的方法,和注意事項都以程式碼的形式體現 #!/usr
Python核心資料型別之序列型別及其運算(字元、列表、元組運算及其深淺拷貝)
Python核心資料型別之序列型別及其運算(列表、元組運算及其拷貝)序列:序列表示索引為非負整數的有序物件集合,包括字串、列表和元組,所有序列都支援迭代;序列型別:字串(strings):字串也屬於序列型別,不可變型別; 字串字面量:把文字放入單引號、雙引號或
Python基本語法之資料型別
Python資料型別 基本資料型別 資料型別 說明 Numbers int 有符號整型 long 長整型[也可以代表八
Python機器學習之資料預處理
# -*- coding: utf-8 -*- """ Created on Sat Sep 29 22:39:26 2018 @author: Lxiao217 email:[email protected] """ #資料預處理 #CSV(comma-srpared values,
Python學習手冊之資料型別
在上一篇文章中,我們介紹了 Python 的異常和檔案,現在我們介紹 Python 中的資料型別。 檢視上一篇文章請點選:https://www.cnblogs.com/dustman/p/9979931.html 資料型別None 型別None 型別是 Python 的特殊型別,它
python進階之資料分析與展示(三)
資料分析之表示 資料存取與函式 資料的CSV檔案存取 CSV (Comma‐Separated Value, 逗號分隔值) CSV是一種常見的檔案格式,用來儲存批量資料。 np.savetxt(frame, array, fmt=’%.
python進階之資料分析與展示(二)
資料分析之表示 NumPy庫入門 資料的維度 一維資料 一維資料由對等關係的有序或無序資料構成,採用線性方式組織。 例如:3.1413, 3.1398, 3.1404, 3.1401, 3.1349, 3.1376。 對應列
python進階之資料分析與展示(一)
資料分析之前奏 Anaconda IDE的使用方法 一個數據表達一個含義,一組資料表達一個或多個含義。 摘要 有損地提取資料特徵的過程。 基本統計(含排序)。 分佈/累計統計。 資料特徵。 相關性、
python程式設計篇之資料結構與演算法(三)
連結串列 為什麼需要連結串列 順序表的構建需要預先知道資料大小來申請連續的儲存空間,而在進行擴充時又需要進行資料的搬遷,所以使用起來並不是很靈活。 連結串列結構可以充分利用計算機記憶體空間,實現靈活的記憶體動態管理。 連結串列的定義 連結串列(Linked li
資料結構之雜湊表與連結串列、陣列
雜湊表 主要描述雜湊表的定義:通過關鍵碼尋找值的資料對映結構,類似於查字典 當存在雜湊衝突時,有兩種常用的方式:開發定址法和鏈地址法 開發定址法通俗的來說就是判斷該地址是否存資料,沒存就放進去,存了就找下一個地址,依次類推,問題是如果空間不足,無法處理衝突。 鏈地
專案知識學習篇———資料清洗之kettle以及整合到java專案
一、kettle工具下載 連結: https://pan.baidu.com/s/13Mx-QJkY-5dY-nDIpuZAzw 提取碼: x146 pdi-ce-8.1.0.0.zip就是kettle軟體 下載之後解壓 進入資料夾根目錄點選Spoon.bat就能開啟客戶端 二、kettle
Python基礎學習之資料型別
#列表 list1=[1,2,3] print(type(list1)) #字典 dict1={"title":"web開發"} print(type(dict1)) print(dict1['title']) #元組 tuple1=(11
python程式設計篇之資料結構與演算法(九)
快速排序 快速排序(英語:Quicksort),又稱劃分交換排序(partition-exchange sort),通過一趟排序將要排序的資料分割成獨立的兩部分,其中一部分的所有資料都比另外一部分的所有資料都要小,然後再按此方法對這兩部分資料分別進行快速排序,整
python程式設計篇之資料結構與演算法(十一)
歸併排序 歸併排序是採用分治法的一個非常典型的應用。歸併排序的思想就是先遞迴分解陣列,再合併陣列。 將陣列分解最小之後,然後合併兩個有序陣列,基本思路是比較兩個陣列的最前面的數,誰小就先取誰,取了後相應的指標就往後移一位。然後再比較,直至一個數組為空,最後把另一
python程式設計篇之資料結構與演算法(十二)
搜尋 搜尋是在一個專案集合中找到一個特定專案的演算法過程。搜尋通常的答案是真的或假的,因為該專案是否存在。 搜尋的幾種常見方法:順序查詢、二分法查詢、二叉樹查詢、雜湊查詢 二分法查詢 二分查詢又稱折半查詢,優點是比較次數少,查詢速度快,平均效能好;其缺點是要求待
python程式設計篇之資料結構與演算法(十三)
樹與樹演算法 樹的概念 樹(英語:tree)是一種抽象資料型別(ADT)或是實作這種抽象資料型別的資料結構,用來模擬具有樹狀結構性質的資料集合。它是由n(n>=1)個有限節點組成一個具有層次關係的集合。把它叫做“樹”是因為它看起來像一棵倒掛的樹,也就是說它
python程式設計篇之資料結構與演算法(十四)
二叉樹 二叉樹的概念 二叉樹是每個節點最多有兩個子樹的樹結構。通常子樹被稱作“左子樹”(left subtree)和“右子樹”(right subtree) 二叉樹的性質 性質1: 在二叉樹的第i層上至多有2^(i-1)個結點(i>0) 性質2: 深度為k