Pandas玩轉資料(七) -- Series和DataFrame去重
資料分析彙總學習
import numpy as np
import pandas as pd
from pandas import Series, DataFrame
df = pd.read_csv('demo_duplicate.csv')
df.head()
Out[40]:
Unnamed: 0 Price Seqno Symbol time
0 0 1623.0 0.0 APPL 1473411962
1 1 1623.0 0.0 APPL 1473411962
2 2 1623.0 0.0 APPL 1473411963
3 3 1623.0 0.0 APPL 1473411963
4 4 1649.0 1.0 APPL 1473411963
#
df.size
Out[41]: 19945
len(df)
Out[42]: 3989
len(df['Seqno'].unique())
Out[46]: 1000
# 某一行Series的duplicate
df['Seqno'].duplicated().head()
Out[47]:
0 False
1 True
2 True
3 True
4 False
Name: Seqno, dtype: bool
type(df['Seqno'].duplicated())
Out[48]: pandas.core.series.Series
# DataFrame去重,drop_dupliates
df.drop_duplicates(['Seqno']).head()
Out[49]:
Unnamed: 0 Price Seqno Symbol time
0 0 1623.0 0.0 APPL 1473411962
4 4 1649.0 1.0 APPL 1473411963
8 8 1642.0 2.0 APPL 1473411964
12 12 1636.0 3.0 APPL 1473411965
16 16 1669.0 4.0 APPL 1473411966
# keep引數指定保留哪一個
df.drop_duplicates(['Seqno'], keep='last').head()
Out[53]:
Unnamed: 0 Price Seqno Symbol time
3 3 1623.0 0.0 APPL 1473411963
7 7 1649.0 1.0 APPL 1473411964
11 11 1642.0 2.0 APPL 1473411965
15 15 1636.0 3.0 APPL 1473411966
19 19 1669.0 4.0 APPL 1473411967
相關推薦
Pandas玩轉資料(七) -- Series和DataFrame去重
資料分析彙總學習 import numpy as np import pandas as pd from pandas import Series, DataFrame df = pd.read
Pandas玩轉資料(九) -- 時間序列的取樣和畫圖
資料分析彙總學習 import numpy as np import pandas as pd from pandas import Series, DataFrame # 生成一個時間序列 t_range = pd.date_range('2016-0
pandas的兩種資料型別:Series和DataFrame
首先要明確pandas是做什麼的,在確定是如何做的,通過哪些方式去做的? pandas是做什麼的? Python Data Analysis Library 或 pandas 是基於NumPy 的一種工具,該工具是為了解決資料分析任務而建立的。Pandas 納入
python資料分析五:Series和DataFrame的索引的方法(ix()方法)
# -*- coding: utf-8 -*- import pandas as pd from pandas import Series,DataFrame import numpy as np ''' 索引物件 ''' obj=Series(range(3),ind
玩轉資料結構——第七章:優先佇列和堆
內容概要: 什麼是優先佇列? 堆的基礎結構 向堆中新增元素Sift Up 從堆中取出元素和Sift Down Heapify和Replace 基於堆的優先佇列 LeetCode上優先佇列相關的問題 java中的PriorityQueue 和堆相關的更多話題和
玩轉資料結構——均攤複雜度和防止複雜度的震盪(筆記)
資料規模 時間複雜度 並不是所有的雙層迴圈都是O(n^2)的 複雜度實驗來確定複雜度 // O(N) 兩倍增加 int findMax( int arr[], int n ){ assert( n > 0
HAWQ + MADlib 玩轉資料探勘之(七)——關聯規則方法之Apriori演算法
一、關聯規則簡介 關聯規則挖掘的目標是發現數據項集之間的關聯關係,是資料挖據中一個重要的課題。關聯規則最初是針對購物籃分析(Market Basket Analysis)問題提出的。假設超市經理想更多地瞭解顧客的購物習慣,特別是想知道,哪些商品顧客可能會在一次購
玩轉資料結構——第二章:棧和佇列
內容概覽: 棧和棧的應用:撤銷操作和系統棧 棧的基本實現 棧的另外一個應用:括號匹配 關於Leetcode的更多說明 陣列佇列 迴圈佇列 迴圈佇列的實現 陣列佇列和迴圈佇列的比較 2-1.棧(Stack) 棧也是一種線性結構
玩轉資料結構——第四章:連結串列和遞迴
內容概要: Leetcode中和連結串列相關的問題 測試自己的Leetcode連結串列程式碼 遞迴繼承與遞迴的巨集觀語意 連結串列的天然遞迴結構性質 遞迴執行機制:遞迴的微觀解讀 遞迴演算法的除錯 更多和連結串列相關的問題 1-Leetcode中
《用Python玩轉資料》專案—線性迴歸分析入門之波士頓房價預測(二)
接上一部分,此篇將用tensorflow建立神經網路,對波士頓房價資料進行簡單建模預測。 二、使用tensorflow擬合boston房價datasets 1、資料處理依然利用sklearn來分訓練集和測試集。 2、使用一層隱藏層的簡單網路,試下來用當前這組超引數收斂較快,準確率也可以。 3、啟用函式
玩轉資料結構(14)-- 堆中的Heapify 和 Replace
Heapify 和 Replace 一、replace 定義:取出最大元素後,放入一個新元素【堆中總數沒有變化】 實現方法:1.可以先 extractMax,再 add,兩次O(log n)的操作; 2.可以直接將堆頂元素替換以後
玩轉資料結構——第六章:集合和對映
集合(Set) 什麼是集合? 集合是承載元素的容器; 特點:每個元素只能存在一次 優點:去重 二分搜尋樹的新增操作add:不能盛放重複元素 是非常好的實現“集合”的底層資料結構 /** * 集合的介面 */ public interface Set<
筆記 Data Processing Using Python 1(用Python玩轉資料第一章)
輸入語句: price=raw_input("String"); 109; price; #值為109,型別為‘str’ 109; price; #值為109,型別為‘str’ 註釋問題:#註釋; \ 續行符;''',(不用加續行符; 縮排問題:增加縮排表示語句的開始;
【玩轉資料系列十五】機器學習PAI為你自動寫歌詞,媽媽再也不用擔心我的freestyle了(提供資料、程式碼)
摘要: 背景 最近網際網路上出現一個熱詞就是“freestyle”,源於一個比拼rap的綜藝節目。在節目中需要大量考驗選手的freestyle能力,freestyle指的是rapper即興的根據一段主題講一串rap。 背景 最近網際網路上出現一個熱詞就是“freest
HAWQ + MADlib 玩轉資料探勘之(六)——主成分分析與主成分投影
一、主成分分析(Principal Component Analysis,PCA)簡介 在資料探勘中經常會遇到多個變數的問題,而且在多數情況下,多個變數之間常常存在一定的相關性。例如,網站的“瀏覽量”和“訪客數”往往具有較強的相關關係,而電商應用中的“下單數”和“成交數”也具有較強的相關關係。
小邵教你玩轉ES6(二)——Object.defineProperty和Proxy代理
Author: 邵威儒Wechat: 166661688Object.definePropert
numpy的ndarray與pandas的series和dataframe之間互轉
在大資料分析中,比較常用的兩個資料分析包就是numpy和pandas,而pandas正是基於numpy構建的含有更高階資料結構和工具的資料分析包,在金融領域應用更是廣泛。在實際的工程中,經常遇到的問題就是numpy的ndarray資料結構與pandas的series和da
(資料科學學習手札81)conda+jupyter玩轉資料科學環境搭建
> 本文示例yaml檔案已上傳至我的`Github`倉庫[https://github.com/CNFeffery/DataScienceStudyNotes](https://github.com/CNFeffery/DataScienceStudyNotes) # 1 簡介 我們在使用`Pytho
老司機帶你玩轉面試(1):快取中介軟體 Redis 基礎知識以及資料持久化
![](https://cdn.geekdigging.com/Interview/mianshi_header_1.jpg) ## 引言 今天週末,我在家坐著掐指一算,馬上又要到一年一度的金九銀十招聘季了,國內今年上半年受到 YQ 衝擊,金三銀四泡湯了,這就直接導致很多今年畢業的同學會和明年畢業的同學一
pandas基礎: Series和DataFrame的簡單介紹
維數 索引 一維數組 找不到 數組 nbsp 單獨 dex 默認 一、pandas 是什麽 pandas 是基於 NumPy 的一個 Python 數據分析包,主要目的是為了數據分析。它提供了大量高級的數據結構和對數據處理的方法。 pand