Pandas玩轉資料（七) -- Series和DataFrame去重

阿新 • • 發佈：2019-01-13

資料分析彙總學習

import numpy as np
import pandas as pd
from pandas import Series, DataFrame

df = pd.read_csv('demo_duplicate.csv')
df.head()
Out[40]: 
   Unnamed: 0   Price  Seqno Symbol        time
0           0  1623.0    0.0   APPL  1473411962
1           1  1623.0    0.0   APPL  1473411962
2           2  1623.0 
    0.0   APPL  1473411963
3           3  1623.0    0.0   APPL  1473411963
4           4  1649.0    1.0   APPL  1473411963

# 
df.size
Out[41]: 19945

len(df)
Out[42]: 3989

len(df['Seqno'].unique())
Out[46]: 1000

# 某一行Series的duplicate
df['Seqno'].duplicated().head()
Out[47]: 
0    False
1     True
2     True 

3     True
4    False
Name: Seqno, dtype: bool

type(df['Seqno'].duplicated())
Out[48]: pandas.core.series.Series

# DataFrame去重，drop_dupliates
df.drop_duplicates(['Seqno']).head()
Out[49]: 
    Unnamed: 0   Price  Seqno Symbol        time
0            0  1623.0    0.0   APPL  1473411962
4            4  1649.0 
    1.0   APPL  1473411963
8            8  1642.0    2.0   APPL  1473411964
12          12  1636.0    3.0   APPL  1473411965
16          16  1669.0    4.0   APPL  1473411966

# keep引數指定保留哪一個
df.drop_duplicates(['Seqno'], keep='last').head()
Out[53]: 
    Unnamed: 0   Price  Seqno Symbol        time
3            3  1623.0    0.0   APPL  1473411963
7            7  1649.0    1.0   APPL  1473411964
11          11  1642.0    2.0   APPL  1473411965
15          15  1636.0    3.0   APPL  1473411966
19          19  1669.0    4.0   APPL  1473411967

Pandas玩轉資料（七) -- Series和DataFrame去重

資料分析彙總學習 import numpy as np import pandas as pd from pandas import Series, DataFrame df = pd.read

Pandas玩轉資料（九) -- 時間序列的取樣和畫圖

資料分析彙總學習 import numpy as np import pandas as pd from pandas import Series, DataFrame # 生成一個時間序列 t_range = pd.date_range('2016-0

pandas的兩種資料型別：Series和DataFrame

首先要明確pandas是做什麼的，在確定是如何做的，通過哪些方式去做的？ pandas是做什麼的？ Python Data Analysis Library 或 pandas 是基於NumPy 的一種工具，該工具是為了解決資料分析任務而建立的。Pandas 納入

python資料分析五:Series和DataFrame的索引的方法(ix()方法)

# -*- coding: utf-8 -*- import pandas as pd from pandas import Series,DataFrame import numpy as np ''' 索引物件 ''' obj=Series(range(3),ind

玩轉資料結構——第七章：優先佇列和堆

內容概要：什麼是優先佇列？堆的基礎結構向堆中新增元素Sift Up 從堆中取出元素和Sift Down Heapify和Replace 基於堆的優先佇列 LeetCode上優先佇列相關的問題 java中的PriorityQueue 和堆相關的更多話題和

玩轉資料結構——均攤複雜度和防止複雜度的震盪（筆記）

資料規模時間複雜度並不是所有的雙層迴圈都是O（n^2）的複雜度實驗來確定複雜度 // O(N) 兩倍增加 int findMax( int arr[], int n ){ assert( n > 0

HAWQ + MADlib 玩轉資料探勘之（七）——關聯規則方法之Apriori演算法

一、關聯規則簡介關聯規則挖掘的目標是發現數據項集之間的關聯關係，是資料挖據中一個重要的課題。關聯規則最初是針對購物籃分析（Market Basket Analysis）問題提出的。假設超市經理想更多地瞭解顧客的購物習慣，特別是想知道，哪些商品顧客可能會在一次購

玩轉資料結構——第二章：棧和佇列

內容概覽：棧和棧的應用：撤銷操作和系統棧棧的基本實現棧的另外一個應用：括號匹配關於Leetcode的更多說明陣列佇列迴圈佇列迴圈佇列的實現陣列佇列和迴圈佇列的比較 2-1.棧（Stack）棧也是一種線性結構

玩轉資料結構——第四章：連結串列和遞迴

內容概要： Leetcode中和連結串列相關的問題測試自己的Leetcode連結串列程式碼遞迴繼承與遞迴的巨集觀語意連結串列的天然遞迴結構性質遞迴執行機制：遞迴的微觀解讀遞迴演算法的除錯更多和連結串列相關的問題 1-Leetcode中

《用Python玩轉資料》專案—線性迴歸分析入門之波士頓房價預測（二）

接上一部分，此篇將用tensorflow建立神經網路，對波士頓房價資料進行簡單建模預測。二、使用tensorflow擬合boston房價datasets 1、資料處理依然利用sklearn來分訓練集和測試集。 2、使用一層隱藏層的簡單網路，試下來用當前這組超引數收斂較快，準確率也可以。 3、啟用函式

玩轉資料結構(14)-- 堆中的Heapify 和 Replace

Heapify 和 Replace 一、replace 定義：取出最大元素後，放入一個新元素【堆中總數沒有變化】實現方法：1.可以先 extractMax,再 add,兩次O(log n)的操作； 2.可以直接將堆頂元素替換以後

玩轉資料結構——第六章：集合和對映

集合(Set) 什麼是集合？集合是承載元素的容器；特點：每個元素只能存在一次優點：去重二分搜尋樹的新增操作add：不能盛放重複元素是非常好的實現“集合”的底層資料結構 /** * 集合的介面 */ public interface Set<

筆記 Data Processing Using Python 1（用Python玩轉資料第一章）

輸入語句： price=raw_input("String"); 109; price; #值為109，型別為‘str’ 109; price; #值為109，型別為‘str’ 註釋問題：#註釋; \ 續行符；''',(不用加續行符；縮排問題：增加縮排表示語句的開始；

【玩轉資料系列十五】機器學習PAI為你自動寫歌詞，媽媽再也不用擔心我的freestyle了（提供資料、程式碼）

摘要：背景最近網際網路上出現一個熱詞就是“freestyle”，源於一個比拼rap的綜藝節目。在節目中需要大量考驗選手的freestyle能力，freestyle指的是rapper即興的根據一段主題講一串rap。背景最近網際網路上出現一個熱詞就是“freest

HAWQ + MADlib 玩轉資料探勘之（六）——主成分分析與主成分投影

一、主成分分析（Principal Component Analysis，PCA）簡介在資料探勘中經常會遇到多個變數的問題，而且在多數情況下，多個變數之間常常存在一定的相關性。例如，網站的“瀏覽量”和“訪客數”往往具有較強的相關關係，而電商應用中的“下單數”和“成交數”也具有較強的相關關係。

小邵教你玩轉ES6（二）——Object.defineProperty和Proxy代理

Author: 邵威儒Wechat: 166661688Object.definePropert

numpy的ndarray與pandas的series和dataframe之間互轉

在大資料分析中，比較常用的兩個資料分析包就是numpy和pandas，而pandas正是基於numpy構建的含有更高階資料結構和工具的資料分析包，在金融領域應用更是廣泛。在實際的工程中，經常遇到的問題就是numpy的ndarray資料結構與pandas的series和da

（資料科學學習手札81）conda+jupyter玩轉資料科學環境搭建

> 本文示例yaml檔案已上傳至我的`Github`倉庫[https://github.com/CNFeffery/DataScienceStudyNotes](https://github.com/CNFeffery/DataScienceStudyNotes) # 1 簡介　　我們在使用`Pytho

老司機帶你玩轉面試（1）：快取中介軟體 Redis 基礎知識以及資料持久化

![](https://cdn.geekdigging.com/Interview/mianshi_header_1.jpg) ## 引言今天週末，我在家坐著掐指一算，馬上又要到一年一度的金九銀十招聘季了，國內今年上半年受到 YQ 衝擊，金三銀四泡湯了，這就直接導致很多今年畢業的同學會和明年畢業的同學一

pandas基礎: Series和DataFrame的簡單介紹

維數索引一維數組找不到數組 nbsp 單獨 dex 默認一、pandas 是什麽 pandas 是基於 NumPy 的一個 Python 數據分析包，主要目的是為了數據分析。它提供了大量高級的數據結構和對數據處理的方法。 pand

Pandas玩轉資料（七) -- Series和DataFrame去重

資料分析彙總學習

相關推薦