python 資料去重

阿新 • • 發佈：2019-01-01

from pandas import DataFrame

'''
python中的pandas模組中對重複資料去重步驟：
利用DataFrame中的
duplicated方法返回一個布林型的Series,顯示各行是否有重複行，沒有重複行顯示為FALSE，有重複行顯示為TRUE
drop_duplicates方法用於返回一個移除了重複行的DataFrame。

如果duplicated方法和drop_duplicates方法中沒有設定引數，則這兩個方法預設會判斷全部咧，
如果在這兩個方法中加入了指定的屬性名（或者稱為列名），
例如：frame.drop_duplicates(['state']),則指定部分列（state列）進行重複項的判斷。
'''

###移除重複資料
data = DataFrame({'k1': ['one'] * 3 + ['two'] * 4,
                  'k2': [1, 1, 2, 3, 3, 4, 4]})
#print(data)
'''
    k1  k2
0  one   1
1  one   1
2  one   2
3  two   3
4  two   3
5  two   4
6  two   4
'''

print(data.duplicated())  # duplicated 複製出的
'''
0    False
1     True
2    False
3    False
4     True
5    False
6     True
dtype: bool
'''
print(data.drop_duplicates())  # drop_duplicates 移除複製出的
'''
    k1  k2
0  one   1
2  one   2
3  two   3
5  two   4
'''

data['v1'] = range(7)
data.drop_duplicates(['k1'])

data.drop_duplicates(['k1', 'k2'], take_last=True)

print(data)
'''
    k1  k2  v1
0  one   1   0
1  one   1   1
2  one   2   2
3  two   3   3
4  two   3   4
5  two   4   5
6  two   4   6
'''

這方法太簡單好用啦，建議大家多思考一下，它的運作原理。

import numpy as np  
from pandas import Series, DataFrame  
  
###替換值  
data = Series([1., -999., 2., -999., -1000., 3.])  
#print( data )  
''''' 
0       1.0 
1    -999.0 
2       2.0 
3    -999.0 
4   -1000.0 
5       3.0 
dtype: float64 
'''  
  
print( data.replace(-999, np.nan) ) #單值 替換  
''''' 
0       1.0 
1       NaN 
2       2.0 
3       NaN 
4   -1000.0 
5       3.0 
dtype: float64 
'''  
  
print( data.replace([-999, -1000], np.nan) )  #多值替換  
''''' 
0    1.0 
1    NaN 
2    2.0 
3    NaN 
4    NaN 
5    3.0 
dtype: float64 
'''  
print( data.replace([-999, -1000], [np.nan, 0]) )  #多值 替換為 多值   
''''' 
0    1.0 
1    NaN 
2    2.0 
3    NaN 
4    0.0 
5    3.0 
dtype: float64 
'''  
  
print( data.replace({-999: np.nan, -1000: 0}) ) #多值 替換為 多值   
''''' 
0    1.0 
1    NaN 
2    2.0 
3    NaN 
4    0.0 
5    3.0 
dtype: float64 
'''

python 資料去重

from pandas import DataFrame ''' python中的pandas模組中對重複資料去重步驟：利用DataFrame中的 duplicated方法返回一個布林型的Serie

Python List資料去重和巢狀List資料去重

單個list中資料去重例如：去除a中重複的資料 ‘b’ a = ['a','b','c','b'] b = list(set(a)) print(b) 輸出結果為： ['a', 'c', 'b'] 巢狀list中去除相同list資料

Python List資料去重和巢狀List資料去重

單個list中資料去重例如：去除a中重複的資料 ‘b’ a = ['a','b','c','b'] b = list(set(a)) print(b) 輸出結果為： ['a', 'c', 'b'] 巢狀list中去除相同list資料例如：去除

Python轉換列表&&資料去重&&集合

轉換列表是一個很常見的需求，因此Python提供了一個工具。可以儘可能毫不費力第完成這種轉換。工具名稱：列表推導（list comprehension）設計列表推導是為了減少將一個列表轉換為另一個列表時所需編寫的程式碼量。一些例子： >>> mins

Python對多屬性的重複資料去重

python中的pandas模組中對重複資料去重步驟： 1）利用DataFrame中的duplicated方法返回一個布林型的Series,顯示各行是否有重複行，沒有重複行顯示為FALSE，有重複行顯示為TRUE； 2）再利用DataFrame中的drop_duplicat

python、pandas檔案合併、資料去重

目錄下有如圖60個txt檔案，每個txt檔案裡的資料大概有7000萬行目的：把每個txt檔案裡的資料去重後合併60個檔案為一個總檔案，然後把總檔案裡的資料按第一列、第二列分組第三列求去重後出現的次數每個檔案的內容如下：程式碼如下：# -*- coding:utf-8 -*-

python將檔案中的資料去重

# -*- coding: utf-8 -*- ''' 只使用與較小的檔案，比較大的檔案執行時間長 ''' def fenhang(infile,outfile): infopen = ope

python實現去重排序

數字排序實驗計算要求整數用戶輸入 raw_input randint 功能要求：　　　　明明想在學校中請一些同學一起做一項問卷調查，為了實驗的客觀性　　　　他先用計算機生成了N個1～1000之間的隨機整數(N<=1000),N是用戶輸入的，對於　　　　其

大量資料去重：Bitmap點陣圖演算法和布隆過濾器(Bloom Filter)

Bitmap演算法與其說是演算法，不如說是一種緊湊的資料儲存結構。是用記憶體中連續的二進位制位(bit)，用於對大量整型資料做去重和查詢。其實如果並非如此大量的資料，有很多排重方案可以使用，典型的就是雜湊表。實際上，雜湊表為每一個可能出現的數字提供了一個一一對映的關係，每個元素都相當於有

java實現大批量json檔案資料去重

上週從資料採集部門拿到一批400份的json檔案,每個檔案裡30w+的json物件,物件裡有uid,對重複的uid,需要去重下. 本人電腦4核8G已經不能滿足了,總是記憶體不夠用.所以在伺服器上寫了一下(配置8核128G) ,結果讀取檔案以及去重都沒問題, 在最後的寫入是又是

java程式碼實現MySQL資料庫表千萬條資料去重

準備工作: 1.資料庫表:datatest5 2.欄位: id 主鍵自增,val 重複值欄位併為val建立索引 3.設定innodb緩衝池大小 show variables like "%_buffer%"; SET GLOBAL innod

PHP 強大的字元處理能力之CSV資料去重

/* 對以下資料進行去重【detail_new_urls.csv 檔案中內容】 http://www.cnvd.org.cn/flaw/show/CNVD-2018-01155 http://www.cnvd.org.cn/flaw/show/CNVD-2017-01206 http:

再戰mysql 資料去重

年初時，寫過一篇去重的，在小表中還能用用，在大表中真的是效率低下，現在給了一次優化 https://www.cnblogs.com/jarjune/p/8328013.html 繼上一篇文章方法三： DELIMITER // DROP PROCEDURE IF EXISTS delete_

爬蟲資料去重

使用資料庫建立關鍵欄位（一個或者多個）建立索引進行去重根據url地址進行去重使用場景：url地址對應的資料不會變的情況，url地址能夠唯一判別一條資料的情況思路：　　url存在Redis中　　拿到url地址，判斷url在Redis的集合中是否存在　　　　存在：說明url地址已經被請求過

使用 Java8的 stream對list資料去重

list去重，根據物件某個屬性、某幾個屬性去重去除List中重複的String List unique = list.stream().distinct().collect(Collec

Python 列表去重

import random def func1(one_list): ''' 使用集合，個人最常用 ''' return list(set(one_list))

python 列表去重(陣列)的幾種方法

一、方法1 程式碼如下複製程式碼 ids = [1,2,3,3,4,2,3,4,5,6,1] news_ids = [] for id in ids: if id not in news_ids: n

MongoDB + Robo 3T資料去重

Robo 3T是MongoDB資料庫的視覺化介面軟體。爬蟲時會因為某些原因，導致抓取的資料會有重複的。除了在程式碼中處理去重，我們可以動動手指即可實現去重處理。因此，我們可以指定欄位來去重。只需在Robo 3T視覺化介面中輸入一下程式碼即可： db.getC

python3 requests 對資料去重入庫

對於自己使用requests創寫的類及方法想要對資料進行去重入庫問題1：如何做到資料去重處理？答：使用set，並且set能夠自動實現去重效果。問題2：當列表中有大資料怎麼提高讀取速度？答：轉換為set型別。 a = [1, 4, 7, 2, 1, 8, 7

BloomFilter（大資料去重）+Redis（持久化）策略

之前在重構一套文章爬蟲系統時，其中有塊邏輯是根據文章標題去重，原先去重的方式是，插入文章之前檢查待插入文章的標題是否在ElasticSearch中存在，這無疑加重了ElasticSearch的負擔也勢必會影響程式的效能！ BloomFilter演算法簡介：布隆過濾器實際上

python 資料去重

相關推薦