PyMongo去除重複資料

阿新 • • 發佈：2020-07-16

轉載自:李冬琳的部落格 URL:http://ldllidonglin.github.io/blog/2015/12/14/2015-12-14-mongodb%E5%8E%BB%E9%99%A4%E9%87%8D%E5%A4%8D%E6%95%B0%E6%8D%AE/

1. 唯一索引

db.things.ensureIndex({'key' : 1}, {unique : true, dropDups : true})

　　但是dropDups is not supported by MongoDB 2.7.5 or newer所以這個方法只能在2.7.5版本以下才行

2.用aggreate找出重複的資料，然後再一個一個刪除(效率比較低)，python程式碼

#先找到重複的資料
deleteData=collection.aggregate([
{'$group': { 
    '_id': { 'firstField': "$area", 'secondField': "$time_point" }, 
    'uniqueIds': { '$addToSet': "$_id" },
    'count': { '$sum': 1 } 
  }}, 
  { '$match': { 
    'count': { '$gt': 1 } 
  }}
]);
first=True
for d in deleteData:
    first 
=True
    for did in d['uniqueIds']:
        if !first:    #第一個不刪除
            collection.delete_one({'_id':did});
        first=False

　　參考1
　　參考2

3. 第二種方法當資料量很大的時候，需要把資料寫入表中。aggregate的pipeline中要加上out項，同時由於aggregate只接受兩個引數，self是預設的，所以要用allowDiskUse=True這種形式新增引數

# 找出重複的放入result表中
def findDuplicate():
    deleteData 
=collection.aggregate([
        {'$group': {
            '_id': { 'firstField': "$mid", 'secondField': "$created_at" },
            'uniqueIds': { '$addToSet': "$_id" },
            'count': { '$sum': 1 }
            }
        },
        { '$match': {
            'count': { '$gt': 1 }
            }
        },{'$out':'result'}
    ],allowDiskUse=True); 

def deleteDup():
    deleteData=db.result.find()
    first=True
    for d in deleteData:
        first=True
        for did in d['uniqueIds']:
            if first==False:
                collection.delete_one({'_id':did});
            first=False

PyMongo去除重複資料

轉載自:李冬琳的部落格 URL:http://ldllidonglin.github.io/blog/2015/12/14/2015-12-14-mongodb%E5%8E%BB%E9%99%A4%E9%87%8D%E5%A4%8D%E6%95%B0%E6%8D%AE/

Django 解決distinct無法去除重複資料的問題

今天需要使用Django查詢一列的欄位（不含重複），搞了一上午，發現這樣的事情：如圖：

List 去除重複資料的 5 種正確姿勢！

以下介紹五種-不同的方法去除 Java 中ArrayList中的重複資料 1.使用LinkedHashSet刪除arraylist中的重複資料

使用group_concat()後去除重複資料

技術標籤：mysql 1.使用group_concat()未去除重複時語句 SELECT group_concat(s.driver_id SEPARATOR \',\' ) AS driverIds

java中List去除重複資料的5種方式總結

前言 List 是一個介面，它繼承於Collection的介面。它代表著有序的佇列。當我們討論List的時候，一般都和Set作比較。

List 去除重複資料的五種方式

1.使用LinkedHashSet刪除arraylist中的重複資料　　LinkedHashSet是在一個ArrayList刪除重複資料的最佳方法。LinkedHashSet在內部完成兩件事：

java List去除重複資料

1、使用LinkedHashSet刪除arraylist中的重複資料　　LinkedHashSet是在一個ArrayList刪除重複資料的最佳方法。LinkedHashSet在內部完成兩件事：

mysql優化小技巧之去除重複項實現方法分析【百萬級資料】

本文例項講述了mysql優化小技巧之去除重複項實現方法。分享給大家供大家參考，具體如下：

mysql 去除多個重複資料的sql語句（真實有效）

技術標籤：資料庫資料庫mysqlsql 問題描述： mysql某張表中存在多個重複資料，目的去重；

《python資料處理》去除重複行

技術標籤：python資料分析python 針對dataframe型別的資料，對重複行進行去除： import pandas as pd

9.使用pandas去除重複,空行,第一列表頭為空的資料行

# encoding:utf-8 import pandas as pd class OpenMyXLS(): def __init__(self, filepath): self.filepath = filepath

mysql查詢刪除表中重複資料方法總結

在資料庫表裡，我們有時候會儲存了很多重複的資料，這些重複的資料浪費資源，我們要將其刪除掉，應該怎麼處理呢？下面來看一下。

MySQL查詢重複資料（刪除重複資料保留id最小的一條為唯一資料）

開發背景：最近在做一個批量資料匯入到MySQL資料庫的功能，從批量匯入就可以知道，這樣的資料在插入資料庫之前是不會進行重複判斷的，因此只有在全部資料匯入進去以後在執行一條語句進行刪除，保證資料唯一性。

MySQL根據某一個或者多個欄位查詢重複資料的sql語句

sql 查出一張表中重複的所有記錄資料 1.表中有id和name 兩個欄位，查詢出name重複的所有資料

Mysql刪除重複資料保留最小的id 的解決方法

在網上查詢刪除重複資料保留id最小的資料，方法如下： DELETE FROM people WHERE peopleName IN (

JS陣列屬性去重並校驗重複資料

這篇文章主要介紹了JS陣列屬性去重並校驗重複資料,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

利用Pandas來清除重複資料的實現方法

一.前言最近剛好在練手一個數據挖掘的專案，眾所周知，資料探勘中比較重要的一步為資料清洗，而對重複資料的處理也是資料清洗中經常碰到的一項。本文將僅介紹如何利用Pandas來清除重複資料(主要指重複行)，話不多說

python列表返回重複資料的下標

這篇文章主要介紹了python列表返回重複資料的下標,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

MySQL處理重複資料的學習筆記

MySQL 處理重複資料有些 MySQL 資料表中可能存在重複的記錄，有些情況我們允許重複資料的存在，但有時候我們也需要刪除這些重複的資料。

python去除刪除資料中\u0000\u0001等unicode字串的程式碼

py檔案為utf-8格式 #!/usr/bin/env python # -*- coding:utf-8 -*- a = \"system\\u0000\" b = re.sub(u\'\\u0000\',\"\",a)