1. 程式人生 > >MongoDB + Robo 3T資料去重

MongoDB + Robo 3T資料去重

Robo 3T是MongoDB資料庫的視覺化介面軟體。  爬蟲時會因為某些原因,導致抓取的資料會有重複的。  除了在程式碼中處理去重,我們可以動動手指即可實現去重處理。  因此,我們可以指定欄位來去重。  只需在Robo 3T視覺化介面中輸入一下程式碼即可:

db.getCollection('資料表名稱').aggregate([{$group:{_id:{欄位名:'$欄位名'}, count:{$sum:1}, dups:{$addToSet: '$_id'}}},{$match:{count:{$gt:1}}}]).forEach(function(doc){doc.dups.shift();db.getCollection('資料表名稱').remove({_id: {$in: doc.dups}});})

下面執行程式碼,即可實現資料去重。