1. 程式人生 > 資料庫 >MongoDB自動刪除過期資料的方法(TTL索引)

MongoDB自動刪除過期資料的方法(TTL索引)

前序:

最近由於公司業務需求,對於3個月前的過期資料需要進行刪除動作,以釋放空間和方便維護

本來想的是使用crontab寫個指令碼定時執行,但是看到Mongo本身就有自動刪除過期資料的功能,所以還是用一下吧

這個方法就是使用TTL索引,後續我再寫一個指令碼定時刪除的任務,關於TTL索引的更多使用例項,大家可以參考學習這篇文章:https://www.jb51.net/article/126810.htm

介紹:

TTL索引是MongoDB中一種特殊的索引, 可以支援文件在一定時間之後自動過期刪除,目前TTL索引只能在單欄位上建立,並且欄位型別必須是date型別或者包含有date型別的陣列(如果陣列中包含多個date型別欄位,則取最早時間為過期時間)

官網介紹連結:https://docs.mongodb.com/v3.2/core/index-ttl/

機制:

當你在集合中某一個欄位建立TTL索引後,後臺會有一個單執行緒,通過不斷查詢(預設60s一次)索引的值來判斷document是否有過期,並且刪除文件的動作還依據mongod例項的負載情況,如果負載很高,可能會稍微延後一段時間再刪除。

還有一個需要注意的地方,在複製整合員中,TTL後臺執行緒只刪除primary的過期資料,如果此例項變為secondary角色,則後臺執行緒閒置

建立TTL索引方法:

和普通索引的建立方法一樣,只是會多加一個屬性而已

例:在log_events的集合中,createTime 欄位上建立一小時後過期的TTL索引

 >db.log_events.createIndex( { "createTime": 1 },---欄位名稱 
    { expireAfterSeconds: 60*60 } ) ---過期時間(單位秒)
>db.log_events.getIndexes() ---檢視索引
[
 {
  "v" : 1,"key" : {
   "_id" : 1
  },"name" : "_id_","ns" : "tt.t1"
 },{
  "v" : 1,"key" : {
   "createTime" : 1
  },"name" : "createTime_1","ns" : "tt.t1","expireAfterSeconds" : 3600
 }
]

修改TTL索引的expireAfterSeconds屬性值:

注:如果想更改過期時間expireAfterSeconds,可以使用collMod方法,要不然你只能只用dropIndex(),createIndex()方法重建索引了,我想這樣的方法在億級資料量下是很頭疼的

db.runCommand( { collMod: "log_events",---集合名
  index: { keyPattern: { createTime: 1 },---createTime為具有TTL索引的欄位名
    expireAfterSeconds: 7200  ---修改後的過期時間(秒)
   }})

雖然上面的方法可以實現自動過期刪除,但是如果白天業務很忙,頻繁的刪除資料勢必會增加負載,所以我想著晚上定時刪除過期資料(如果晚上業務量少的話)

方法如下:

增加一個expireTime欄位(用於指定過期時間),expireAfterSeconds屬性值設定為0,

注:上面的createTime欄位就不需要再有TTL索引了,這個expireTime的時間就需要在插入時指定上

>db.log_events.createIndex( { "expireTime": 1 },---欄位名稱
    { expireAfterSeconds: 0 } ) ---過期時間(單位秒)
>db.log_events.insert( {
 "expireTime": new Date('Jan 22,2016 23:00:00'),---此文件將在2016-1-22的23點自動刪除
 "logEvent": 2,"logMessage": "Success!"} )

這樣我們就實現了,指定時間自動刪除的動作了

限制條件:

有一下集中情況是無法使用TTL索引的

①TTL索引是單欄位索引,混合索引不支援TTL,並且也會忽略expireAfterSeconds屬性

②在_id 主鍵上不能建立TTL索引

③在capped collection中不能建立TTL索引,因為MongoDB不能從capped collection中刪除文件

④你不能使用createIndex()去更改已經存在的TTL索引的expireAfterSeconds值,如果想更改expireAfterSeconds,可以使用collMod命令,否則你只能刪除索引,然後重建了

⑤你不能在已有索引的欄位上再建立TTL索引了,如果你想把非TTL索引改為TTL索引,那就只能刪除重建索引了

驗證:

雖然已經實現了晚上集中自動刪除的功能,但是還是擔心刪除過大數量時負荷問題,隨進行了簡單測試,一檢視TTL索引在億級別集合中刪除140萬過期資料的消耗

測試配置:

OS:Vm虛擬機器
CPU: 4
記憶體:8

集合資料量:

> db.t1.count()
104273617

因為我製造測試資料時,_id是順序增加的,所以我直接檢視_id=1500000的那筆資料的createTime,然後自己計算一下此createTime和當前時間的時間差,隨後根據這個時間差來更改expireAfterSeconds的值,以讓這150萬資料5分鐘後過期並刪除。

在修改完expireAfterSeconds後,就嚴密延時“vmstat 1 ” 命令的輸出資料;

我的測試結果:

刪除操作整個過程在90秒左右完成;

CPU最高佔用90%,平均在50%

記憶體佔用3G

這個也是特別準確的模擬情況,只是粗略的瞭解一下TTL索引的資源消耗,以決定是不是需要這樣的方式來實現刪除過期資料

監控vmstat的截圖:

總結

以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,如果有疑問大家可以留言交流,謝謝大家對我們的支援。