爬蟲去重策略對比

阿新 • • 發佈：2019-01-20

去重策略

1）

使用scrapy自帶的set集合去重，當程式結束的時候會被清空，缺點：再次執行會導致資料重複。

2）

使用mysql做去重，對url地址進行md5，base64加密，加密之後會得到一串字元，判斷字串

是否在mysql表中，如果在表示已經爬取過了，如果不在，表示沒有爬取，執行請求，將加密後的url

地址存入表中。缺點：但是這個方法對mysql壓力過大，導致崩潰，不推薦

3）

使用scrapy_redis的去重策略,會將已經爬取的url地址經過編碼後存入redis,並且會做資料持久化,當爬蟲再次啟動時,會重新載入本地的資料,對爬蟲的url做去重。缺點：如果資料量較大的時候，會佔用較多的記憶體空間

4）

使用布隆去重,採用多重雜湊,將url地址對映到位陣列中的某個點上,空間和時間利用率更高(推薦)

如果想判斷一個元素是不是在一個集合裡，一般想到的是將所有元素儲存起來，然後通過比較確定。連結串列，樹等等資料結構都是這種思路. 但是隨著集合中元素的增加，我們需要的儲存空間越來越大，檢索速度也越來越慢。不過世界上還有一種叫作散列表（又叫雜湊表，Hash table）的資料結構。它可以通過一個Hash函式將一個元素對映成一個位陣列（Bit Array）中的一個點。這樣一來，我們只要看看這個點是不是 1 就知道可以集合中有沒有它了。這就是布隆過濾器的基本思想。Hash面臨的問題就是衝突。假設 Hash 函式是良好的，如果我們的位陣列長度為 m 個點，那麼如果我們想將衝突率降低到例如 1%, 這個散列表就只能容納 m/100 個元素。顯然這就不叫空間有效了（Space-efficient）。解決方法也簡單，就是使用多個 Hash，如果它們有一個說元素不在集合中，那肯定就不在。如果它們都說在，雖然也有一定可能性它們在說謊，不過直覺上判斷這種事情的概率是比較低的。

布隆去重的優點和缺點

優點

相比於其它的資料結構，布隆過濾器在空間和時間方面都有巨大的優勢。布隆過濾器儲存空間和插入/查詢時間都是常數。另外, Hash 函式相互之間沒有關係，方便由硬體並行實現。布隆過濾器不需要儲存元素本身，在某些對保密要求非常嚴格的場合有優勢

缺點

但是布隆過濾器的缺點和優點一樣明顯。誤算率（False Positive）是其中之一。隨著存入的元素數量增加，誤算率隨之增加。但是如果元素數量太少，則使用散列表足矣。

爬蟲去重策略對比

爬蟲去重策略對比

第四篇爬蟲去重策略,以及編碼問題

爬蟲去重策略

python爬蟲去重策略

邊學邊敲邊記之爬蟲系列(三)：url去重策略及實現

爬蟲的去重策略

網路爬蟲：URL去重策略之布隆過濾器(BloomFilter)的使用

scrapy 去重策略修改

RocketMQ學習筆記（14）----RocketMQ的去重策略

【應用演算法】資訊流-推薦系統的去重策略

JS 陣列去重，對比兩個陣列之間有相同的值或物件就刪除

關於python爬蟲去重問題

資料對比去重公共類

爬蟲資料去重

網路爬蟲過程中5種網頁去重方法簡要介紹

MYSQL 去重觸發器並且允許空值重複的策略

BloomFilter（大資料去重）+Redis（持久化）策略

python爬蟲url去重

使用scrapy-deltafetch實現爬蟲增量去重

List去重的三種方式及效率對比

爬蟲去重策略對比

相關推薦