1. 程式人生 > >java演算法-網路爬蟲抓取網頁並儲存

java演算法-網路爬蟲抓取網頁並儲存

從一個URL中讀取網頁,如果是同一個網站的就儲存,URL裡面包含URL列表,繼續抓取,抓完全部
使用多執行緒

A執行緒讀取URL內容
B執行緒存檔案
C執行緒解析URL 發現新URL

從A執行緒讀取完的內容可以放到一個佇列裡面,B執行緒來讀取,C執行緒解析URL 

問題,如果這個佇列很大,記憶體不夠用,怎麼解決

(最開始想的辦法就是,佇列裡面儘量存小的內容,比如只存一個檔名)

面試官說 不管怎麼小,記憶體還是可能會 撐爆


我沒想出來,面試官給的答案是 控制速度,頓時豁然開朗

有時候就是跳不出自己的思想,很固化,歡迎大家評論,給出新的思路