1. 程式人生 > >java給爬蟲設定User-Agent(繞過最表面的反爬蟲機制)

java給爬蟲設定User-Agent(繞過最表面的反爬蟲機制)

今天在爬my電影評分時發現訪問被控制,但瀏覽器依舊能訪問,查閱後得知因為java程式與瀏覽器訪問不同,一些採取了簡單採反爬蟲機制的網站可以拒絕這些小爬蟲的訪問。my電影也用了不少反爬蟲策略,比如說票房、評分人數都轉換了編碼讓你不好直接爬取,但我目前不需要那一部分。

在給java程式設定了User-Agent後便能進行爬取(想要爬取的放慢點速度吧。。雙方互相都體諒一下)

URL realUrl=new URL(url);
//初始化一個連結到那個url的連線

URLConnection connection=realUrl.openConnection();

//設定User-Agent 加上下面這句後便可進行爬取

connection.setRequestProperty("User-Agent","Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
//開始實際的連線
connection.connect();