1. 程式人生 > >java爬蟲 狀態=503 解決方法

java爬蟲 狀態=503 解決方法

基本的 狀態碼為400-415的為客戶端錯誤 

                          500-505為伺服器錯誤
  一般狀態碼返回503  是因為訪問的伺服器過載  也有可能是伺服器處於維護狀態

通過瀏覽器可以訪問到的網頁 而通過爬蟲 就返回狀態503的一般訪問過快導致是伺服器過載  也就是過一會還可以接著訪問改網頁

但是頻繁執行爬蟲感覺不是特別方便  所以就可以通過Thread.sleep()方法 來讓程式碼休息一定的時間再去訪問改網頁

通過try catch來解決

while (true) {// 直到伺服器反應過來 再接著訪問 處於過載狀態 程式碼接著休息
    Document document = null; 
    try {    
    	    document = Jsoup.connect(url).get();//獲取網站html內容
            //執行成功則接著訪問
            break;
    	} catch (Exception e) {
	    System.out.println("伺服器過載,休息10秒!");
	    Thread.sleep(10000);
	    //結束本次迴圈
	    continue;
    }
}

相關推薦

java爬蟲 狀態=503 解決方法

基本的 狀態碼為400-415的為客戶端錯誤                            500-505為伺服器錯誤   一般狀態碼返回503  是因為訪問的伺服器過載  也有可能是伺服器處於維護狀態 通過瀏覽器可以訪問到的網頁 而通過爬蟲 就返回狀態503的一

Maven打包時出現“Show Console View”錯誤彈出框,錯誤詳情為“An internal error has occurred. java.lang.NullPointerException”的解決方法

開開 exceptio 技術 point org ali ava src cor 今天為項目打包時出現了下面的錯誤提示: 打開Details裏面寫的是“An internal error has occurred. java.lang.NullPointerExcepti

NGINX反向代理對HTML頁面的POST請求返回405狀態解決方法

nginx html post 405 http 實現如下:server { listen 80; listen 443 ssl; server_name nirvana.test-a.gogen; ssl_certificate /etc/ng

java.lang.ClassNotFoundException的解決方法

app plugin -i ear date 應用 img upload 報錯 出現這個問題的原因可能很多,但是最終原因都是部署的項目文件中沒有這個類包。 那麽出錯的點在哪呢?逐一排除! 1.首先在項目文件中沒有添加相應的jar包,可以在maven dependen

Android Studio遇到的錯誤:java.lang.NullPointerException及解決方法

使用Android Studio,執行Textview.settext時遇到的誤:java.lang.NullPointerException,空指標異常,如下: Caused by: java.lang.NullPointerException

Eclipse啟動報錯:A Java Runtime Environment (JRE) 解決方法

  解決方法:   系統變數裡設定下面:   變數名:JAVA_HOME  變數值:D:\Java\jdk1.8.0_31   變數名:CLASSPATH  變數值:.;%JAVA_HOME%\lib;   變數名:Path       變數值:D:

python爬蟲中文亂碼解決方法

python爬蟲中文亂碼 前幾天用python來爬取全國行政區劃編碼的時候,遇到了中文亂碼的問題,折騰了一會兒,才解決。現特記錄一下,方便以後檢視。 我是用python的requests和bs4庫來實現爬蟲,這兩個庫的簡單用法可參照python爬取噹噹網的書籍資訊並儲存到csv檔案 亂碼未處理前部分程式碼

eclipse報錯:[Click the icon to add star.] Internal Error: java.lang.NullPointerException -----錯誤解決方法

linux系統下,eclipse出現以下報錯 [Click the icon to add star.] Internal Error: java.lang.NullPointerException的解決辦法 1、首先關閉MyEclipse工作空間。 2、然後刪除工作空間下的

Caused by: java.lang.ClassNotFoundException: HttpServletRequest解決方法

專案啟動報錯,沒有匯入HttpServletRequest的jar包,右擊專案名-》build path—》configure build path—》add libraries  —》Server Runtime—》 Apache Tomcatv8.5

Property 'gid' not found on type java.lang.String問題解決方法

問題:在用ssm框架中,多表查詢時(單表查詢), 顯示頁面出現了此問題:Property ‘gid’ not found on type java.lang.String 原因分析:此問題表明純屬是jsp頁面的問題,主要出現在頁面遍歷後臺資料的地方 解決方法:例如這個: 首先檢查f

DB2表空間狀態異常解決方法

在用DB2導資料的時候,為了恢復自增主鍵,進行備份和恢復時,因為錯誤使用了nonrecoverable這個關鍵字,導致資料庫表空間異常,說是備份時出現了問題。查了好多資料發現有個帖子不錯,特整理做筆記。 一、問題出現: 在資料庫做了一個load作業,末尾未加引數:nonrecoverable

loadrunner---壓力機 出現TIME_WAIT狀態解決方法

當執行結果出現如上圖的曲線,首先分析壓力機的CPU是否爆了,排除了壓力機本身的問題後。然後判斷是否是壓力機TCP/IP是否釋放,cmd輸入命令netstat -n 如果出現了大量的TIME_WA

Java包衝突常見解決方法

Java的好處之一是有大量的庫可供開發者使用,然而,這些庫通常都有較多版本,並且也往往會依賴其他的庫。 使用Maven或者其他構建工具時,經常需要將這些依賴打包成一個Jar包,或者自己的Jar包與其他的Jar包同時放到Classpath中。 這些時候,很容易就會產生一個常見

【SQL】資料庫變為\"SUSPECT\"狀態解決方法

sybase資料庫被標記為"SUSPECT",出現的現象為:Database 'xx'cannot be opened - it has been marked SUSPECT by recover Explanation$XX為你的資料庫名稱這是一個比較嚴重的錯誤,總結處理方式如下:(別分離,分離後無法附件

python 爬蟲禁止訪問解決方法(403)

在上一篇部落格中說到,程式使用一段時間後會遇到HTTP Error 403: Forbidden錯誤。 因為在短時間內直接使用Get獲取大量資料,會被伺服器認為在對它進行攻擊,所以拒絕我們的請求,自動把電腦IP封了。 解決這個問題有兩種方法。一是將請求加以包裝,變成瀏覽器請求

Android Studio建立新專案一直處於building狀態解決方法

一般我們在新安裝完Android Studio並建立專案時或者開啟下載的某個專案時會出現如下圖的介面,且一直處於這個狀態好長時間都這個樣子,驗證影響開發,這主要是建立的專案或者載入的專案需要的gradle本地沒有,需要下載,由於網路原因一直處於下載狀態。至於為什麼是網路原因

爬蟲之簡單反爬蟲措施和解決方法

0x01 常見的反爬蟲   這幾天在爬一個網站,網站做了很多反爬蟲工作,爬起來有些艱難,花了一些時間才繞過反爬蟲。在這裡把我寫爬蟲以來遇到的各種反爬蟲策略和應對的方法總結一下。   從功能上來講,爬蟲一般分為資料採集,處理,儲存三個部分。這裡我們只討論資料採集部分。  

正則表示式二次Matcher.find時 java.lang.StackOverflowError的解決方法

在最近一個java專案中使用了正則表示式,抓取網頁中的內容,明明很正確的正則表示式,但在Matcher.find時報錯了: public static List<String> findStrs(String regx,String sourceSt

記憶體溢位(java.lang.OutOfMemoryError )解決方法

把公司的專案下載下來 執行 但是專案太大了 導致記憶體溢位  如下: 可以解決的幾種方法! 1 檢視記憶體:workspace/.metadata/.plugins/org.ecl

TIME_WAIT狀態解決方法

tcp_tw_recycle和tcp_timestamps】 參考官方文件(http://www.kernel.org/doc/Documentation/networking/ip-sysctl.txt),tcp_tw_recycle解釋如下: tcp_tw_recycle選項作用為:Enable fast