python訪問網頁返回503錯誤
阿新 • • 發佈:2019-01-22
Traceback (most recent call last):
File "test.py", line 30, in <module>
gethtml()
File "test.py", line 13, in scanurl
src = urllib2.urlopen(url).read()
File "/usr/lib/python2.6/urllib2.py", line 126, in urlopen
return _opener.open(url, data, timeout)
File "/usr/lib/python2.6/urllib2.py", line 397, in open
response = meth(req, response)
File "/usr/lib/python2.6/urllib2.py", line 510, in http_response
'http', request, response, code, msg, hdrs)
File "/usr/lib/python2.6/urllib2.py", line 435, in error
return self._call_chain(*args)
File "/usr/lib/python2.6/urllib2.py", line 369, in _call_chain
result = func(*args)
File "/usr/lib/python2.6/urllib2.py", line 518, in http_error_default
raise HTTPError(req.get_full_url(), code, msg, hdrs, fp)
urllib2.HTTPError: HTTP Error 503: Service Temporarily Unavailable
1、若瀏覽器能開啟響應網頁,則是你的訪問頭header有問題,修改header或者採用我這一篇文章的方法(python獲取代理(終極版本)),多個header隨即使用2、若瀏覽器也打不開,則一般會有兩種可能,第一種是對方伺服器被動式拒絕服務,比如對方伺服器癱瘓,網路問題等,一般很快會被修復。第二種主動式拒絕服務,有可能是因為你短時間內多次訪問伺服器(一般爬蟲會遇到這個問題),這種情況就要看對方伺服器的拉黑時間,像我,之前被拉黑過12小時的。
最後說一句:時代在進步,爬蟲最少也要用個代理,不要裸奔,這樣很容易被“捉姦在床”的啦....