1. 程式人生 > >python 爬取網頁的通用程式碼框架

python 爬取網頁的通用程式碼框架

爬取網頁的通用程式碼框架就是一組程式碼

它可以準確的 可靠的爬取網頁上的內容。

但是這樣的語句不是一定成立的,因為網路連線有風險。

常見的異常有:

而raise_for_status方法可以返回所引發的httperror異常。

爬取網頁的框架程式碼如下:

import requests
def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()  #如果狀態不是200 引發http error異常
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "產生異常"


if __name__ == "__main__":
    url = "http://www.baidu.com"
    print(getHTMLText(url))