python爬蟲入門---獲取某一網站所有超鏈接
阿新 • • 發佈:2019-02-07
獲取 req 服務 encoding fin cep int turn href
需要先安裝requests庫和bs4庫
import requests from bs4 import BeautifulSoup def getHTMLText(url): try: #獲取服務器的響應內容,並設置最大請求時間為6秒 res = requests.get(url, timeout = 6) #判斷返回狀態碼是否為200 res.raise_for_status() #設置真正的編碼 res.encoding = res.apparent_encoding #返回網頁HTML代碼 return res.text except: return ‘產生異常‘ #目標網頁 url = ‘https://www.cnblogs.com/huwt/‘ demo = getHTMLText(url) #解析HTML代碼 soup = BeautifulSoup(demo, ‘html.parser‘) #模糊搜索HTML代碼的所有<a>標簽 a_labels = soup.find_all(‘a‘) #獲取所有<a>標簽中的href對應的值,即超鏈接 for a in a_labels:print(a.get(‘href‘))
python爬蟲入門---獲取某一網站所有超鏈接