python爬蟲:爬取某牙直播小姐姐圖片,我的雙手已經按捺不住了
阿新 • • 發佈:2020-12-23
本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理
( 想要學習Python?Python學習交流群:1039649593,滿足你的需求,資料都已經上傳群檔案流,可以自行下載!還有海量最新2020python學習資料。 )
一、前言
某牙平臺,直播界的先驅,有很多主播會把一些自己的直播精彩圖片上傳作為桌布,今天我們就把這些小姐姐圖片全部爬取下來。
二、爬蟲案例一般步驟(思路):
1.使用python建立一個資料夾
2.模擬瀏覽器
3.使用requests去進行http請求,並且拿到網頁原始資料
4.對原始資料進行篩選
5.下載
三、所用到得庫
eimport os#下載包 import urllib.request#爬蟲庫 import requests#網頁選擇器 from bs4 import BeautifulSoup
1.使用python建立一個資料夾
# 1. if not os.path.exists('./虎牙主播圖片/'): os.mkdir('./虎牙主播圖片/‘)
建立一個資料夾方便儲存爬取下來的圖片。
2.模擬瀏覽器
搜尋某牙網頁按F12找到network,再下面隨便找一個連結,再找到User-Agent,全部複製下來,如下圖所示
注意:複製下來之後在pycharm建立一個請求頭,當爬蟲程式向網站傳送請求時網站需要檢測當前請求是否為瀏覽器發出的。
headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36}
3.使用requests去進行http請求,並且拿到網頁原始資料
url = 'https://www.huya.com/g/2168' response = requests.get(url).text soup = BeautifulSoup(response, 'lxml')
還去到原視資料在進一步篩選
4.對原始資料進行篩選和下載
girls = soup.find_all('img', class_='pic') for girl in girls: girl_url = girl['data-original'].split('?')[0] girl_title = girl['title'] print(girl_url, girl_title)
爬取結果