Python爬蟲案例教學演示:爬取“絕對領域”二次元小姐姐圖片
阿新 • • 發佈:2021-07-21
Python爬蟲、資料分析、網站開發等案例教程視訊免費線上觀看
https://space.bilibili.com/523606542
前言
今天帶大家採集一個二次元圖片網站, 裡面漂亮的小姐姐層出不窮,圖片的資料量也是比較大的, 來一睹為快吧! !
開發環境介紹:
python 3.6
pycharm
requests
parsel
os
爬蟲案例資料採集一般步驟:
-
找資料對應的連結地址
-
程式碼傳送地址的請求
-
資料解析<解析我們要的資料>
-
資料儲存(本地)
1. 首先第一步,找到對應的連結地址
因為是靜態網頁,所以資料很容易就找到了
#url編碼: 中文在請求和響應的時候轉碼, http協議預設不支援中文, 由 % 字母 數字 request_address = f'https://www.jdlingyu.com/tag/%e5%b0%91%e5%a5%b3/page/{page}' # 代表瀏覽器身份標識 headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}
2. 程式碼傳送地址的請求
response = requests.get(url=request_address, headers=headers) html_data= response.text # 字串 -- 正則 print(html_data)
請求一下,看看對不對
3. 資料解析<解析我們要的資料> html資料, xpath
selector = parsel.Selector(html_data) # 轉換資料型別 lis = selector.xpath('//div[@id="post-list"]/ul/li') # 所有相簿的標籤 for li in lis: # 一個一個操作相簿標籤物件 pic_title = li.xpath('.//h2/a/text()').get() # 相簿標題 pic_href = li.xpath('.//h2/a/@href').get() # 相簿地址 print(pic_title, pic_href)
4. 儲存資料
with open(f'img\\{pic_title}\\{pic_name}', mode='wb') as f: f.write(img_data) print('儲存完成:', pic_name)