1. 程式人生 > 其它 >Python爬蟲案例教學演示:爬取“絕對領域”二次元小姐姐圖片

Python爬蟲案例教學演示:爬取“絕對領域”二次元小姐姐圖片

Python爬蟲、資料分析、網站開發等案例教程視訊免費線上觀看

https://space.bilibili.com/523606542 

前言

今天帶大家採集一個二次元圖片網站, 裡面漂亮的小姐姐層出不窮,圖片的資料量也是比較大的, 來一睹為快吧! !

開發環境介紹:

python 3.6
pycharm
requests
parsel
os

爬蟲案例資料採集一般步驟:

  1. 找資料對應的連結地址

  2. 程式碼傳送地址的請求

  3. 資料解析<解析我們要的資料>

  4. 資料儲存(本地)

1. 首先第一步,找到對應的連結地址

因為是靜態網頁,所以資料很容易就找到了

#
url編碼: 中文在請求和響應的時候轉碼, http協議預設不支援中文, 由 % 字母 數字 request_address = f'https://www.jdlingyu.com/tag/%e5%b0%91%e5%a5%b3/page/{page}' # 代表瀏覽器身份標識 headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}

2. 程式碼傳送地址的請求

response = requests.get(url=request_address, headers=headers)
html_data 
= response.text # 字串 -- 正則 print(html_data)

請求一下,看看對不對

3. 資料解析<解析我們要的資料> html資料, xpath

selector = parsel.Selector(html_data)  # 轉換資料型別

lis = selector.xpath('//div[@id="post-list"]/ul/li')  # 所有相簿的標籤

for li in lis:  # 一個一個操作相簿標籤物件
    pic_title = li.xpath('.//h2/a/text()').get()  # 相簿標題
    pic_href = li.xpath('
.//h2/a/@href').get() # 相簿地址 print(pic_title, pic_href)

4. 儲存資料

with open(f'img\\{pic_title}\\{pic_name}', mode='wb') as f:
    f.write(img_data)
    print('儲存完成:', pic_name)

完整原始碼加Python學習交流群:1039649593找管理員免費獲取

執行完整程式碼