爬蟲（3）-桌布族

阿新 • • 發佈：2022-03-19

# -*- coding: utf-8 -*-
"""
@Time    :  2022/3/19 16:31
@Author  : Andrew
@File    : 抓取優美相簿.py
"""
# 1.拿到主頁面的地址，獲取主頁面的原始碼
# 2.通過f12進行定位，在該區域尋找圖片，看是否需要進入子頁面提取
# 3.檢查發現，在本頁面已經發現了圖片的src，但是需要與https:拼接
# 4.下載圖片 將沒用的資料資料夾設為exclusion,這樣下載的時候就不會太卡（因為pycharm會設定索引）
import re
import time

from bs4 import BeautifulSoup
 
import requests

# imgs = []

for i in range(1, 3, 1):
    domain = "https://www.bizhizu.cn/"
    url = "https://www.bizhizu.cn/wallpaper/" + str(i) + ".html"
    resp = requests.get(url)
    resp.encoding = "utf-8"
    content = resp.text
    page = BeautifulSoup(resp.text, "html.parser")
    div = page.find(" 
div", attrs={"class": "imgcont"})
    lis = div.find_all("li")
    for li in lis:
        a = li.find_all("a")[1:]
        href = a[0].get("href")
        imageName = a[0].text
        # 獲取第二個子頁面，並轉bs4
        contentChild1 = requests.get(href)
        page2 = BeautifulSoup(contentChild1.text, "html.parser 
")
        # page裡面找class為text_con的p標籤
        p = page2.find("p", attrs={"class": "text_con"})
        # p裡面找class為xuButton的a標籤
        a = p.find("a", attrs={"class": "xuButton"})
        # 獲取a的href，並進行拼接
        href_2 = a.get("href")
        urlChild3 = domain+href_2
        # 獲取第三個子頁面原始碼
        contentChild3 = requests.get(urlChild3)
        page3 = BeautifulSoup(contentChild3.text, "html.parser")
        a_showImage = page3.find("a", attrs={"class": "menu s4", "id": "download_yt"})
        href3 = a_showImage.get("href")
        imgIsDownload = requests.get(href3)
        end = href3.split("/")[-1].split(".")[-1]
        # 圖片內容寫入檔案
        with open("./桌布族/"+imageName+"."+end, mode="wb") as f:
            f.write(imgIsDownload.content)
        time.sleep(1)
        print(href3, 'over!!')
    resp.close()
#這裡就是要看得懂網頁結構，網頁設計的有時候高清圖片的下載連結在當前頁面的某個子連結裡，需要不斷地requests.get獲取原始碼,再bs4的find或者find_all進行唯一性標籤定位，可能會重複多次，但套路一樣

搜尋

複製

爬蟲（3）-桌布族

# -*- coding: utf-8 -*- \"\"\" @Time:2022/3/19 16:31 @Author: Andrew @File: 抓取優美相簿.py \"\"\" # 1.拿到主頁面的地址，獲取主頁面的原始碼

爬蟲-request（3）

import requests # GET請求 r = requests.get(\'http://httpbin.org/get\') print(r.status_code, r.reason) print(\'GET請求\', r.text)

爬蟲學習（3）：獲取網站cookies

技術標籤：爬蟲python 先貼程式碼，還是以爬取CSDN的cookie為例子： import http.cookiejar,urllib.request#匯入要用到的cookiejar，request

向您生動地講解Spring AOP 原始碼（3）

前言往期文章： Spring IoC - Spring IoC 的設計 Spring IoC - IoC 容器初始化原始碼解析

小白學 Python 爬蟲（8）：網頁基礎

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝

2019年Java面試題基礎系列228道（3），查漏補缺！

2019年Java面試題基礎系列228道第一篇更新1~20題的答案解析 juejin.im/post/5de8c6… 第二篇更新21~50題答案解析

iOS MDM詳解（3）— 生成mobileconfig配置檔案及簽名

簡介配置描述檔案是一個用於安裝到裝置的XML格式的檔案，包含了相關的配置資訊。

Spring Security 技術棧開發企業級認證授權（3）

歡迎關注個人部落格，此文為《Spring Security 技術棧開發企業級認證授權（2）》的後續

Redis專題（3）：鎖的基本概念到Redis分散式鎖實現

拓展閱讀：Redis閒談（1）：構建知識圖譜 Redis專題(2)：Redis資料結構底層探祕近來，分散式的問題被廣泛提及，比如分散式事務、分散式框架、ZooKeeper、SpringCloud等等。本文先回顧鎖的概念，再介紹分散式鎖，以及

小白學 Python（3）：基礎資料型別（下）

人生苦短，我選Python 引言前文傳送門小白學 Python（1）：開篇小白學 Python（2）：基礎資料型別（上）

caddy（3）為 caddy 新增一個反向代理外掛

caddy-grpc 為 caddy 新增一個反向代理外掛專案地址：github.com/yhyddr/cadd… 前言上一次我們學習瞭如何在 Caddy 中擴充套件自己想要的外掛。部落格中只提供了大致框架。這一次，我們來根據具體外掛 caddy-g

Kettle 小記（2）-- Spoon的使用（3） -- 主物件樹和核心物件

2.4 主物件樹這裡有兩種選擇，即Transformation和Job。雙擊相應的圖示，就會立即建立一個轉換或者作業檔案，開啟工作區且該區域切換為核心物件，以方便你進行下面的設計工作。而主物件樹將以目錄樹的形式展示轉換

C#碼農學TypeScript（3）—— 變數宣告

不像C#這種強型別語言，JavaScript是一種弱型別語言，一個變數可以被賦值成各種型別的值。

使用者介面設計（3）- 窗體的主要方法

窗體的顯示與隱藏： Form2.Show;//顯示該窗體，是過程，程式碼會繼續往下執行 Form2.ShowModal{顯示該窗體，是函式，該窗體顯示時其他窗體不能進行任何操作。

使用者介面設計（3）- 窗體的控制

1、限制窗體的大小在設計窗體介面時有時會想讓窗體的大小隻限於一定的範圍內，窗體的constraints屬性可以用於控制窗體的大小。

【轉載】每天5分鐘用C#學習資料結構（3）單鏈表 Part 1

在上一篇中，我們學習了線性表最基礎的表現形式-順序表，但是其存在一定缺點：必須佔用一整塊事先分配好的儲存空間，在插入和刪除操作上需要移動大量元素（即操作不方便），於是不受固定儲存空間限制並且可以進行比較

快速體驗，學習lua(一種可嵌入c++,c#,android,object-c等並進行互調支援熱更新的指令碼)的入門除錯系列（3）

--這裡是註釋 --[[ 功能備註：lua快速體驗，學習，瞭解語法(除錯,類似try-catch) 建立時間：2020-6-27

Apache POI 操作Excel（3）-- Excel基礎

Excel基本組成首先在生成Excel前，我們需要了解Excel檔案的組織形式。一個Excel檔案稱為一個workbook，一個workerbook至少包含一個表單（sheet），一個表單有多個行（row），多個列（Column），行（row）列（Column

寫出下面各邏輯表示式的值。設a=3,b=4,c=5。寫出下面各邏輯表示式的值。設a=3,b=4,c=5。（1）a + b > c && b == c （2）a || b + c && b - c （3）!(a > b) && !c || 1 （4）!(x = a) && (y = b)

寫出下面各邏輯表示式的值。設a=3,b=4,c=5。（1）a + b > c && b == c （2）a || b + c && b - c

HotSpot的類模型（3）

上一篇 HotSpot的類模型（2）介紹了類模型的基礎類Klass的重要屬性及方法，這一篇介紹一下InstanceKlass及InstanceKlass的子類。

爬蟲（3）-桌布族

相關推薦