50行Python程式碼爬取黑絲美眉純欲高清圖

阿新 • • 發佈：2021-10-21

要說最美好的慾望莫過於看黑絲美眉。

一、技術路線

requests：網頁請求
BeautifulSoup：解析html網頁
re：正則表示式，提取html網頁資訊
os：儲存檔案

import re
import requests
import os
from bs4 import BeautifulSoup
複製程式碼

二、獲取網頁資訊

獲取網頁資訊的固定格式，返回的字串格式的網頁內容，其中headers引數可模擬人為的操作，‘欺騙’網站不被發現

def getHtml(url):  #固定格式，獲取html內容
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
    }  #模擬使用者操作
    try:
        r = requests.get(url, headers=headers)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        print('網路狀態錯誤')
複製程式碼

三、網頁爬取分析

右鍵單擊圖片區域，選擇審查元素,可以檢視當前網頁圖片詳情連結，我就滿心歡喜的複製連結開啟儲存，看看效果，結果一張圖片只有60幾kb，這就是縮圖啊，不清晰，果斷捨棄。。。

沒有辦法，只有點選找到詳情頁連結，再進行單獨爬取。

空白右鍵，檢視頁面原始碼，把剛剛複製的縮圖連結複製查詢快速定位，分析所有圖片詳情頁連結存在div標籤，並且class=‘list’ 唯一，因此可以使用BeautifulSoup提取此標籤。並且發現圖片詳情頁連結在herf=後面（同時我們注意到有部分無效連結也在div標籤中，觀察它們異同，發現無效連結存在'https'字樣，因此可在程式碼中依據此排出無效連結，對應第4條中的函式程式碼），只需提取出來再在前面加上網頁首頁連結即可開啟，並且右鍵圖片，‘審查元素’，複製連結下載的圖片接近1M，表示是高清圖片了，到這一步我們只需呼叫下載儲存函式即可儲存圖片

四、網頁詳情頁連結獲取

首要目標是將每頁的每個圖片的詳情頁連結給爬取下來，為後續的高清圖片爬取做準備，這裡直接使用定義函式def getUrlList(url)

def getUrlList(url):  # 獲取圖片連結
    url_list = []  #儲存每張圖片的url，用於後續內容爬取
    demo = getHtml(url)
    soup = BeautifulSoup(demo,'html.parser')
    sp = soup.find_all('div', class_="list") #class='list'在全文唯一，因此作為錨，獲取唯一的div標籤；注意，這裡的網頁原始碼是class，但是python為了和class（類）做區分，在最後面添加了_
    nls = re.findall(r'a href="(.*?)" rel="external nofollow"  rel="external nofollow" ', str(sp)) #用正則表示式提取連結
    for i in nls:
        if 'https' in i: #因所有無效連結中均含有'https'字串，因此直接剔除無效連結（對應第3條的分析）
            continue
        url_list.append('http://www.netbian.com' + i) #在獲取的連結中新增字首，形成完整的有效連結
    return url_list
複製程式碼

五、依據圖片連結儲存圖片

通過上面獲取了每個圖片的詳情頁連結後，開啟，右鍵圖片審查元素，複製連結即可快速定位，然後儲存圖片

def fillPic(url,page):
    pic_url = getUrlList(url) #呼叫函式，獲取當前頁的所有圖片詳情頁連結
    path = './美女'  # 儲存路徑
    for p in range(len(pic_url)):
        pic = getHtml(pic_url[p])
        soup = BeautifulSoup(pic, 'html.parser')
        psoup = soup.find('div', class_="pic") #class_="pic"作為錨，獲取唯一div標籤；注意，這裡的網頁原始碼是class，但是python為了和class（類）做區分，在最後面添加了_
        picUrl = re.findall(r'src="(.*?)"', str(psoup))[0] #利用正則表示式獲取詳情圖片連結，因為這裡返回的是列表形式，所以取第一個元素（只有一個元素，就不用遍歷的方式了）
        pic = requests.get(picUrl).content #開啟圖片連結，並以二進位制形式返回（圖片，聲音，視訊等要以二進位制形式開啟）
        image_name ='美女' + '第{}頁'.format(page) + str(p+1) + '.jpg' #給圖片預定名字
        image_path = path + '/' + image_name #定義圖片儲存的地址
        with open(image_path, 'wb') as f: #儲存圖片
            f.write(pic)
            print(image_name, '下載完畢！！！')
複製程式碼

六、main()函式

經過前面的主體框架搭建完畢之後，對整個程式做一個前置化，直接上程式碼

在這裡第1頁的連結是
www.netbian.com/meinv/

第2頁的連結是
www.netbian.com/meinv/index…

並且後續頁面是在第2頁的基礎上僅改變最後的數字，因此在寫程式碼的時候要注意區分第1頁和後續頁面的連結，分別做處理；同時在main()函式還增加了自定義爬取頁數的功能，詳見程式碼

def main():
    n = input('請輸入要爬取的頁數：')
    url = 'http://www.netbian.com/meinv/'  # 資源的首頁，可根據自己的需求檢視不同分類，自定義改變目錄，爬取相應資源
    if not os.path.exists('./美女'):  # 如果不存在，建立檔案目錄
        os.mkdir('./美女/')
    page = 1
    fillPic(url, page)  # 爬取第一頁，因為第1頁和後續頁的連結的區別，單獨處理第一頁的爬取
    if int(n) >= 2: #爬取第2頁之後的資源
        ls = list(range(2, 1 + int(n)))
        url = 'http://www.netbian.com/meinv/'
        for i in ls: #用遍歷的方法對輸入的需求爬取的頁面做分別爬取處理
            page = str(i)
            url_page = 'http://www.netbian.com/meinv/'
            url_page += 'index_' + page + '.htm' #獲取第2頁後的每頁的詳情連結
            fillPic(url, page) #呼叫fillPic()函式
複製程式碼

七、完整程式碼

最後再呼叫main()，輸入需要爬取的頁數，即可開始爬取，完整程式碼如下

import re
import requests
import os
from bs4 import BeautifulSoup

def getHtml(url):  #固定格式，獲取html內容
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
    }  #模擬使用者操作
    try:
        r = requests.get(url, headers=headers)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        print('網路狀態錯誤')

def getUrlList(url):  # 獲取圖片連結
    url_list = []  #儲存每張圖片的url，用於後續內容爬取
    demo = getHtml(url)
    soup = BeautifulSoup(demo,'html.parser')
    sp = soup.find_all('div', class_="list") #class='list'在全文唯一，因此作為錨，獲取唯一的div標籤；注意，這裡的網頁原始碼是class，但是python為了和class（類）做區分，在最後面添加了_
    nls = re.findall(r'a href="(.*?)" rel="external nofollow"  rel="external nofollow" ', str(sp)) #用正則表示式提取連結
    for i in nls:
        if 'https' in i: #因所有無效連結中均含有'https'字串，因此直接剔除無效連結（對應第3條的分析）
            continue
        url_list.append('http://www.netbian.com' + i) #在獲取的連結中新增字首，形成完整的有效連結
    return url_list

def fillPic(url,page):
    pic_url = getUrlList(url) #呼叫函式，獲取當前頁的所有圖片詳情頁連結
    path = './美女'  # 儲存路徑
    for p in range(len(pic_url)):
        pic = getHtml(pic_url[p])
        soup = BeautifulSoup(pic, 'html.parser')
        psoup = soup.find('div', class_="pic") #class_="pic"作為錨，獲取唯一div標籤；注意，這裡的網頁原始碼是class，但是python為了和class（類）做區分，在最後面添加了_
        picUrl = re.findall(r'src="(.*?)"', str(psoup))[0] #利用正則表示式獲取詳情圖片連結，因為這裡返回的是列表形式，所以取第一個元素（只有一個元素，就不用遍歷的方式了）
        pic = requests.get(picUrl).content #開啟圖片連結，並以二進位制形式返回（圖片，聲音，視訊等要以二進位制形式開啟）
        image_name ='美女' + '第{}頁'.format(page) + str(p+1) + '.jpg' #給圖片預定名字
        image_path = path + '/' + image_name #定義圖片儲存的地址
        with open(image_path, 'wb') as f: #儲存圖片
            f.write(pic)
            print(image_name, '下載完畢！！！')

def main():
    n = input('請輸入要爬取的頁數：')
    url = 'http://www.netbian.com/meinv/'  # 資源的首頁，可根據自己的需求檢視不同分類，自定義改變目錄，爬取相應資源
    if not os.path.exists('./美女'):  # 如果不存在，建立檔案目錄
        os.mkdir('./美女/')
    page = 1
    fillPic(url, page)  # 爬取第一頁，因為第1頁和後續頁的連結的區別，單獨處理第一頁的爬取
    if int(n) >= 2: #爬取第2頁之後的資源
        ls = list(range(2, 1 + int(n)))
        url = 'http://www.netbian.com/meinv/'
        for i in ls: #用遍歷的方法對輸入的需求爬取的頁面做分別爬取處理
            page = str(i)
            url_page = 'http://www.netbian.com/meinv/'
            url_page += 'index_' + page + '.htm' #獲取第2頁後的每頁的詳情連結
            fillPic(url_page, page) #呼叫fillPic()函式

main()
複製程式碼

①兼職交流，行業諮詢、大佬線上專業解答
②Python開發環境安裝教程
③Python400集自學視訊
④軟體開發常用詞彙
⑤Python學習路線圖
⑥3000多本Python電子書

如果你用得到的話可以直接拿走，點選領取。

到此這篇關於爬取網路黑絲美女高清圖片的文章就介紹到這，感謝觀看，希望給想學習的朋友有提供到作用，更多Python精彩內容可以看小編主頁。

50行Python程式碼爬取黑絲美眉純欲高清圖

一、技術路線

二、獲取網頁資訊

三、網頁爬取分析

四、網頁詳情頁連結獲取

五、依據圖片連結儲存圖片

六、main()函式

七、完整程式碼

50行Python程式碼爬取黑絲美眉純欲高清圖

50行Python程式碼實現視訊中物體顏色識別和跟蹤（必須以紅色為例）

哪吒票房一路飆升100行python程式碼抓取豆瓣短評

5 行 Python 程式碼！就能實現火爆全網的多型條形圖！

【Python爬蟲】入門級爬蟲案例，20行程式碼爬取網站圖片（附原始碼）

20行Python程式碼實現爬取起點小說

10行程式碼，Python實現爬取淘寶/天貓評論

Python爬蟲爬取煎蛋網圖片程式碼例項

Python selenium爬取微博資料程式碼例項

Python爬蟲爬取百度搜索內容程式碼例項

Python scrapy爬取小說程式碼案例詳解

Python selenium爬取微信公眾號文章程式碼詳解

想要利用Python快速爬取整站圖片？速進（附完整程式碼）

python爬取”頂點小說網“《純陽劍尊》的示例程式碼

Python爬蟲——爬取豆瓣top250完整程式碼

30行程式碼爬取英雄聯盟全英雄面板

python爬蟲爬取圖片的簡單程式碼

十行程式碼爬取多頁資料

python爬蟲爬取國家統計局2009年到2020年，統計用區劃和城鄉劃分程式碼（省市區/縣三級）並存入mysql資料庫

實操 | 從0到1教你用Python來爬取整站天氣網

50行Python程式碼爬取黑絲美眉純欲高清圖

一、技術路線

二、獲取網頁資訊

三、網頁爬取分析

四、網頁詳情頁連結獲取

五、依據圖片連結儲存圖片

六、main()函式

七、完整程式碼

相關推薦