【Python爬蟲實戰】為何如此痴迷Python？還不是因為愛看小姐姐圖

阿新 • • 發佈：2021-07-28

爬取目標

網址:絕對領域

工具使用

開發環境：win10、python3.7
開發工具：pycharm、Chrome
工具包：requests，lxml

專案思路解析

選取你對應的圖片分類

根據分類資訊提取到沒有圖片的超連結，提取出A標籤的跳轉地址以及圖片的標題名字

def get_url(start_url):
    response = requests.get(start_url, headers=headers).text
    data = etree.HTML(response)
    new_url = data.xpath('//div[@class="post-module-thumb"]/a/@href')
    for url in new_url:
        yield url
複製程式碼

進入詳情頁面，xpath提取詳情頁面所有的圖片地址：

傳送圖片資料請求，儲存對應圖片資料資訊，就可以啦~~是不是超級簡單嘿嘿~~(*╹▽╹*)

簡易原始碼分享

import requests
from lxml import etree

headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36"
}


def get_url(start_url):
    response = requests.get(start_url, headers=headers).text
    data  
= etree.HTML(response)
    new_url = data.xpath('//div[@class="post-module-thumb"]/a/@href')
    for url in new_url:
        yield url


def get_img(url):
    response = requests.get(url, headers=headers).text
    img_data = etree.HTML(response)
    img_url = img_data.xpath('//div[@class="entry-content"]/img/@src 
')
    for img_url in img_url:
        name = img_url.split("/")[-2] + img_url.split("/")[-1]
        result = requests.get(img_url).content
        with open("圖片/" + name, "wb")as f:
            f.write(result)
            print("正在下載", name)


if __name__ == '__main__':
    for i in range(1, 3):
        start_url = "https://www.jdlingyu.com/tuji/hentai/gctt/page/{}".format(i)
        html_url = get_url(start_url)
        for url in html_url:
            get_img(url)

我是南鶴-，一名喜歡分享知識的程式媛❤️

如果沒有接觸過程式設計這塊的朋友看到這篇部落格，發現不會弄，可以直接留言【非常感謝你的點贊、收藏、關注、評論，一鍵四連支援】

每日分享，喜歡的看標題和多多點贊收藏加關注~~蟹蟹

【Python爬蟲實戰】為何如此痴迷Python？還不是因為愛看小姐姐圖

爬取目標網址:絕對領域工具使用開發環境：win10、python3.7 開發工具：pycharm、Chrome

【python爬蟲實戰】使用Selenium webdriver採集山東招考資料

目錄 1、目標 2、Selenium webdriver說明 2.1 為什麼使用webdriver 2.2 webdriver支援瀏覽器 2.3 配置與使用說明

【Python爬蟲】尺度太大了！爬一個專門看小姐姐的網站，寫一段緊張刺激的程式碼（附原始碼）

前言今天我們通過Python爬取小姐姐圖片網站上的美圖，零基礎學會通用爬蟲，當然我們還可以實現多執行緒爬蟲，加快爬蟲速度

Python爬蟲實戰，DecryptLogin模組，Python模擬登入之生成QQ個人專屬報告

前言這次我們藉助自己開源的DecryptLogin庫做一件有趣的事，生成QQ個人專屬報告。

Python爬蟲實戰，DecryptLogin模組，Python模擬登入實現載B站指定UP主的所有視訊

前言下載B站上指定的UP主所上傳的所有視訊。廢話不多說，讓我們愉快地開始吧~

Python爬蟲實戰，argparse模組，Python模擬登入爬取網易雲個人聽歌排行榜

前言那麼今天我們就來爬一波網抑雲個人聽歌排行榜吧。讓我們愉快地開始吧~

Python爬蟲實戰，requests模組，Python模擬登入實現拉勾網資料解析

前言今天給大家帶來的是拉勾網模擬登入，讓我們愉快地開始吧~ 開發工具 ** Python版本：**3.6.4

Python爬蟲實戰，DecryptLogin模組，Python模擬登入實現網易雲音樂自動簽到

前言：之前在逛一些貼吧論壇上經常看到類似於\"跪求xxx網站自動簽到的指令碼\"這樣的貼子，這麼說來這玩意市場需求量還是挺大的樣子。這一次我們不會採用網上爛大街的selenium作為我們的自動簽到解決方案。話不多說

Python爬蟲實戰，DecryptLogin模組，Python模擬登入微博實現抓取數不完的表情包儲存本地

前言：前段時間爬取的知乎表情包用完了嗎？今天再帶大家去微博爬一波表情包吧。廢話不多說，讓我們愉快地開始吧~

Python爬蟲實戰，requests模組，Python爬取網易雲歌曲並儲存本地

前言今天給大家簡單演示的爬取了一下某易雲歌曲的排行榜資訊,最後將音樂儲存到本地

Python爬蟲案例教學演示：爬取“絕對領域”二次元小姐姐圖片

Python爬蟲、資料分析、網站開發等案例教程視訊免費線上觀看 https://space.bilibili.com/523606542

【Python爬蟲筆記】一、驗證碼識別

技術標籤：【Python】一、OCR技術 OCR（Optical Character Recognition，光學字元識別）是指電子裝置（例如掃描器或數碼相機）檢查紙上列印的字元，通過檢測暗、亮的模式確定其形狀，然後用字元識別方法將形狀

【Python爬蟲錯誤】'scrapyd-deploy' 不是內部或外部命令，也不是可執行的程式或批處理檔案

【問題描述】在編寫好 python 爬蟲程式，準備部署到雲伺服器上時，遇到一個問題。

【網路爬蟲學習】Python 爬蟲初步

前言網路爬蟲又稱網路蜘蛛、網路機器人，它是一種按照一定的規則自動瀏覽、檢索網頁資訊的程式或者指令碼。網路爬蟲能夠自動請求網頁，並將所需要的資料抓取下來。通過對抓取的資料進行處理，從而提取出有價值的資

【網路爬蟲學習】第一個Python爬蟲程式 & 編碼與解碼詳解 & Pythonの實現

本節編寫一個最簡單的爬蟲程式，作為學習 Python 爬蟲前的開胃小菜。下面使用 Python 內建的 urllib 庫獲取網頁的 html 資訊。注意，urllib 庫屬於 Python 的標準庫模組，無須單獨安裝，它是 Python 爬蟲的常用模組

【網路爬蟲學習】實戰，爬取網頁以及貼吧資料

實戰一抓取您想要的網頁，並將其儲存至本地計算機。首先我們對要編寫的爬蟲程式進行簡單地分析，該程式可分為以下三個部分：

【機器學習實戰】第六章－－支援向量機

1 import numpy as np 2 import os 3 4 5 class optStruct: 6# 建立一個數據結構來儲存所有重要的值，僅包含__init__方法，該方法可以實現其成員變數的填充

Python爬蟲實戰：爬取美團美食資料

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

Python爬蟲實戰：爬取淘女郎照片

本篇目標抓取淘寶MM的姓名，頭像，年齡抓取每一個MM的資料簡介以及寫真圖片

Python爬蟲實戰演示：破解驗證碼識別和彈窗處理

前言在我們寫爬蟲的過程中，目標網站常見的干擾手段就是設定驗證碼等，本就將基於Selenium實戰講解如何處理彈窗和驗證碼，爬取的目標網站為某儀器預約平臺