python例項：爬取caoliu圖片，同時下載到指定的資料夾內

阿新 • • 發佈：2020-11-15

本指令碼主要實現爬取caoliu某圖片板塊，前3頁當天更新的帖子的所有圖片，同時把圖片下載到對應帖子名建立的資料夾中

爬蟲主要通過python xpath來實現，同時指令碼內包含，建立資料夾，分割資料，下載等操作

首先，我們分析下caoliu某圖片板塊的資源連結

貼子對應的頁面元素

展開元素，可以看到帖子的實際地址，所以我們第一步就是把地址都給扒下來

AA裡包含了caoliu某圖片板塊前3頁的地址，建立lit空集來收集爬取來的帖子地址

def stepa (AA):
    lit=[]
    for url in AA:
        response = requests.get(url=url, headers=headers, timeout=100000)
        wb_data  
= response.text.encode('iso-8859-1').decode('gbk')#caoliu的編碼格式需要對返回值重新轉碼
        # 將頁面轉換成文件樹
        html = etree.HTML(wb_data)
        a = html.xpath('//td[@class="tal"]//@href')#帖子地址xpath
        lit.append(a)
    return(lit) 
alllink = stepa(AA)
alllink=alllink[0]

執行後的結果

我們獲得帖子地址後，獲取的帖子地址如上圖，所以需要對地址進行處理，同時遮蔽掉站務貼

BB是需要遮蔽掉的站務貼集合，alllink是上一步驟獲取的圖貼集合，建立迴圈，從alllink集合裡每次取一個連結，if用於跳過賬務貼

def stepb(alllink,headers,BB):
    for url in alllink:
        #print(url)
        if "read"  in url:
            continue
        elif url in BB:
            continue
        else:
            url='https://cl.hexie.xyz/'+url
             
print(url)
            response = requests.get(url, headers=headers)
            response=response.text.encode('iso-8859-1').decode('gbk')
            html = etree.HTML(response)
            b = html.xpath('//div[@class="tpc_content do_not_catch"]//@ess-data')#圖片地址xpath
            title = html.xpath('/html/head/title/text()')#帖子名稱xpath
            title=title[0]
            title=title[:-27]#去掉帖子名稱後面共同的和影響建立資料夾的部分
            print(title)

因為獲取的連結”htm_data/2011/8/4182612.html“需要重新拼接

拼接步驟”url='https://cl.hexie.xyz/'+url“

後面的步驟就是訪問拼接好的url，獲取帖子內的圖片地址，我們分析下圖片資源的元素資訊

圖片地址存放在"tpc_content do_not_catch"class內，所以xpath可寫成”

//div[@class="tpc_content do_not_catch"]//@ess-data“

如此，圖片地址就獲取到了

接下來，就是通過地址，下載圖片資源到本地

建立資料夾參考：https://www.cnblogs.com/becks/p/13977943.html

下載圖片到本地參考：https://www.cnblogs.com/becks/p/13978612.html

附上整個指令碼

# -*-coding:utf8-*-
# encoding:utf-8
# 本指令碼用於爬取草榴圖片板塊（新時代的我們）最近3天的所有帖子的所有圖片，每一個帖子建立獨立的資料夾，圖片下載到資料夾中
import requests
from lxml import etree
import os
import sys
import re
import random
from urllib import request
import io

#sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding='utf8')
#解決vscode視窗輸出亂碼的問題，需要import io 和import sys

headers = {
    'authority': 'cl.hexie.xyz',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'sec-fetch-site': 'none',
    'sec-fetch-mode': 'navigate',
    'accept-language': 'zh-CN,zh;q=0.9',
    'cookie': '__cfduid=d9b8dda581516351a1d9d388362ac222c1603542964',
}    

path = os.path.abspath(os.path.dirname(sys.argv[0]))

AA=[
    "https://cl.和諧.xyz/thread0806.php?fid=8",
   #"https://cl.和諧.xyz/thread0806.php?fid=8&search=&page=2",
   #"https://cl.和諧.xyz/thread0806.php?fid=8&search=&page=3"
    ]

#AA裡包含最新前3頁列表連結

BB=["htm_data/1109/8/594739.html",
    "htm_data/1803/8/3018643.html",
    "htm_data/0706/8/36794.html",
    "htm_data/1106/8/524775.html",
    "htm_data/2011/8/344500.html"]

#BB裡面包含需要跳過的帖子，這部分帖子是站務貼，裡面沒資源

#第1步，獲取每一頁所有的帖子地址，地址格式“https://cl.和諧.xyz/htm_data/2011/8/4182841.html”
def stepa (AA):
    lit=[]
    for url in AA:
        response = requests.get(url=url, headers=headers, timeout=100000)
        wb_data = response.text.encode('iso-8859-1').decode('gbk')#草榴的編碼格式需要對返回值重新轉碼
        # 將頁面轉換成文件樹
        html = etree.HTML(wb_data)
        a = html.xpath('//td[@class="tal"]//@href')#帖子地址xpath
        lit.append(a)
    return(lit) 
alllink = stepa(AA)
alllink=alllink[0]

#第2步，獲取每一篇帖子裡所有圖片的地址，地址格式“https://和諧.xyz/i/2020/11/15/sedlrk.jpg"
def stepb(alllink,headers,BB):
    for url in alllink:
        #print(url)
        if "read"  in url:
            continue
        elif url in BB:
            continue
        else:
            url='https://cl.和諧.xyz/'+url
            print(url)
            response = requests.get(url, headers=headers)
            response=response.text.encode('iso-8859-1').decode('gbk')
            html = etree.HTML(response)
            b = html.xpath('//div[@class="tpc_content do_not_catch"]//@ess-data')#圖片地址xpath
            title = html.xpath('/html/head/title/text()')#帖子名稱xpath
            title=title[0]
            title=title[:-27]#去掉帖子名稱後面共同的和影響建立資料夾的部分
            print(title)

            path2 = r'D://tu' 
            os.mkdir(path2 + './'+str(title))
            #以上兩行即在d盤tu目錄下建立名稱為變數title的資料夾

            for c in b:
                print("loading"+" " +c)
                pic_name = random.randint(0,100)#圖片名稱隨機命令

                r = requests.get(c,stream=True,headers=headers)
                time = r.elapsed.total_seconds()#獲取響應時間
                if time > 1000:
                    continue
                else:
                    with open(path2 + './'+str(title) +'./'+str(pic_name) +'.jpg', 'wb') as fd:
                        for chunk in r.iter_content():
                            fd.write(chunk)
                #從87行開始即下載的指令碼，把圖片下載到上文建立的指定資料夾中

stepb(alllink,headers,BB)

#第3步：提示爬取完成
def over():
    print("ok")
over()

嘿嘿

python例項：爬取caoliu圖片，同時下載到指定的資料夾內

本指令碼主要實現爬取caoliu某圖片板塊，前3頁當天更新的帖子的所有圖片，同時把圖片下載到對應帖子名建立的資料夾中

Python爬蟲：爬取科技新聞，進而整理，產出資料分析

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

python爬蟲：爬取某牙直播小姐姐圖片，我的雙手已經按捺不住了

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

python分析：爬取《靈籠》這部國產動漫彈幕，分析詞雲！看看網友究竟在說啥？

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

python爬蟲：爬取窮遊網的地點資料，世界那麼大，我想去看看。

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python爬蟲，爬取網站圖片，詳細解釋（看完就會）

Xpath 解析圖片專案 # 指定url url = \'http://pic.netbian.com/4kyingshi/\' # UA偽裝 headers = { \'User-Agent\': \'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) \

Python吃喝玩樂：爬取全城按摩門店，看看有沒有你想去的！

兄弟們，我來了！今天整個好玩的，你們肯定喜歡~ 咱們上班累了，不得好好犒勞一下自己，是吧，於是我整了一手爬取附近洗jio的店子，浴皇大帝們，衝鴨！

Python爬蟲：爬取喜馬拉雅音訊資料詳解

前言喜馬拉雅是專業的音訊分享平臺，彙集了有聲小說,有聲讀物,有聲書,FM電臺,兒童睡前故事,相聲小品,鬼故事等數億條音訊，我最喜歡聽民間故事和德雲社相聲集，你呢？

python爬蟲：爬取某圖外賣資料有這篇文章就夠了

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python爬蟲：爬取無賬號無限制獲取企查查資訊

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python爬蟲進階：爬取梨視訊網站Top排行榜視訊資料

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python 爬蟲批量爬取網頁圖片儲存到本地的實現程式碼

其實和爬取普通資料本質一樣，不過我們直接爬取資料會直接返回，爬取圖片需要處理成二進位制資料儲存成圖片格式（.jpg,.png等）的資料文字。

爬蟲實戰：爬取相親網站，看看當下年輕小姐姐的擇偶觀。

技術標籤：爬蟲爬蟲python 前言到了一定年齡，父母可能會催你找女朋友，結婚。大多數的父母催婚，是父母漸漸老了，想讓你找個人照顧你，有熱飯吃，生病了有人照顧。在外面不被人欺負。當然，也有一部分來自周

python，下載圖片到本地自定資料夾內的方法

比如，我們需要下載下面這張圖，圖片的網路地址：”https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1605450278851&di=1e008cc52b92b9ff2e18935197035b67&imgtype=0&