Python3爬蟲_爬取Find47網站風景圖片

阿新 • • 發佈：2021-10-30

Find47網站是展示日本47個縣的風景圖片,這個網站不用通過逆向,只要訪問網站的地址就可以獲取到對應的href 連結.

通過獲取對應url在請求獲得圖片壓縮包資料,儲存至本地.

準備工作:

在pycharm IDE裡安裝好所需的庫
pip install requests
pip install lxml

執行一下程式碼:

import os
import time
import random
import requests
from lxml import etree
class GetPic(object):
    def __init__(self,url,pic_size):
        self.url  
= url
        self.pic_size = pic_size
        self.headers = {}
        # User-Agent 池
        header_list = &#91;
            "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50"
            ,"Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50 
"
            ,"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"
            ,"Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1"
            ,"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56"
 
        ]
        self.headers 
&#91;"User-Agent"] = random.sample(header_list,1)&#91;0]
 
    def get_pic_url(self):
        # 獲取網站的圖片url
        count = 0
        # 建立一個空字典儲存圖片的名稱和 url短連線
        self.pic_name_dict = {}
        # 使用requests請求網頁連結 在利用etree物件分別獲取 獲取圖片名和url
        page_text = requests.get(url=self.url,headers=self.headers)
        tree = etree.HTML(page_text.text)
        pic_urls = tree.xpath("//ul&#91;@id='photos']//a/@href")
        print("以獲取圖片url數量:",len(pic_urls))
        # //*&#91;@id="photos"]/li&#91;1]/a/div/div&#91;1]
        pic_name = tree.xpath("//ul&#91;@id='photos']//div&#91;@class='detail']/div&#91;2]")
        for i in pic_urls:
            self.pic_name_dict&#91;pic_name&#91;count].text] = i.split("/")&#91;-1]
            count += 1
        return self.pic_name_dict
 
    def save_pic(self,pic_dict):
        # 儲存圖片至本地
 
        base_url = "https://search.find47.jp/"
        # xl尺寸的圖片url : https://search.find47.jp/ja/images/NzJVV/download/xl
        filepath = f"{os.path.dirname(__file__)}\\PICFILE"
        # 判斷資料夾是否存在 不存在則建立一個
        if not os.path.isdir(filepath):
            os.mkdir(filepath)
        # 遍歷字典 拼接下載連結 通過requests傳送請求獲取資料並儲存
        for k,v in pic_dict.items():
            with open(f'{filepath}\\{k}.zip','wb') as fp:
                data = requests.get(f"{base_url}/ja/images/{v}/download/{self.pic_size}").content
                fp.write(data)
                print(f"{k}.zip 圖片壓縮包下載完畢...")
                # 等待隨機時間在訪問
                time.sleep(random.randint(1,3))
 
    def run(self):
        # 執行函式
        try:
            pic_name_dict = self.get_pic_url()
            self.save_pic(pic_name_dict)
        except Exception as e:
            print("錯誤資訊",e)
if __name__ == '__main__':
    size_dict= {"S":"1280x960 px"
                ,"M":"1920x1440 px"
                ,"L":"3508x2631 px"
                ,"XL":"4608x3456 px"
                }
    url = input("請輸入網站連結:").strip()
    for k,v in size_dict.items():
        print(f"尺寸&#91; {k} ] :{v} 解析度")
    size = input("請輸入下載圖片的尺寸字母:").strip()
    if size.upper() in size_dict and "http" in url:
        print("準備獲取下載的圖片URL...")
        # 測試連結 https://search.find47.jp/ja/images?area=hokkaido
        get_pic = GetPic(url,size.lower())
        get_pic.run()
    else:
        print("字母或url錯誤,請重新輸入")

PS:需要注意的程式碼可以自行選擇下載圖片的解析度,但有些圖片是剛好沒有對應的尺寸從而儲存後的zip壓縮包會是空檔案.

本文來自部落格園，作者：Aitlo，轉載請註明原文連結：https://www.cnblogs.com/Aitlo/p/15487450.html

Python3爬蟲_爬取Find47網站風景圖片

Find47網站是展示日本47個縣的風景圖片,這個網站不用通過逆向,只要訪問網站的地址就可以獲取到對應的href 連結.

python爬蟲實現爬取同一個網站的多頁資料的例項講解

對於一個網站的圖片、文字音視訊等，如果我們一個個的下載，不僅浪費時間，而且很容易出錯。Python爬蟲幫助我們獲取需要的資料，這個資料是可以快速批量的獲取。本文小編帶領大家通過python爬蟲獲取獲取總頁數並更改

爬蟲學習：爬取一個網站的風景圖片

用Python爬取一個網站圖片先看看主頁的規律這是他的地址：https://pic.netbian.com/4kfengjing/

Java 爬蟲如何爬取需要登入的網站

這是 Java 網路爬蟲系列博文的第二篇，在上一篇 Java 網路爬蟲新手入門詳解中，我們簡單的學習了一下如何利用 Java 進行網路爬蟲。在這一篇中我們將簡單的聊一聊在網路爬蟲時，遇到需要登入的網站，我們該怎麼辦？

爬蟲實戰：爬取相親網站，看看當下年輕小姐姐的擇偶觀。

技術標籤：爬蟲爬蟲python 前言到了一定年齡，父母可能會催你找女朋友，結婚。大多數的父母催婚，是父母漸漸老了，想讓你找個人照顧你，有熱飯吃，生病了有人照顧。在外面不被人欺負。當然，也有一部分來自周

Python爬蟲，爬取網站圖片，詳細解釋（看完就會）

Xpath 解析圖片專案 # 指定url url = \'http://pic.netbian.com/4kyingshi/\' # UA偽裝 headers = { \'User-Agent\': \'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) \