爬取關鍵詞相關圖片

阿新 • • 發佈：2020-12-20

需求

看到抖音上有人展示的一個小應用，輸入任意一個關鍵詞，自動儲存網路上的相關圖片。處於興趣，我也來試試。

工具

程式語言：Python
IDE：PyCharm

思路

要完成這個需求，第一想法就是藉助百度圖片先把相關圖片搜出來，然後用Python儲存頁面上的圖片。

實現

明確了思路後，就動手寫程式碼。

# -*- coding:utf-8 -*-
import re
import requests
import os


def download_pic(html, keyword):
    pic_url = re.findall('"objURL":"(.*?)",', html, re.S)
    i = 1
    print('找到關鍵詞:' + keyword + '的圖片，現在開始下載圖片...')
    file_path = 'F:/images/' + keyword
    if os.path.exists(file_path):
        print()
    else:
        os.mkdir(file_path)
    for each in pic_url:
        print('正在下載第' + str(i) + '張圖片，圖片地址:' + str(each))
        try:
            pic = requests.get(each, timeout=5)
        except requests.exceptions.ConnectionError:
            print('【錯誤】當前圖片無法下載')
            continue
        pic_dir = 'F:/images/' + keyword + '/' + keyword + '_' + str(i) + '.jpg'
        fp = open(pic_dir, 'wb')
        fp.write(pic.content)
        fp.close()
        i += 1


if __name__ == '__main__':
    word = input("請輸入關鍵詞: ")
    url = 'http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=' + word + '&ct=201326592&v=flip'
    result = requests.get(url)
    download_pic(result.text, word)

問題及解決方法

問題：控制檯報如下錯誤

Traceback (most recent call last):
  File "F:\Python_Projects\WordCloudTest\GrabPics\Demo1.py", line 39, in <module>
    result = requests.get(url)
  File "F:\Python_Projects\WordCloudTest\venv\lib\site-packages\requests\api.py", line 76, in get
    return request('get', url, params=params, **kwargs)
  File "F:\Python_Projects\WordCloudTest\venv\lib\site-packages\requests\api.py", line 61, in request
    return session.request(method=method, url=url, **kwargs)
  File "F:\Python_Projects\WordCloudTest\venv\lib\site-packages\requests\sessions.py", line 542, in request
    resp = self.send(prep, **send_kwargs)
  File "F:\Python_Projects\WordCloudTest\venv\lib\site-packages\requests\sessions.py", line 677, in send
    history = [resp for resp in gen]
  File "F:\Python_Projects\WordCloudTest\venv\lib\site-packages\requests\sessions.py", line 677, in <listcomp>
    history = [resp for resp in gen]
  File "F:\Python_Projects\WordCloudTest\venv\lib\site-packages\requests\sessions.py", line 166, in resolve_redirects
    raise TooManyRedirects('Exceeded {} redirects.'.format(self.max_redirects), response=resp)
requests.exceptions.TooManyRedirects: Exceeded 30 redirects.

解決方法：定義headers

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) '
                      'Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3760.400 QQBrowser/10.5.4083.400',
    }

完整程式碼

# -*- coding:utf-8 -*-
import re
import requests
import os


def download_pic(html, keyword):
    pic_url = re.findall('"objURL":"(.*?)",', html, re.S)
    i = 1
    print('找到關鍵詞:' + keyword + '的圖片，現在開始下載圖片...')
    file_path = 'F:/images/' + keyword
    if os.path.exists(file_path):
        print()
    else:
        os.mkdir(file_path)
    for each in pic_url:
        print('正在下載第' + str(i) + '張圖片，圖片地址:' + str(each))
        try:
            pic = requests.get(each, timeout=5)
        except requests.exceptions.ConnectionError:
            print('【錯誤】當前圖片無法下載')
            continue
        pic_dir = 'F:/images/' + keyword + '/' + keyword + '_' + str(i) + '.jpg'
        fp = open(pic_dir, 'wb')
        fp.write(pic.content)
        fp.close()
        i += 1


if __name__ == '__main__':
    word = input("請輸入關鍵詞: ")
    url = 'http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=' + word + '&ct=201326592&v=flip'

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) '
                      'Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3760.400 QQBrowser/10.5.4083.400',
    }
    result = requests.get(url, headers=headers)
    download_pic(result.text, word)

成果

執行程式，輸入關鍵詞“蘇州”，程式就會將爬取到的圖片存入指定路徑。
從下圖可以看到，有些圖片無法顯示。猜測原因可能是這些圖片的源地址已經失效，具體是為什麼暫時不明。

爬取關鍵詞相關圖片

需求看到抖音上有人展示的一個小應用，輸入任意一個關鍵詞，自動儲存網路上的相關圖片。處於興趣，我也來試試。

Python爬取知乎圖片程式碼實現解析

首先，需要獲取任意知乎的問題，只需要你輸入問題的ID，就可以獲取相關的頁面資訊，比如最重要的合計有多少人回答問題。

python協程gevent案例爬取鬥魚圖片過程解析

分析分析網站尋找需要的網址用谷歌瀏覽器摁F12開啟開發者工具，然後開啟鬥魚顏值分類的頁面，如圖：

python爬蟲-爬取百度圖片

python爬蟲-爬取百度圖片（轉） #!/usr/bin/python# coding=utf-8# 作者:Y0010026# 建立時間:2018/12/16 16:16# 檔案:spider_04.py# IDE:PyCharm# 爬取百度圖片（GET方式爬取Ajax資料）import urllib2url = \'http:/

Python爬取百度圖片

import urllib.request as urqt import urllib.parse as urps from urllib.parse import quote import requests

想要利用Python快速爬取整站圖片？速進（附完整程式碼）

本片博文為大家帶來的想要快速爬取整站圖片？速進（附完整程式碼）。很多人學習python，不知道從何學起。很多人學習python，掌握了基本語法過後，不知道在哪裡尋找案例上手。很多已經做案例的人，卻不知道如何

爬取百度圖片

import User_Agent#自己的編寫的請求頭 import requests import os from urllib importparse from time import time, sleep

爬取百度圖片Python指令碼

技術標籤：爬蟲正則表示式百度python 最近專案要求對黑煙進行檢測，在網上找其他博主要了一些資料集，自己也發現了一個可以爬取百度圖片的指令碼，在此分享給大家！！！不多說，下面直接上程式碼。

爬蟲實戰：批量爬取京東內衣圖片（自動爬取多頁，非一頁）

技術標籤：爬蟲爬蟲python 做下男生想做的事，爬取大量妹子內衣圖。作者：電氣-餘登武

Python批量爬取百度圖片 2021-01-25

技術標籤：pythonpython爬蟲最近在看人臉替換軟體因為涉及原視訊切換提取人臉的過程因此想到是否可以下載同一人物的不同人臉來進行代替原視訊的人臉切片這裡簡單科普一下人臉替換的原理： 1、對原視訊進行切

Python爬取小姐姐圖片（beautifulsoup法）

技術標籤：python爬蟲列表 Python有許多強大的庫用於爬蟲，如beautifulsoup、requests等，本文將以網站https://www.xiurenji.cc/XiuRen/為例（慎點！！），講解網路爬取圖片的一般步驟。為什麼選擇這個網站？其

竟然如此簡單！輸入明星名字就可以直接爬取高清圖片

聽說你在自己喜歡的明星桌布？比如李易峰，王一博，易烊千璽、王源、王俊凱，李現等。今天教你批量下載這些明星高清桌布****（文末有福利）

實戰爬取某網站圖片-Python

直接上程式碼 1 #!/usr/bin/python 2 # -*- coding: UTF-8 -*- 3 from bs4 import BeautifulSoup 4 import requests

python爬取知乎圖片

import reimport osimport timeimport randomimport requestsclass Zhihu_Photo():def __init__(self):self.path = \'C:\\desk\\download\' #儲存圖片的位置self.question_id = 425705916 #問題的id號self.offset =