python爬取知乎圖片

阿新 • • 發佈：2021-09-22

import re
import os
import time
import random
import requests

class Zhihu_Photo():
    def __init__(self):
        self.path = 'C:\desk\download' #儲存圖片的位置
        self.question_id = 425705916 #問題的id號
        self.offset = 3
        self.my_headers = [
            "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36",
            "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36",
            "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0",
            "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14",
            "Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)",
            'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11',
            'Opera/9.25 (Windows NT 5.1; U; en)',
            'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)',
            'Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Kubuntu)',
            'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12',
            'Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9',
            "Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.7 (KHTML, like Gecko) Ubuntu/11.04 Chromium/16.0.912.77 Chrome/16.0.912.77 Safari/535.7",
            "Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:10.0) Gecko/20100101 Firefox/10.0 "
        ]

    def header(self):
        dict1 = {}
        headers = []
        my_headers = self.my_headers
        for i in my_headers:
            dict1['User-Agent'] = i
            headers.append(dict1)
        return headers

    def save_image(self,image_url):  #儲存圖片
        header = random.choice(self.header())
        resp = requests.get(image_url, headers=header)
        time.sleep(0.5)
        print("code:", resp.status_code)
        if resp.status_code == 403:  #請求圖片返回的狀態，如果是403，就說明是禁止下載
            print("禁止下載")
        else:
            page = resp.content
            filename1 = image_url.split('zhimg.com/')[-1]
            filename = filename1.split('?')[0]  #圖片命名
            fpath = os.path.join(self.path, filename)
            try:
                with open(fpath, 'wb') as  f:
                    print('下載成功:', fpath)
                    f.write(page)
                    f.close()
            except Exception as e:
                print(e)

    def crawl(self,url):  #獲取圖片的地址
        header = random.choice(self.header())
        resp = requests.get(url, headers=header)
        if resp.status_code == 200:
            page = resp.text
            # data - original =\"https://pica.zhimg.com/v2-8bf2cab1bc32d8a45fb86a039cc97d2a_r.jpg?source=1940ef5c\"
            image_urls1 = re.findall(r'data-original=\\"(.*?)\\"',page)  #正則匹配，篩選出圖片地址
            image_urls = list(set(image_urls1))  #去初重複地址
            n = len(image_urls)
            print(f"此頁一共{n}張圖片")
            for image_url in image_urls:
                self.save_image(image_url)
        else:
            print("地址不正確")

    def run(self):
        for i in range(500):
            print(f"++++++第{self.offset}頁++++++++\n")
            url = f"https://www.zhihu.com/api/v4/questions/{self.question_id}/answers?include=data%5B*%5D.is_normal%2Cadmin_closed_comment%2Creward_info%2Cis_collapsed%2" \
                f"Cannotation_action%2Cannotation_detail%2Ccollapse_reason%2Cis_sticky%2Ccollapsed_by%2Csuggest_edit%2Ccomment_count%2Ccan_comment%2Ccontent%2Ceditable_content%2" \
                f"Cattachment%2Cvoteup_count%2Creshipment_settings%2Ccomment_permission%2Ccreated_time%2Cupdated_time%2Creview_info%2Crelevant_info%2Cquestion%2Cexcerpt%2Cis_labeled%2" \
                f"Cpaid_info%2Cpaid_info_content%2Crelationship.is_authorized%2Cis_author%2Cvoting%2Cis_thanked%2Cis_nothelp%2Cis_recognized%3Bdata%5B*%5D.mark_infos%5B*%5D.url%3" \
                f"Bdata%5B*%5D.author.follower_count%2Cvip_info%2Cbadge%5B*%5D.topics%3Bdata%5B*%5D.settings.table_of_content.enabled&offset={self.offset}&limit=5&sort_by=default&platform=desktop"
            self.offset += 5
            t.crawl(url)


if __name__ == '__main__':
    t = Zhihu_Photo()
    t.run()

Python爬取知乎圖片程式碼實現解析

首先，需要獲取任意知乎的問題，只需要你輸入問題的ID，就可以獲取相關的頁面資訊，比如最重要的合計有多少人回答問題。

python爬取知乎圖片

import reimport osimport timeimport randomimport requestsclass Zhihu_Photo():def __init__(self):self.path = \'C:\\desk\\download\' #儲存圖片的位置self.question_id = 425705916 #問題的id號self.offset =

Python爬取知乎電影話題回答，採集提及次數前50的電影

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

python 抓取知乎指定回答下視訊的方法

前言現在知乎允許上傳視訊，奈何不能下載視訊，好氣哦，無奈之下研究一下了，然後擼了程式碼，方便下載視訊儲存。

Python爬取百度圖片

import urllib.request as urqt import urllib.parse as urps from urllib.parse import quote import requests

Python爬取小姐姐圖片（beautifulsoup法）

技術標籤：python爬蟲列表 Python有許多強大的庫用於爬蟲，如beautifulsoup、requests等，本文將以網站https://www.xiurenji.cc/XiuRen/為例（慎點！！），講解網路爬取圖片的一般步驟。為什麼選擇這個網站？其

Python爬蟲：知乎熱榜(靜態網頁)的爬取

1. 請求知乎熱榜網頁參考程式碼如下： import requests url = \'https://www.zhihu.com/hot\'

python協程gevent案例爬取鬥魚圖片過程解析

分析分析網站尋找需要的網址用谷歌瀏覽器摁F12開啟開發者工具，然後開啟鬥魚顏值分類的頁面，如圖：

python 爬取指定網頁中的圖片（python crawls the image in the specified page）

來自《Python專案案例開發從入門到實戰》（清華大學出版社鄭秋生夏敏捷主編）中爬蟲應用——抓取百度圖片

python 爬取指定網頁中的圖片精細版（python crawls the image in the specified page fine version）

來自《Python專案案例開發從入門到實戰》（清華大學出版社鄭秋生夏敏捷主編）中爬蟲應用——抓取百度圖片

利用python爬取網頁圖片

\"\"\"利用python爬取網頁圖片\"\"\" import requests import urllib from bs4 import BeautifulSoup import json

實用python爬取妹子圖網站圖片

參考自: https://gitee.com/52itstyle/Python/blob/master/Day01/%E8%84%9A%E6%9C%AC/%20mzitu_win.py 注: 未成年請在家長的陪同下使用該指令碼與訪問該網站

Python爬蟲入門練手案例，爬取某乎問答數（附原始碼）

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

python爬蟲-爬取百度圖片

python爬蟲-爬取百度圖片（轉） #!/usr/bin/python# coding=utf-8# 作者:Y0010026# 建立時間:2018/12/16 16:16# 檔案:spider_04.py# IDE:PyCharm# 爬取百度圖片（GET方式爬取Ajax資料）import urllib2url = \'http:/

Python 爬取b站專欄圖片

當olinr學會了爬蟲。。。嘿嘿嘿 import urllib.request as urqt import urllib.parse as urps import sys

python爬取堆糖網每日精選圖片

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

3分鐘Python爬取9000張表情包圖片

先看下我的爬取成果：很多人學習python，不知道從何學起。很多人學習python，掌握了基本語法過後，不知道在哪裡尋找案例上手。很多已經做案例的人，卻不知道如何去學習更加高深的知識。那麼針對這三類人，我給大家

想要利用Python快速爬取整站圖片？速進（附完整程式碼）

本片博文為大家帶來的想要快速爬取整站圖片？速進（附完整程式碼）。很多人學習python，不知道從何學起。很多人學習python，掌握了基本語法過後，不知道在哪裡尋找案例上手。很多已經做案例的人，卻不知道如何

python爬取圖片遇見src亂碼： data:image/png;base64

　　python爬取圖片遇見src亂碼： data:image/png;base64 　　向爬取自己喜歡的圖片，但是在爬取下來的程式碼當中圖片的src會出現亂碼的情況：data:image/png;base64。搞了我好長時間，試過偽裝headers，也試過通過修

使用Python爬取網頁圖片

下載https://www.mayiwenku.com/p-4957235.html 網頁的MATLAB答案下載一張照片 import requests headers = {\"User-Agent\":\"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:72.0) Gecko/20100101 Firefox/72

python爬取知乎圖片

相關推薦