python 鬥圖圖片爬蟲

阿新 • • 發佈：2018-06-13

創建文件夾下載 exceptio 文件 div 內容 urn all pad

搗鼓了三小時，有一些小Bug，望大佬指導

廢話不說，直接上代碼：

#!/usr/bin/python3
# -*- coding:UTF-8 -*-
import os,re,requests
from urllib import request,parse

class Doutu_api(object):
    def __init__(self):
        self.api_html = r‘http://www.doutula.com/search?keyword=%s‘
        self.headers = {‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36  
‘
                                      ‘(KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36‘}
        self.path = os.path.dirname(os.path.realpath(__file__))+‘\\temp‘

    def make_path(self,path=‘‘):#返回假為已創建，否則創建新文件夾
        self.path = self.path+‘\\‘+path
        if os.path.exists(self.path):  # 判斷文件夾是否存在 

            return False
        else:
            os.mkdir(self.path)  # 創建文件夾
            return True

    def get_img_html(self,html):
        self.make_path(path=html)
        html = self.api_html%parse.quote(html)
        pattern = re.compile(u‘<a.*?class="col-xs-6 col-md-2".*?href="(.*?)".*?style="padding:5px;">.*?</a> 
‘,re.S)
        pattern_img = re.compile(u‘<td>.*?<img.*?src="(.*?)".*?alt="(.*?)".*?onerror=".*?">.*?</td>‘,re.S)
        try:
            req = request.Request(html, headers=self.headers)
            imgs = request.urlopen(req)
            imgs = imgs.read().decode(‘utf-8‘)
            imgs = re.findall(pattern, imgs)
            for img in imgs:
                req = request.Request(img, headers=self.headers)
                imgurl = request.urlopen(req).read().decode(‘utf-8‘)
                imgurl =re.findall(pattern_img, imgurl)
                with open(self.path+‘\\{}.png‘.format(imgurl[0][1].replace(‘/‘,‘-‘)), ‘wb‘) as file:
                    response = requests.get(imgurl[0][0]).content  # 下載圖片
                    file.write(response)  # 讀取圖片
            print(‘已完成下載,圖片地址:‘,self.path)
        except Exception as e:
            print(e)
        return None

doutu = Doutu_api()
doutu.get_img_html(input(‘鬥圖內容關鍵字：‘))

測試成功

技術分享圖片

python 鬥圖圖片爬蟲

創建文件夾下載 exceptio 文件 div 內容 urn all pad 搗鼓了三小時，有一些小Bug，望大佬指導廢話不說，直接上代碼： #!/usr/bin/python3 # -*- coding:UTF-8 -*- import os,re,request

python實現簡單圖片爬蟲並保存

.com 貪婪模式 web頁面 logs urn 並不是 python 保存 light 先po代碼 #coding=utf-8 import urllib.request #3之前的版本直接用urllib即可，下同 #該模塊提供了web頁面讀取數據的接口，使得我們可以

多執行緒爬取鬥圖圖片

結果演示程式碼： #encoding:utf-8 # __author__ = 'donghao' # __time__ = 2018/12/24 15:20 import requests import threading import urllib.re

python多執行緒爬蟲+批量下載鬥圖啦圖片專案（關注、持續更新）

python多執行緒爬蟲專案（）爬取目標：鬥圖啦（起始url：http://www.doutula.com/photo/list/?page=1）爬取內容：鬥圖啦全網圖片使用工具：requests庫實現傳送請求、獲取響應。　　　　　　　xpath實現資料解析、提取和清洗　　　　　　　thr

用Python多線程實現生產者消費者模式爬取鬥圖網的表情圖片

Python什麽是生產者消費者模式某些模塊負責生產數據，這些數據由其他模塊來負責處理（此處的模塊可能是：函數、線程、進程等）。產生數據的模塊稱為生產者，而處理數據的模塊稱為消費者。在生產者與消費者之間的緩沖區稱之為倉庫。生產者負責往倉庫運輸商品，而消費者負責從倉庫裏取出商品，這就構成了生產者消費者模式。生

Python爬蟲入門教程 13-100 鬥圖啦表情包多執行緒爬取

寫在前面今天在CSDN部落格，發現好多人寫爬蟲都在爬取一個叫做鬥圖啦的網站，裡面很多表情包，然後瞅了瞅，各種實現方式都有，今天我給你實現一個多執行緒版本的。關鍵技術點 aiohttp ，你可以看一下我前面的文章，然後在學習一下。網站就不分析了，無非就是找到規律，拼接URL，匹配關鍵點，然後爬取。擼

Python爬蟲入門教程 13-100 鬥圖啦表情包多線程爬取

.text 入門教程地址 ESS 文件頭部 https .html 一個 mat 寫在前面今天在CSDN博客，發現好多人寫爬蟲都在爬取一個叫做鬥圖啦的網站，裏面很多表情包，然後瞅了瞅，各種實現方式都有，今天我給你實現一個多線程版本的。關鍵技術點 aiohttp ，你可以

python爬蟲之一 —— 愛鬥圖圖包抓取

前言最近有點空閒時間，又開始研究python的爬蟲，事實上這幾天已經寫了好幾個爬蟲，也嘗試了用pyspider爬取網頁，慢慢積累，今天和大家分享一個表情包爬蟲。相信大家都喜歡鬥圖，今天這個爬蟲就是爬取愛鬥圖網站的圖包，資源豐富，內容很多：步驟這個網站主要是靜態網頁，

Python爬蟲入門教程，多執行緒採集鬥圖啦表情包！

寫在前面今天在CSDN部落格，發現好多人寫爬蟲都在爬取一個叫做鬥圖啦的網站，裡面很多表情包，然後瞅了瞅，各種實現方式都有，今天我給你實現一個多執行緒版本的。關鍵技術點 aiohttp ，你可以看一下我前面的文章，然後在學習一下。 https://github.com/wangde

python爬蟲爬取鬥圖網最新表情包（第二篇）

上一篇文章爬的表情包是套圖，發現還有一千多頁的最新表情包。兩者的網頁結構有點區別，程式碼需要整改下，看下頁面，規律也比較好找。非常氣憤，上一個部落格被其他爬走了，還是一個培訓機構，插了自己的廣告！所有的表情圖片都是在標籤下，數了一下每一頁都是17行，

Python 爬取鬥圖啦圖片

鬥圖啦 requests BeautifulSoup4 程式碼 # -*- coding:utf-8 -*- # pip install requests 框架 import requests # pip install beautifulsoup4 框架 # p

學會用python網路爬蟲爬取鬥圖網的表情包，聊微信再也不怕鬥圖了

最近總是有人跟我鬥圖，想了想17年中旬時在網上看過一篇關於爬取鬥圖網表情包的py程式碼，但是剛想爬的時候發現網頁結構發生了變化，而且鬥圖網還插入了很多廣告，變化其實挺大的，所以臨時寫了一個爬蟲，簡單的爬取了鬥圖網的表情包。從這連結上看，page表示的是第幾頁，我

爬蟲1.1爬取鬥圖啦圖片（關於open函式和urlretrieve函式）

文章只是我作為NewBird ٩꒰▽ ꒱۶⁼³₌₃ 學習的一小點小點的進步還請不要笑我⁄(⁄ ⁄•⁄ω⁄•⁄ ⁄)⁄ 我就直接貼程式碼了，我不會說很技術的話。 1.建立專案命令： scrapy startproject <project_nam

用python爬取鬥圖啦圖片

一、程式碼部分 # -*- coding:utf-8 -*- '''1、python版本 python3.6 2、IDE PyCharm 2017.3 ''' import requests imp

python爬蟲練手之鬥圖啦

網際網路時代，難免會和別人在線上聊天，而現在的年輕人吶！一言不合就開始鬥圖！我難道就默默看著別人裝逼嗎？NO!拒絕！所以呢藉此機會我們找個表情網站，爬一波圖片啦由於網站結構比較簡單，沒有非同步載入，直接從html就能查詢資訊啦，所以就不

python——圖片爬蟲：爬取愛女神網站(www.znzhi.net)上的妹子圖進階篇

我講解了圖片爬蟲的基本步驟，並實現了爬蟲程式碼在本篇中，我將帶領大家對基礎篇中的程式碼進行改善，加入多執行緒，提高爬取效率。首先我們明確一個改進的思路，就是在函式downloadAlbum(url)中： # 迴圈下載專輯中各個圖片 for num in

python批量下載色影無忌和蜂鳥的圖片爬蟲小應用

exce pen 應用 content 沒有 str1 .com pat tar 有些冗余信息。由於之前測試正則表達式。所以沒有把它們給移走。只是不影響使用。# -*- coding:utf-8 -*- import re,urllib,sys,os,time de

Python+selenium之截圖圖片並保存截取的圖片

只需要 odi 通過位置 .py alt ims oca 創建本文轉載：http://blog.csdn.net/u011541946/article/details/70141488 http://www.cnblogs.com/timsheng/archive/20

python-實現一個貼吧圖片爬蟲

fix request arm agent x64 pan http python2 png 今天沒事回家寫了個貼吧圖片下載程序，工具用的是PyCharm，這個工具很實用，開始用的Eclipse，但是再使用類庫或者其它方便並不實用，所以最後下了個專業開發python程序的工

Python+OpenCV圖像處理（一）——讀取顯示一張圖片

沒有 class 釋放資源圖像 Coding 路徑 troy 如果 nco 　　配置好所有環境後，開始利用python+opencv進行圖像處理第一步。　　讀取和顯示一張圖片： import cv2 as cv src=cv.imread(‘E:\imageload\

python 鬥圖圖片爬蟲

相關推薦