scrapy爬取美女圖片

阿新 • • 發佈：2019-02-12

setting ipa ins star font @class del 分頁 date

使用scrapy爬取整個網站的圖片數據。並且使用 CrawlerProcess 啟動。 1 # -*- coding: utf-8 -* 2 import scrapy 3 import requests

 4 from bs4 import BeautifulSoup
 5 
 6 from meinr.items import MeinrItem
 7 
 8 
 9 class Meinr1Spider(scrapy.Spider):
10     name = ‘meinr1‘
11     # allowed_domains = [‘www.baidu.com‘]
12     # start_urls = [‘http://m.tupianzj.com/meinv/xiezhen/‘] 

13     headers = {
14     ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36‘,
15 }
16     def num(self,url,headers): #獲取網頁每個分類的頁數和URL格式
17         html = requests.get(url=url,headers=headers)
18         if html.status_code != 200:
19 
             return ‘‘,‘‘
20         soup = BeautifulSoup(html.text,‘html.parser‘)
21         nums = soup.select(‘#pageNum li‘)[3]
22         nums = nums.select(‘a‘)[0].attrs.get(‘href‘)
23         num = str(nums[:-5]).split(‘_‘)[-1]
24         papa = str(nums[:-5]).split(‘_‘)[:-1]
25         papa = ‘ 
_‘.join(papa)+‘_‘
26         return int(num),papa
27 
28 
29     def start_requests(self):
　　　　　　#這是網站的所有分類
30         urls = [‘http://m.tupianzj.com/meinv/xiezhen/‘,‘http://m.tupianzj.com/meinv/xinggan/‘,‘http://m.tupianzj.com/meinv/guzhuang/‘,‘http://m.tupianzj.com/meinv/siwa/‘,‘http://m.tupianzj.com/meinv/chemo/‘,‘http://m.tupianzj.com/meinv/qipao/‘,‘http://m.tupianzj.com/meinv/mm/‘]
31         num = 0
32         for url in urls:
33             num,papa = self.num(url,self.headers)
34             for i in range(1,num):
35                 if i != 1:
36                     urlzz = url + papa + str(i) + ‘.html‘ #拼裝每頁URL
37                 else:
38                     urlzz = url
39                 yield scrapy.Request(url=urlzz,headers=self.headers,callback=self.parse)
40     def parse(self, response):
41         # print(response.body)
42         htmllist = response.xpath(‘//div[@class="IndexList"]/ul[@class="IndexListult"]/li‘)#獲取每頁的圖集URL和title
43         # print(htmllist)
44         for html in htmllist:
45             url = html.xpath(‘./a/@href‘).extract()
46             title = html.xpath(‘./a/span[1]/text()‘).extract()
47             # print(url)
48             # print(title)
49             yield scrapy.Request(url=url[0],meta={
50                         ‘url‘:url[0],
51                         ‘title‘:title[0]},
52                         headers=self.headers,
53                         callback=self.page
54              )
55     def page(self,response):
56         is_it = response.xpath(‘//div[@class="m-article"]/h1/text()‘).extract()
57         if is_it:
58             is_it = is_it[0].strip()
59             num = int(is_it[-4])
60             a = 0
61             for i in range(1,int(num)):
62                 a += 1
63                 url = str(response.url)[:-5] + ‘_‘ + str(i) + ‘.html‘ #拼裝圖集內的URL分頁
64                 yield scrapy.Request(url=url, headers=self.headers, callback=self.download, meta={
65                     ‘url‘: response.meta.get(‘url‘),
66                     ‘title‘: response.meta.get(‘title‘),
67                     ‘num‘:a
68 
69                 },dont_filter=True） #使用了dont_filter取消去重是因為我們需要進入第一頁獲取總頁數

70 
71     def download(self,response):
72         img = response.xpath("//img[@id=‘bigImg‘]/@src").extract() #獲取每個頁面裏的img
73         if img:
74             time = MeinrItem()
75             time[‘img‘] = img[0]
76             time[‘title‘] = response.meta.get(‘title‘)
77             time[‘num‘] = response.meta.get(‘num‘)
78             yield time

上面的是spider文件

import scrapy


class MeinrItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    img = scrapy.Field()
    num = scrapy.Field()
    pass

上面的是item文件

 1 import os
 2 import requests
 3 
 4 class MeinrPipeline(object):
 5     def open_spider(self,spider):#打開spider時啟動。獲取下載地址
 6         self.path = os.path.dirname(os.path.dirname(os.path.abspath(__file__))) + os.sep + ‘download‘
 7         # print(self.path)
 8     def process_item(self, item, spider):
 9         title = item[‘title‘]
10         img = item[‘img‘]
11         num = item[‘num‘]
12         path = self.path + os.sep + title #將圖集的title設置為每個圖集的文件夾的名字
13         if not os.path.exists(path): #沒有則創建
14             os.makedirs(path)
15         html = requests.get(url=img,headers=spider.headers).content
16         path = path + os.sep + str(num) + ‘.jpg‘ #這是每個圖集內的圖片是第幾頁
17         with open(path,‘wb‘)as f:
18             f.write(html)
19         return item

這上面是管道文件

1 import datetime,os
2 time = datetime.datetime.now().strftime(‘%Y_%m_%H_%M_%S‘)
3 LOG_FILE = ‘logs‘+ os.sep +str(time) + ‘_‘ + "meinr.log"
4 LOG_LEVEL = "INFO"

這是在setting裏面的，設置的日誌信息和保存的位置以及消息的級別

 1 # -*- coding: utf-8 -*-
 2 import sys,datetime
 3 import os
 4 
 5 from meinr.spiders.meinr1 import Meinr1Spider
 6 from scrapy.crawler import CrawlerProcess
 7 from scrapy.utils.project import get_project_settings
 8 
 9 
10 process = CrawlerProcess(get_project_settings()) #這裏獲取spider裏面的setting
11 process.crawl(Meinr1Spider) #使用crawl啟動Meinr1Spider爬蟲
12 process.start() #開始運行

這是spider的啟動文件

技術分享圖片

文件格式就是這樣

Git地址：https://github.com/18370652038/meinr.git

scrapy爬取美女圖片

setting ipa ins star font @class del 分頁 date 使用scrapy爬取整個網站的圖片數據。並且使用 CrawlerProcess 啟動。 1 # -*- coding: utf-8 -* 2 import scrapy 3 impor

scrapy-redis分散式爬蟲爬取美女圖片

背景：家裡網速慢（500kb左右，哎~），網站都是大圖，載入好慢好慢，每每夜深人靜訪問的時候一等就是一分鐘，急啊，索性，直接爬到本地，想怎麼看怎麼看。爬取目標：（你懂得） url: h t t p s : / / w w w . j p x g y w . c o

Python 爬取美女圖片，分目錄多級存儲

port Language resp pac rst apt itl album domain 最近有個需求：下載https://mm.meiji2.com/網站的圖片。所以簡單研究了一下爬蟲。在此整理一下結果，一為自己記錄，二給後人一些方向。爬取結果如圖：

聰哥哥教你學Python之如何爬取美女圖片

今天要講的是Python。Python目前主要是在人工智慧和資料分析上比較火。這裡我們就講它的資料分析。什麼叫資料分析呢？簡單地說，根據已知資料，經過分析，得出結論。這就叫做資料分析。今天聰哥哥我拿一個簡單的爬蟲例項，教你爬取美女圖片，不過在此之前聰哥哥我得說說一些雜七雜八的。這個

用python爬取美女圖片

import urllib.request import os for i in range(2000, 2400): if not os.path.exists(‘tupian/’ + str(i)): os.makedirs(‘tupian/’ + str(i)) for j in

教你如何用Python爬取美女圖片

Python爬取美女圖片今天我寫的一個小爬蟲是爬取美女的圖片，想必大家都喜歡，這個都懂。。。利用python爬蟲爬取圖片，首先要進行安裝python 安裝python之後，在進行安裝第三方庫，requests,bs4,lxml這三個庫。。。在cmd中進行

python爬蟲-爬取美女圖片

當你發現某個網站上有大量的美女圖片，又非常想看，怎麼辦，網頁上看？每次看的時候都得載入吧！No，你可以把這些圖片都儲存到本地，然後，在你想看的時候就可以隨時看了，哈哈！多的不說。下面就來上程式碼： 1,匯入庫檔案: # -*- coding:utf-8 -*- # 通過request

Python 爬蟲多執行緒爬取美女圖片儲存到本地

Wanning 我們不是生產者,我們只是搬運工資源來至於，程式碼基於Python 3.5.2 友情提醒：血氣方剛的騷年。請謹慎閱圖！！！謹慎閱圖！！！謹慎閱圖！

java爬蟲爬取美女圖片

前言：抓住國慶假期的小尾巴，分享一波福利。 if (!existUrl(cache, saveUrl)) { //插入資料庫

android高仿抖音、點餐介面、天氣專案、自定義view指示、爬取美女圖片等原始碼

Android精選原始碼 Android優質部落格簡介最近東西寫的挺多的，這不又要弄一個類似於京東的地址選擇器，然後剛開

Python網路爬蟲（四）：selenium+chrome爬取美女圖片

說明： Python版本：Python IDE：PyCharm chrome版本：我的版本63 chromedriver.exe：因為是模擬瀏覽器訪問，chrome需要再下載一個驅動，具體方式在我的上一篇部落格，內容很詳細。傳送門：Python網路爬蟲（

requests-爬取美女圖片原始碼

爬取思路： 1.分析ajax請求，找到存放圖片地址的json 2.解析json資料，提取中圖片url 3.再次請求圖片url，通過open()和write()方法將圖片儲存至內地。廢話少說，直接上程式碼：前提條件是在當前.py檔案同級目錄下新建一個beauty360的資料夾用來儲

使用 scrapy 抓取美女圖片實錄

# -*- coding: utf-8 -*- # Scrapy settings for jiandan project # # For simplicity, this file contains only settings considered important or # commonly used

用scrapy爬取搜狗Lofter圖片

request index import rap .so 圖片 file loader clas 用scrapy爬取搜狗Lofter圖片 # -*- coding: utf-8 -*- import json import scrapy from scrapy.http

scrapy爬取圖片

深復制 cal xtra n) containe ... line example 定義一.遇到的問題總結 scrapy中爬取的多有數據（通過spider.py）,最後必須通過items實例格式化後，傳遞到pipelines中進行進一步的處理（註意scrapy內置的pip

Python爬蟲 —— 抓取美女圖片（Scrapy篇）

parse color 爬蟲 select 尺度 dex -i www 模塊雜談：之前用requests模塊爬取了美女圖片，今天用scrapy框架實現了一遍。（圖片尺度確實大了點，但老衲早已無戀紅塵，權當觀賞哈哈哈） Item: # -*- codi

使用scrapy爬取手機版鬥魚主播的房間圖片及昵稱

發現對手 std pipeline obj ted += 指定 foo 目的：通過fiddler在電腦上對手機版鬥魚主播進行抓包，爬取所有主播的昵稱和圖片鏈接關於使用fiddler抓取手機包的設置：把手機和裝有fiddler的電腦處在同一個網段（同一個wifi），手機

Scrapy:虎牙爬取，圖片存儲與數據分析

alt 數據分析 mage 加載 ram data afr frame bubuko 第一次爬取虎牙主播數據，有點小激動 1.共批量爬取的101個主播的，包括頭像主播名字房間號房間鏈接 2.數據規整部分，需要將json數據加載到pandas的Dataframe，

scrapy爬取校花網圖片

xiaohua.py # -*- coding: utf-8 -*- import scrapy from pyquery import PyQuery from scrapy.http import Request from ..items import XiaohuarItem class

python+scrapy爬取鬥魚圖片

建立scrapy的專案請參考：https://blog.csdn.net/qq_35723619/article/details/83614670 items的實現： DouyumeinvSpider建立：這次我們爬去的是json資料包：我們可以通過network監控：

scrapy爬取美女圖片

相關推薦