spider----校花圖的爬取

阿新 • • 發佈：2018-12-18

案例:

import urllib.request
import re
import time
import os

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
    'Referer': 'http://www.mm131.com/xiaohua/'
}
for page in range(1, 7):
    print('這是第%s頁' % page)
    if page == 1:
        url = 'http://www.mm131.com/xiaohua/'
    elif page >= 2:
        url = 'http://www.mm131.com/xiaohua/list_2_{}.html'.format(page)
    # print(url)
    # 構建一個request請求,其中包含請求頭與url
    request = urllib.request.Request(url=url, headers=headers)
    # 傳送請求得到響應
    response = urllib.request.urlopen(request)
    # print(response.read().decode('gbk'))
    # 拿到響應內容
    content = response.read().decode('gbk')
    # print(content)
    # # 正則匹配
    # '''<a target="_blank" href="http://www.mm131.com/xiaohua/634.html"><img src="http://img1.mm131.me/pic/634/m634.jpg
    # " alt="性感校花路子瀅 爆乳沐浴私房寫真" width="120" height="160">性感校花路子瀅 爆乳沐</a>'''
    ret = re.compile(r'<a target="_blank" href=".*?"><img src="(.*?)" alt="(.*?)" width=".*?" height=".*?">.*?</a>',
                     re.S)
    result = ret.findall(content)
    # print(result)
    dirname = '校花圖'
    if not os.path.exists(dirname):
        os.mkdir(dirname)
    for img in result:
        # 圖片src
        image = img[0]

        print(image)
        # 圖片的名字
        filename = img[1] + '.' + image.split('.')[-1]
        # 儲存圖片的路徑,拼接
        # print(filename)
        filepath = os.path.join(dirname, filename)
        # print(filepath)
        result1 = urllib.request.Request(url=image, headers=headers)
        response1 = urllib.request.urlopen(result1)
        with open(filepath, 'wb') as fp:
            fp.write(response1.read())

        # print('正在下載...%s' % filename)
        # 下載圖片並儲存相應路徑
        # urllib.request.urlretrieve(image, filepath)
        time.sleep(2)
        # print('結束下載')
    time.sleep(2)

代理池案例:

import urllib.request
import os

for i in range(4200, 4461):
    os.mkdir('tupian/' + str(i))
    for j in range(60):
        try:
            url = 'http://img1.mm131.me/pic/' + str(i) + '/' + str(j) + '.jpg'
            print(url)
            # urllib.request.urlretrieve(url, 'lala.jpg')
            headers = {
                'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36',
                'Referer': 'https://www.sogou.com/link?url=DSOYnZeCC_o7btUgpK402wmc9YOcsOr4cOOT57O29F8'
            }
            request = urllib.request.Request(url=url, headers=headers)
            response = urllib.request.urlopen(request)
            with open('tupian/' + str(i) + '/' + str(j) + '.jpg', 'wb') as fp:
                fp.write(response.read())
        except Exception as e:
            print('下載失敗，下載下一條')
            break

spider----校花圖的爬取

案例: import urllib.request import re import time import os headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKi

校花網爬取

1、堆糖校花網API：獲取資料的api： https://www.duitang.com/napi/blog/list/by_search/?kw=%E6%A0%A1%E8%8A%B1&start=0&limt=1000 圖片路徑 "path": https://

Python爬蟲入門教程 12-100 半次元COS圖爬取

寫在前面今天在瀏覽網站的時候，忽然一個莫名的連結指引著我跳轉到了半次元網站 https://bcy.net/ 開啟之後，發現也沒有什麼有意思的內容，職業的敏感讓我瞬間聯想到了 cosplay ，這種網站必然會有這個的存在啊，於是乎，我準備好我的大爬蟲了。把上面的連結開啟之後

Python爬蟲入門教程 12-100 二次元COS圖爬取

寫在前面今天在瀏覽網站的時候，忽然一個莫名的連結指引著我跳轉到了半次元網站 https://bcy.net/ 開啟之後，發現也沒有什麼有意思的內容，職業的敏感讓我瞬間聯想到了 cosplay ，這種網站必然會有這個的存在啊，於是乎，我準備好我的大爬蟲了。

Python爬蟲入門教程【11】：半次元COS圖爬取

半次元COS圖爬取-寫在前面今天在瀏覽網站的時候，忽然一個莫名的連結指引著我跳轉到了半次元網站 https://bcy.net/

分手後，小夥怒用Python爬取上萬空姐照片，贏取校花選舉大賽！

代碼美女圖片 pst caption alt .... 不出 ima bee 首先展示下Python爬取到的成果：我做什麽都要爭第一，這次的校花投票選舉大賽也不例外，雖然我是個男的......但是我看到了前女友竟然已經有三百多票排到第三名了，我怎麽能眼睜

爬蟲----爬取校花網視頻

done orm ref div submit false lex clas gbk import requests import re import time import hashlib def get_page(url): print(‘GE

scrapy爬取校花網圖片

xiaohua.py # -*- coding: utf-8 -*- import scrapy from pyquery import PyQuery from scrapy.http import Request from ..items import XiaohuarItem class

Python：scrapy框架爬取校花網男神圖片儲存到本地

爬蟲四部曲，本人按自己的步驟來寫，可能有很多漏洞，望各位大神指點指點 1、建立專案 scrapy startproject xiaohuawang scrapy.cfg: 專案的配置檔案 xiaohuawang/: 該專案的python模組。之後您將在此加入程

Python-爬取校花網視訊(單執行緒和多執行緒版本)

一、參考文章 python爬蟲爬取校花網視訊，單執行緒爬取爬蟲----爬取校花網視訊，包含多執行緒版本上述兩篇文章都是對校花網視訊的爬取，由於時間相隔很久了，校花網上的一些視訊已經不存在了，因此上

Requests 校花網圖片爬取

紀念我們鬧過的矛盾import requestsimport reurl = 'http://www.xiaohuar.com/list-1-%s.html'for i in range(4): temp = url % i response =requests.get(temp) html

scrapy爬取校花網男神圖片儲存到本地

爬蟲四部曲，本人按自己的步驟來寫，可能有很多漏洞，望各位大神指點指點 1、建立專案 scrapy startproject xiaohuawang scrapy.cfg: 專案的配置檔案xiaohuawang/: 該專案的python模組。之後您將在此加入程式碼。xiaohuawang/items.py: 專

spider———迴圈爬取花火所有期刊

熟悉soup和xpath方法，尋找Html標籤 import os import shutil import time import urllib.request from bs4 import BeautifulSoup from lxml import et

三個Python爬蟲版本，帶你以各種方式爬取校花網，輕鬆入門爬蟲

爬蟲是什麼？進群進群：943752371可以獲取Python各類入門學習資料！這是我的微信公眾號【Python程式設計之家】各位大佬用空可以關注下，每天更新Python學習方法，感謝！如果我們把網際網路比作一張大的蜘蛛網，資料便是存放

pycharm 爬取校花網

1 1：什麼是爬蟲 2 定義：狹義：模擬瀏覽器，瀏覽網頁，儲存資料的程式 3 定義：廣義：自動下載網路資料（網頁，遊戲，qq）的程式 4 開啟校花網 ‘www.xiaohuar.com/hua/’ #直接爬取影響課堂秩序 5

[python學習] 簡單爬取圖片站點圖庫中圖片

ctu while 要去文章 ava ges file cor nal 近期老師讓學習Python與維基百科相關的知識，無聊之中用Python簡單做了個爬取“遊訊網圖庫”中的圖片，由於每次點擊下一張感覺很浪費時間又繁瑣。主要分享的是怎樣爬取HTML

Python爬蟲之爬取煎蛋網妹子圖

創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲（未使用框架，僅供娛樂）獲取並下載煎蛋網妹子圖指定頁面或全部圖片，並將圖片下載到磁盤。首先導入模塊：urllib.request、re、os import

python 爬取京東手機圖

跳過 close 高手 cnblogs port cep findall pen 得到初學urllib，高手勿噴... import re import urllib.request #函數：每一頁抓取的30張圖片 def craw(url,page): ima

python爬取煎蛋妹子圖（老司機養成之路）

chrom all with file windows import apple 妹子 lib 源碼： 1 import urllib.request 2 from bs4 import BeautifulSoup 3 import os 4 import io

編寫spider爬取

ref 域名 oat response class 功能遍歷爬取完成改寫parse函數實現功能： 1.獲取文章列表頁中的文章url並交給scrapy下載後，交給解析函數進行具體字段的解析2.獲取下一頁的url並交給scrapy進行下載，下載完成後交給parse 提

spider----校花圖的爬取

相關推薦