Python:關於爬蟲(2)

阿新 • • 發佈：2017-11-26

open request 進行 chrom pen -i 它的 chrome quest

這個案例主要是用於抓取妹子圖片

推薦網址：http://jandan.net/ooxx

當我們切換圖片的時候，會發現地址欄裏面只有頁碼數在發生變化，其他的都沒有改變

技術分享圖片
我們通過審查元素可以看到，最新的頁碼其實是保存在一個span標簽裏面的，我們可以通過它的class屬性去獲取最新的頁面

技術分享圖片
圖片都存在於img標簽裏面，通過src屬性可以看到圖片的來源，獲得這些信息之後我們就可以通過img這個關鍵部分來進行相關搜索

技術分享圖片
我們先來抓取前十頁的圖片

import urllib.request # 訪問網頁必須用到這個
import os


def url_open(url):
    req = urllib.request.Request(url)
    req.add_header(‘User-Agent‘,‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36‘)
    response = urllib.request.urlopen(req)
    html = response.read()
    return html


def get_page(url):
    """
    :param url:
    :return: 頁碼數【字符串類型】
    """
    html = url_open(url).decode(‘utf-8‘)
    # 加上偏移量
    a = html.find(‘current-comment-page‘)+23
    b = html.find(‘]‘, a)
    return html[a:b]


def find_imgs(url):
    html = url_open(url).decode(‘utf-8‘)
    img_addrs = []

    a = html.find(‘img src=‘)
    while a != -1:
        b = html.find(‘.gif‘, a, a+140)
        if b != -1:
            if html[a+9] != ‘h‘:
                img_addrs.append(‘http:‘ + html[a+9:b+4])
            else:
                img_addrs.append(html[a+9:b+4])
        else:
            b = a + 9
        a = html.find(‘img src=‘, b)

    return img_addrs


def save_imgs(folder, img_addrs):
    for each in img_addrs:
        # 通過/切分字符串，獲取圖片名稱
        filename = each.split(‘/‘)[-1]
        # 寫入文件夾
        with open(filename, ‘wb‘) as f:
            img = url_open(each)
            f.write(img)


def download_mm(folder=‘OOXX‘, pages=10):
    """
    :param folder: 文件夾名稱
    :param pages: 下載頁數
    :return:
    """
    os.mkdir(folder)  # 創建一個文件夾
    os.chdir(folder)  # 改變目錄，後面保存的圖片就會直接保存進去

    url = ‘http://jandan.net/ooxx/‘
    # 獲取最新頁數
    page_num = int(get_page(url))
    # 遍歷前十頁
    for i in range(pages):
        page_num -= i
        page_url = url+‘page-‘+str(page_num)+‘#comments‘
        img_addrs = find_imgs(page_url)
        save_imgs(folder, img_addrs)


if __name__ == ‘__main__‘:
    download_mm()

執行這段代碼，我們就能從自己創建的文件夾裏面找到我們抓取到的圖片，除此之外為了避免ip的頻繁訪問而導致的一些問題，我們還可以通過上節的內容[http://www.jianshu.com/p/6754f4eb067a]，使用代理ip來進行處理。
技術分享圖片

Python:關於爬蟲(2)

Python 爬蟲 2 （轉）

規範 return python 爬蟲直接 htm str 保存 urn find 一，獲取整個頁面數據首先我們可以先獲取要下載圖片的整個頁面信息。 getjpg.py #coding=utf-8 import urllib def getHtml(url):

python 爬蟲2-正則表達式抓取拉勾網職位信息

headers mode data .cn 保存 time exc href ace import requestsimport re #正則表達式import time import pandas #保存成 CSV #header={‘User-Agent‘:‘M

Python爬蟲2------爬蟲屏蔽手段之代理服務器實戰

地址 eight pan urlopen 字典 3.1 第一個函數參數 div 1、代理服務器：一個處於客戶端與互聯網中間的服務器，如果使用代理服務器，當我們瀏覽信息的時候，先向代理服務器發出請求，然後由代理服務器向互聯網獲取信息，再返回給我們。 2、代碼

Python爬蟲(2)：溴事百科

首先說明一下,這份程式碼參考了汪海大大的部落格,然後自己重寫並且改動了一下而來。首先對溴百的原始碼進行一下分析,發現只要關鍵的段子都是在<div class="content">內容<span><\span>這種模式下的,所以我們需要對爬蟲的內容

[Python] [爬蟲] 2.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——驗證模組

目錄 1.Intro 2.Source 1.Intro 檔名：authentication.py 模組名：驗證模組引用庫： urllib2 requests pymongo socket

Python爬蟲2-翻譯小程式

1、簡介本次部落格分享的內容為基於有道線上翻譯實現一個實時翻譯小程式，本次任務是參考小甲魚的書《零基礎入門學習Python》完成的，書中程式碼對於當前的有道詞典並不適用，使用後無法實現翻譯功能，在網上進行學習之後解決了這一問題。 2、前置工作 1）由於有道線上翻譯是“反爬

python 爬蟲 (2)request-post

import requests #使用data引數傳遞post引數 # datas = {'user':'aaaa','pwd':'123'} # re = requests.post('http://httpbin.org/post',data = datas) # pr

Python爬蟲 --- 2.5 Scrapy之汽車之家爬蟲實踐

原文連結：https://www.fkomm.cn/article/2018/8/7/32.html 目的 Scrapy框架為檔案和圖片的下載專門提供了兩個Item Pipeline 它們分別是： FilePipeline ImagesPipeline 這裡主要介紹ImagesPipel

Python爬蟲 --- 2.3 Scrapy 框架的簡單使用

原文連結：www.fkomm.cn/article/201… 網路爬蟲，是在網上進行資料抓取的程式，使用它能夠抓取特定網頁的HTML資料。 Scrapy框架的簡單使用：雖然我們利用一些庫開發一個爬蟲程式，但是使用框架可以大大提高效率，縮短開發時間。Scrapy是一個使用Python編寫的，輕

python爬蟲2-簡單模擬使用者登入

這裡的簡單模擬使用者登入指的是不考慮驗證碼等除表單之外的資訊用python實現登入與java類似，步驟如下 1：通過工具找到登入頁面的真實url 2：分析需要提交的資料（這裡不考慮除表單之外的資訊） 3：構建post請求資訊 4：設定cookie 5：提交請求這裡模擬的

Python:關於爬蟲(2)

open request 進行 chrom pen -i 它的 chrome quest 這個案例主要是用於抓取妹子圖片推薦網址：http://jandan.net/ooxx 當我們切換圖片的時候，會發現地址欄裏面只有頁碼數在發生變化，其他的都沒有改變我們通過審查

53. Python 爬蟲（2）

expires www. als aid rgb user col pri request CookieRequests通過會話信息來獲取cookie信息Cookie的五要素： Name value domain path expires打印cookie

python爬蟲【第2篇】

multi 實現 from eat 進程 lun pid RR print 一、多進程 1.fork方法（os模塊,適用於Lunix系統） fork方法：調用1次，返回2次。原因：操作系統經當前進程（父進程）復制出一份進程（子進程），兩個進程幾乎完全相同，fork方法分別在

【Python爬蟲學習筆記2】urllib庫的基本使用

代理服務 cor proc 技術 origin car windows tpc -c urllib庫是python內置的實現HTTP請求的基本庫，通過它可以模擬瀏覽器的行為，向指定的服務器發送一個請求，並保存服務器返回的數據。 urlopen函數函數原型：urlopen(

【Python爬蟲學習筆記8-2】MongoDB數據庫操作詳解

參考資料 adding ocl 切換 username 詳解 top .com min 上一篇學習筆記8-1中介紹了MySQL和MongoDB的安裝、啟動和配置，本節我們接著學習有關MongoDB的一些概念、基本操作和在python中的使用。 MongoDB常用概念為更好

Python自動化開發學習-爬蟲2

data unicode dump 自動 erro clas ldr check request Web服務的本質2 之前講過這個，在這裏：http://blog.51cto.com/steed/2071271不過當時沒講透，這次再展開一點點。Web服務的通信本質上就是通過

python爬蟲-基礎入門-爬取整個網站《2》

python爬蟲-基礎入門-爬取整個網站《2》描述：　　開場白已在《python爬蟲-基礎入門-爬取整個網站《1》》中描述過了，這裡不在描述，只附上 python3 的程式碼。 python3 指令碼程式碼： 1 #-*- coding: utf-8 -

python爬蟲系列(3.2-lxml庫的使用)

一、基本介紹 1、lxml 是一個HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 資料。 2、lxml和正則一樣，也是用 C 實現的，是一款高效能的 Python HTML/XML 解析器，我們可

python爬蟲系列(2.3-requests庫模擬使用者登入)

一、模擬登入拉鉤網 import re import requests class LoginLaGou(object): """ 模擬登入拉鉤網 """

python爬蟲系列(2.2-requests庫的高階使用)

一、設定代理ip 1、直接在請求的時候加上proxies就可以,注意我們一般會寫上http和https的,這樣當遇到http請求就會走http字典對應的代理 2、具體程式碼 import requests if __name__ == "__main__":

Python:關於爬蟲(2)

相關推薦