Python爬蟲爬取煎蛋網圖片程式碼例項

阿新 • • 發佈：2020-01-09

這篇文章主要介紹了Python爬蟲爬取煎蛋網圖片程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

今天，試著爬取了煎蛋網的圖片。

用到的包：

urllib.request
os

分別使用幾個函式，來控制下載的圖片的頁數，獲取圖片的網頁，獲取網頁頁數以及儲存圖片到本地。過程簡單清晰明瞭

直接上原始碼：

import urllib.request
import os


def url_open(url):
  req = urllib.request.Request(url)
  req.add_header('user-agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/75.0.3770.100 Safari/537.36')
  response = urllib.request.urlopen(url)
  html = response.read()

  return html

def get_page(url):
  html = url_open(url).decode('utf-8')

  a = html.find('current-comment-page')+23
  b = html.find(']',a)

  return html[a:b]


def find_imgs(url):
  html = url_open(url).decode('utf-8')
  img_addrs = []

  a = html.find('img src=')

  while a != -1:
    b = html.find('.jpg',a,a+255)
    if b != -1:
      img_addrs.append('https:'+html[a+9:b+4]) # 'img src='為9個偏移 '.jpg'為4個偏移
    else:
      b = a+9
    a = html.find('img src=',b)

  return img_addrs


def save_imgs(folder,img_addrs):
  for each in img_addrs:
    filename = each.split('/')[-1]
    with open(filename,'wb') as f:
      img = url_open(each)
      f.write(img)
    print(img_addrs)

def download_mm(folder = 'xxoo',pages = 5):
  os.mkdir(folder)
  os.chdir(folder)

  url = 'http://jandan.net/ooxx/'
  page_num = int(get_page(url))

  for i in range(pages):
    page_num -= i
    page_url = url + 'page-'+ str(page_num) + '#comments'
    img_addrs = find_imgs(page_url)
    save_imgs(folder,img_addrs)

if __name__ == '__main__':
  download_mm()

其中在主函式download_mm()中，將pages設定在了5面。

本來設定的是10，但是在程式執行的過程中。出現了404ERROR錯誤

即imgae_url出現了錯誤。嘗試著在save_img()函式中加入了測試程式碼：print(img_addrs)，

想到會不會是因為後面頁數的圖片，img_url的格式出現了改變，導致404，所以將pages改成5，

再次執行，結果沒有問題，圖片能正常下載：

仔細觀察發現，剛好是在第五面的圖片往後，出現了不可下載的問題（404）。所以在煎蛋網上，我們直接跳到第6面檢視圖片的url。

上圖是後5面的圖片url，下圖是前5面的圖片url

而原始碼中，尋找的圖片url為使用find()函式，進行定為<img src=‘'> <.jpg>中的圖片url，所以後5面出現的a href無法匹配，即出現了404 ERROR。如果想要下載後續的圖片，需要重新新增一個url定位

即在find中將 img src改成 a href，偏移量也需要更改。

總結：

使用find()來定位網頁標籤確實太過low，所以以後在爬蟲中要儘量使用正則表示式和Beautifulsoup包來提高效率，而這兩項我還不是特別熟，所以需要更多的訓練。

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

Python爬蟲爬取煎蛋網圖片程式碼例項

python來爬取煎蛋網隨手拍小姐姐圖片

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

python爬蟲爬取筆趣網小說網站過程圖解

首先：文章用到的解析庫介紹 BeautifulSoup： Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。

python爬蟲-爬取百度圖片

python爬蟲-爬取百度圖片（轉） #!/usr/bin/python# coding=utf-8# 作者:Y0010026# 建立時間:2018/12/16 16:16# 檔案:spider_04.py# IDE:PyCharm# 爬取百度圖片（GET方式爬取Ajax資料）import urllib2url = \'http:/

python+Selenium 爬蟲爬取慕課網課程評價，並儲存為excel

技術標籤：爬蟲Python爬蟲pythonselenium資料分析chrome 主要功能： 1、爬取慕課網課程評價

python爬蟲爬取圖片的簡單程式碼

Python是很好的爬蟲工具不用再說了，它可以滿足我們爬取網路內容的需求，那最簡單的爬取網路上的圖片，可以通過很簡單的方法實現。只需匯入正則表示式模組，並利用spider原理通過使用定義函式的方法可以輕鬆的實現爬

python爬蟲爬取網易雲音樂（超詳細教程，附原始碼）

一、前言先說結論，目前無法下載無損音樂，也無法下載vip音樂。此程式碼模擬web網頁js加密的過程，向api介面傳送引數並獲取資料，僅供參考學習，如果需要下載網易雲音樂，不如直接在客戶端下載，客戶端還可以下載

python爬蟲爬取幽默笑話網站

爬取網站為：http://xiaohua.zol.com.cn/youmo/ 檢視網頁機構，爬取笑話內容時存在如下問題：

Python爬蟲爬取Bilibili彈幕過程解析

先來思考一個問題，B站一個視訊的彈幕最多會有多少？比較多的會有2000條吧，這麼多資料，B站肯定是不會直接把彈幕和這個視訊綁在一起的。

python爬蟲爬取監控教務系統的思路詳解

這幾天考了大大小小几門課，教務系統又沒有成績通知功能，為了急切想知道自己掛了多少門，於是我寫下這個指令碼。

Python爬蟲爬取電影票房資料及圖表展示操作示例

本文例項講述了Python爬蟲爬取電影票房資料及圖表展示操作。分享給大家供大家參考，具體如下：

Python爬蟲爬取、解析資料操作示例

本文例項講述了Python爬蟲爬取、解析資料操作。分享給大家供大家參考，具體如下：

Python爬蟲爬取杭州24時溫度並展示操作示例

本文例項講述了Python爬蟲爬取杭州24時溫度並展示操作。分享給大家供大家參考，具體如下：

Python爬蟲爬取百度搜索內容程式碼例項

這篇文章主要介紹了Python爬蟲爬取百度搜索內容程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python爬蟲爬取部落格實現視覺化過程解析

原始碼： from pyecharts import Bar import re import requests num=0 b=[] for i in range(1,11): link=\'https://www.cnblogs.com/echoDetected/default.html?page=\'+str(i)