初級爬蟲(一) requests模組實現網頁批量圖片爬取

阿新 • • 發佈：2018-12-28

思路分析:
已知網頁:如http://www.jiangxian.gov.cn/N20180821093426.html
1, 檢查網頁分析網頁中圖片的地址形式,
2,獲取網頁內容,正則匹配出所有圖片的地址,
3,拼接地址生成列表
4,迴圈列表,生成圖片地址的文字檔案
5,迴圈列表,取出每個地址,獲得地址內容
6,寫入到資料夾

難點:首先是獲取每個圖片的地址____這是一個獲取過程
再次獲取圖片____相當於獲取另一個網頁的過程

程式碼如下:

import requests
import re

#請求頭
headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"
}
#基礎地址
url = "http://www.jiangxian.gov.cn/N20180821093426.html"
#從網頁右鍵檢檢視到的圖片地址格式
# <P align=center><IMG src="/upload/20180821100128526.jpg"></P>
#正則分析: src="(/upload/.*?)
#初次獲取原始網頁內容
response = requests.get(url, headers=headers)
#輸出網頁內容
htm = response.content.decode('gbk')
#在網頁內容中匹配圖片的標籤(注意正則的引號,外單內雙)
list1 = re.findall('src="(/upload/.*?)"', htm)
#拼接圖片真實地址,可以在瀏覽器中點選圖片檢視地址拼接形式,列表推導式
list2 = ['http://www.jiangxian.gov.cn/' + i for i in list1]

#將地址儲存成文字,注意需要迴圈遍歷
with open('tu/tu.txt', 'w')as f:
    for t in list2:
        f.write(t+'\n')

#然後繼續遍歷列表2, 重新獲取網頁內容,分別提取每個網頁的內容輸出成圖片
for u in list2:
    resp = requests.get(u, headers=headers)
    img = resp.content
    #命名 (難點是字串和int型別的值之間的轉換)
    name = 'tu' + str(list2.index(u)) + '.jpg'
    # print(name)測試
    #拼接圖片庫地址
    path = './tu/' + name

    File = open(path, 'wb')
    File.write(img)
    File.flush()
    File.close()


    #寫入的另一種形式
    # with open(path, 'wb')as w:
    #     w.write(img)

#問題: 怎麼實現邊讀取邊寫入?執行發現是全部讀取完後一次性寫入 ,不科學啊 ,目前不知道怎麼解決

結果

初級爬蟲(一) requests模組實現網頁批量圖片爬取

思路分析: 已知網頁:如http://www.jiangxian.gov.cn/N20180821093426.html 1, 檢查網頁分析網頁中圖片的地址形式, 2,獲取網頁內容,正則匹配出所有圖片的地址, 3,拼接地址生成列表 4,迴圈列表,生成圖片地址的文字檔案 5,迴圈列表,取出

分布式爬蟲系統設計、實現與實戰：爬取京東、蘇寧易購全網手機商品數據+MySQL、HBase存儲

大數據分布式爬蟲 Java Redis [TOC] 1 概述在不用爬蟲框架的情況，經過多方學習，嘗試實現了一個分布式爬蟲系統，並且可以將數據保存到不同地方，類似MySQL、HBase等。基於面向接口的編碼思想來開發，因此這個系統具有一定的擴展性，有興趣的朋友直接看一下代碼，就能理

Python爬蟲入門教程 6-100 蜂鳥網圖片爬取之一

enter 第一步 {} status .... 一個網站分析 except rep 1. 簡介國慶假日結束了，新的工作又開始了，今天我們繼續爬取一個網站，這個網站為 http://image.fengniao.com/ ，蜂鳥一個攝影大牛聚集的地方，本教程請用來學習，

Python爬蟲入門教程 8-100 蜂鳥網圖片爬取之三

asyncio esp 分享圖片 0.10 結果 .text win int lang 啰嗦兩句前幾天的教程內容量都比較大，今天寫一個相對簡單的，爬取的還是蜂鳥，依舊采用aiohttp 希望你喜歡爬取頁面https://tu.fengniao.com/15/ 本篇教程還

python爬蟲之反爬蟲情況下的煎蛋網圖片爬取初步探索

本次爬蟲網址：http://jandan.net/ooxx 前言：前段時間一直在折騰基於qqbot的QQ機器人，昨天用itchat在微信上也寫了一個機器人，相比webqq，微信的web端功能比較豐富，圖片、檔案等都可以傳輸。今天閒來無事準備給寫個爬蟲豐富微信機器

Python爬蟲新手教程：知乎文章圖片爬取器

1. 知乎文章圖片爬取器之二部落格背景昨天寫了知乎文章圖片爬取器的一部分程式碼，針對知乎問題的答案json進行了資料抓取，部落格

爬蟲（一）——用Requests模組獲取網頁資訊

呼叫requests庫裡面的get方法，獲取網頁的資訊，呼叫page.text獲取網頁原始碼，然後通過print打印出網頁原始碼 import requests page = requests.get(

爬蟲及requests模組

什麼是爬蟲網路爬蟲（又被稱為網頁蜘蛛，網路機器人，在FOAF社群中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。例如：給個網址，可以獲取到該網址裡邊的（圖片， url，視訊，

爬蟲概念 requests模組

requests模組 - 基於如下5點展開requests模組的學習什麼是requests模組 requests模組是python中原生的基於網路請求的模組，其主要作用是用來模擬瀏覽器發起請求。功能強大，用法簡潔高效。在爬蟲領域中佔據著半壁江山的地位。

利用Python的requests模組實現翻譯程式

1：安裝requests模組 pip install requests 2：開啟百度翻譯進行抓包，剛剛操作了一波發現pc版的正面不好剛，有sign不知道是什麼玩意，，emmmm，剛了半天不知道，所有切換到手機版，奇蹟出現了，，，嘿嘿嘿.... 3：抓取介面 Reque

孤荷凌寒自學python第六十七天初步瞭解Python爬蟲初識requests模組

孤荷凌寒自學python第六十七天初步瞭解Python爬蟲初識requests模組（完整學習過程螢幕記錄視訊地址在文末）從今天起開始正式學習Python的爬蟲。今天已經初步瞭解了兩個主要的模組： requests BeautifulSoup 一

nodejs之http、fs、querystring模組實現網頁與伺服器的互動

一.實現瀏覽器端請求之後，伺服器響應開啟相應的靜態網頁內容：思路：直接通過瀏覽器端輸入的url值來判斷，從而顯示出該url對應的網頁的內容。直接在配置伺服器的js程式碼裡寫出靜態頁面的內容： //前端頁面和伺服器未分離 var http = requir

Python爬蟲——利用requests模組爬取妹子圖

近期學了下python爬蟲，利用requests模組爬取了妹子圖上的圖片，給單身狗們發波福利，哈哈！順便記錄一下第一次發部落格。話不多說，進入正題開發環境 python 3.6 涉及到的庫 requests lxml 先上一波爬取的截圖

Python3 urllib.request與requests模組請求網頁程式碼

爬蟲的起點，獲取網頁程式碼 #!/usr/bin/env python3 # -*- encoding:utf-8 -*- # 請求網頁程式碼 import urllib.request r

Python爬蟲之requests模組

獲取響應資訊 import requests response = requests.get('http://www.baidu.com') print(response.status_code) # 狀態碼 print(response.url) # 請求url print(respon

Python3實現QQ機器人自動爬取百度文庫的搜索結果並發送給好友（主要是爬蟲）

OS __main__ end aid 機器 https code __name__ gbk 一、效果如下：二、運行環境： win10系統；python3；PyCharm 三、QQ機器人用的是qqbot模塊用pip安裝命令是： pip

Python開發爬蟲之BeautifulSoup解析網頁篇：爬取安居客網站上北京二手房數據

澳洲 pytho 目標 www. 委托 user info .get web 目標：爬取安居客網站上前10頁北京二手房的數據，包括二手房源的名稱、價格、幾室幾廳、大小、建造年份、聯系人、地址、標簽等。網址為：https://beijing.anjuke.com/sale/

Python網絡爬蟲技巧小總結，靜態、動態網頁輕松爬取數據

開發者工具 cap 簡單 pos 動態網頁 class 查看這樣的 bsp 很多人學用python，用得最多的還是各類爬蟲腳本：有寫過抓代理本機驗證的腳本，有寫過自動收郵件的腳本，還有寫過簡單的驗證碼識別的腳本，那麽我們今天就來總結下python爬蟲抓站的一些實用技巧。

[爬蟲入門]Python中使用scrapy框架實現圖片爬取

轉載： https://www.jianshu.com/p/c1704b4dc04d 連結中作者寫的十分詳細，雖然示例中的網站已經無法訪問，但是零基礎效仿也能試著自己做！真的很良心的文章，作為零基礎入門的小白可以靠看註釋和函式關係猜測出函式用法

四、利用SeimiCrawler爬蟲框架和selenium自動化測試工具分別實現對網站的爬取

一、案例背景這裡為了簡化操作，我們以爬取 http://www.fzdm.com/ 網頁的熱門漫畫為例。二、對比 SeimiCrawler爬蟲框架爬取速度較快，但是不穩定（表現線上程一多，易崩潰）；selenium自動化測試工具爬取速度略慢，但是穩定。三、方式一：S

初級爬蟲(一) requests模組實現網頁批量圖片爬取

相關推薦