python實現簡單圖片爬蟲並保存

阿新 • • 發佈：2017-06-28

.com 貪婪模式 web頁面 logs urn 並不是 python 保存 light

先po代碼

#coding=utf-8
import urllib.request  #3之前的版本直接用urllib即可，下同 #該模塊提供了web頁面讀取數據的接口，使得我們可以像讀取本地文件一樣讀取www或者ftp上的數據
import re
import os

def getHtml(url):
    page = urllib.request.urlopen(url);
    html = page.read();
    return html;

def getImg(html):
    imglist = re.findall(‘img src="(http.*?)"‘,html)#1 #http.*?表示非貪婪模式的匹配，只要符合http就匹配完成，不再看後面的內容是否匹配，即在能使整個匹配成功的前提下，使用最少的重復
    return imglist

html = getHtml("https://www.zhihu.com/question/39731953").decode("utf-8");
imagesUrl = getImg(html);

if os.path.exists("D:/imags") == False:
    os.mkdir("D:/imags");
    
count = 0; #文件的起始名稱為 0 
for url in imagesUrl:
    print(url)
    if(url.find(‘.‘) != -1):#2
        name = url[url.find(‘.‘,len(url) - 5):];
        bytes = urllib.request.urlopen(url);
        f = open("D:/imags/"+str(count)+name, ‘wb‘);  #代開一個文件，準備以二進制寫入文件
        f.write(bytes.read());#write並不是直接將數據寫入文件，而是先寫入內存中特定的緩沖區
        f.flush();#將緩沖區的數據立即寫入緩沖區，並清空緩沖區
        f.close();#關閉文件
        count+=1;

　代碼分析：

　1.re.findall語法： findall(parttern,string,flags=0)

含義：返回string中與partten匹配的全部字符串，返回形式是數組

　2.find()語法：find(str,pos_start,pos_end)

含義：在url中查找str字符串的位置，pos_start是指從哪一個位置開始找，默認值為0，查找的默認位置，默認值為-1，若在url中找不到str,則返回-1

python實現簡單圖片爬蟲並保存

.com 貪婪模式 web頁面 logs urn 並不是 python 保存 light 先po代碼 #coding=utf-8 import urllib.request #3之前的版本直接用urllib即可，下同 #該模塊提供了web頁面讀取數據的接口，使得我們可以

Android實現圖片下載並保存SD卡

tex on() puts show sta exc method pat bit 一、首先獲取圖片 //第一種獲取圖片的方法 1 String filePath = downloadUrl; 2 //以下是取得圖片的方法 3 取得的是InputStream，直接

Python 實現簡單的爬蟲功能並儲存到本地

昨天下班後忽然興起想寫一個爬蟲抓抓網頁上的東西。花了一個鐘簡單學習了python的基礎語法，然後參照網上的例子自己寫了個爬蟲。 #coding=utf-8 import urllib.request import re import os ''' Urllib 模組提供

Python 實現簡單圖片驗證碼登錄

需要 spa tps dem 圖片背景 round alt word exc 朋友說公司要在測試環境做接口測試，登錄時需要傳入正確的圖片的驗證碼，本著懶省事的原則，推薦他把測試環境的圖片驗證碼寫死，我們公司也是這麽做的^_^。勸說無果/(ㄒoㄒ)/~~，只能通過 OCR 技

java接受安卓及ios App上傳的圖片，並保存到阿裏OSS

access servle 設置 string gets ont 圖片上傳擴展名 summary 做後臺的時候，寫了兩個方法，分別用來獲取安卓和蘋果IOS端上傳的頭像，保存到阿裏雲OSS圖片存儲服務器上。（SMM框架）安卓及H5版本： 1 /** 2

SpringMVC上傳文件（圖片）並保存到本地

.com servle bstr name div put stp axu span SpringMVC上傳文件（圖片）並保存到本地小記一波~ 基本的MVC配置就不展示了，這裏給出核心代碼在spring-mvc的配置文件中寫入如下配置 <bea

Python+selenium之截圖圖片並保存截取的圖片

只需要 odi 通過位置 .py alt ims oca 創建本文轉載：http://blog.csdn.net/u011541946/article/details/70141488 http://www.cnblogs.com/timsheng/archive/20

python多線程下載網頁圖片並保存至特定目錄

loading eat start file ext thread end tex _for #!python3 #multidownloadXkcd.py - Download XKCD comics using multiple threads. import r

python-嘗試將Excel文件保存為圖片並加上水印

缺陷 white 導出 nms lsb Coding hrp 場景 phantom python-嘗試將Excel文件保存為圖片並加上水印場景：並不是將 excel 的 chart 生成圖片，而是將整個表格內容生成圖片。 1. 準備工作目前搜索不到已有的方法，只能

Python爬蟲為何可以這麽叼？爬取百度雲盤資源！並保存到自己雲盤

源碼下載表達 har .cn bdb 裏的 image AC 賬號登錄點擊它，再點擊右邊的【Cookies】就可以看到請求頭裏的 cookie 情況。 cookie分析除了上面說到的兩個 cookie ，其他的請求頭參數可以參照手動轉存

用單進程、多線程並發、多線程分別實現爬一個或多個網站的所有鏈接，用瀏覽器打開所有鏈接並保存截圖 python

app imp mat 並發執行 cut h+ chrome 鏈接目錄 #coding=utf-8import requestsimport re,os,time,ConfigParserfrom selenium import webdriverfrom multipr

Python實現簡單爬蟲功能--批量下載百度貼吧裡的圖片

在上網瀏覽網頁的時候，經常會看到一些好看的圖片，我們就希望把這些圖片儲存下載，或者使用者用來做桌面桌布，或者用來做設計的素材。　　我們最常規的做法就是通過滑鼠右鍵，選擇另存為。但有些圖片滑鼠右鍵的時候並沒有另存為選項，還有辦法就通過就是通過截圖工具擷取下來，但這樣就降低圖片的清晰度

java基於jsoup實現簡單的圖片爬蟲並下載

2018年11月04日 17:20:32 小小申閱讀數：4 標籤： jsoup java

Python中呼叫OpenCV介面中的高斯混合模型，實現對運動目標的檢測，並保存錄制視訊

Python中呼叫OpenCV介面中的高斯混合模型(GMM)，實現對運動目標的檢測 import numpy as np import cv2 # TODO: 本程式碼使用OpenCV介面中的高斯混合模型，實現對運動目標的檢測 cap = cv2.VideoCapture(

java實現xml文件讀取並保存到對象

數據封裝 itl imp get return 配置文件 targe dom4j xml配置首先淺聊一下解析xml的四種方式： 1.DOM方式：有缺點但是這個缺點卻也是他的優點。下面詳細介紹：

Python實例之抓取淘寶商品數據（json型數據）並保存為TXT

sel range ats 表達隨著 request nic rom .get 本實例實現了抓取淘寶網中以‘python’為關鍵字的搜索結果，經詳細查看數據存儲於html文檔中的js腳本中，數據類型為JSON 通過瀏覽器相關工具發現捧腹網笑話頁面的數據存儲在HTML頁面而

Python實例之抓取網易雲課堂搜索數據（post方式json型數據）並保存為TXT

網易雲 pytho sco 關鍵詞 page json ner urn 頁碼本實例實現了抓取網易雲課堂中以‘java’為關鍵字的搜索結果，經詳細查看請求的方式為post，請求的結果為JSON數據具體實現代碼如下： import requests import json

Python獲取個人網站的所有課程下載鏈接和密碼，並保存到Mongodb中

one find() net agent play col pat 進行 jpg 1、獲取網站課程的分類地址； ‘‘‘ 爬取屌絲首頁，獲取每個分類名稱和鏈接 ‘‘‘ import requests from lxml import etree headers = {

Qt實現截屏並保存（轉載）

提示信息讓我介紹 etime widget core 親測 log ring 原博地址：http://blog.csdn.net/qinchunwuhui/article/details/52869451?_t_t_t=0.28889142944202306 目前對應用

PHP正則采集圖片並保存

con lap sta php正則 exists conn hid 文件名 time <?php /* *功能：php完美實現下載遠程圖片保存到本地 *參數：文件url,保存文件目錄,保存文件名稱，使用的下載方式 *當保存文件名稱為空時則使用遠程文件原來的名稱

python實現簡單圖片爬蟲並保存

相關推薦