Python3 抓取網頁中的圖片

阿新 • • 發佈：2019-02-01

import urllib.request
import socket
import re
import sys
import os
targetDir = r"C:\Users\elqstux\Desktop\pic"
def destFile(path):
    if not os.path.isdir(targetDir):
        os.mkdir(targetDir)
    pos = path.rindex('/')
    t = os.path.join(targetDir, path[pos+1:])
    return t

if __name__ == "__main__":
    hostname = "http://www.douban.com"
    req = urllib.request.Request(hostname)
    webpage = urllib.request.urlopen(req)
    contentBytes = webpage.read()
    for link, t in set(re.findall(r'(http:[^\s]*?(jpg|png|gif))', str(contentBytes))):
        print(link)
        urllib.request.urlretrieve(link, destFile(link))

import urllib.request
import socket
import re
import sys
import os
targetDir = r"H:\pic"
def destFile(path):
    if not os.path.isdir(targetDir):
        os.mkdir(targetDir)
    pos = path.rindex('/')
    t = os.path.join(targetDir, path[pos+1:])  #會以/作為分隔
    return t

if __name__ == "__main__":
    hostname = "http://www.douban.com/"
    req = urllib.request.Request(hostname)
    webpage = urllib.request.urlopen(req)
    contentBytes = webpage.read()
    match = re.findall(r'(http:[^\s]*?(jpg|png|gif))', str(contentBytes) )#r'(http:[^\s]*?(jpg|png|gif))'中包含兩層圓括號，故有兩個分組，
                                                          #上面會返回列表，括號中匹配的內容才會出現在列表中
    for picname, picType in match:
        print(picname)
        print(picType)
      

'''
輸出：
http://img3.douban.com/pics/blank.gif
gif
http://img3.douban.com/icon/g111328-1.jpg
jpg
http://img3.douban.com/pics/blank.gif
gif
http://img3.douban.com/icon/g197523-19.jpg
jpg
http://img3.douban.com/pics/blank.gif
gif
...
'''

轉載來源：http://blog.csdn.net/wangyangkobe/article/details/8712121

Python3 抓取網頁中的圖片

import urllib.request import socket import re import sys import os targetDir = r"C:\Users\elqstux\Desktop\pic" def destFile(path): if

python爬蟲-- 抓取網頁、圖片、文章

零基礎入門Python，給自己找了一個任務，做網站文章的爬蟲小專案，因為實戰是學程式碼的最快方式。所以從今天起開始寫Python實戰入門系列教程，也建議大家學Python時一定要多寫多練。目標 1，學習Python爬蟲 2，爬取新聞網站新聞列表 3，爬取圖片 4，把爬取到的資料存在本地

python爬蟲爬取非同步載入網頁資訊（python抓取網頁中無法通過網頁標籤屬性抓取的內容）

1.問題描述最近由於學習內容的要求，需要從網頁上抓取一些資料來做分析報告，在看了python爬蟲的一些基礎知識之後就直接上手去網站上爬資料了。作為新手踩坑是無法避免，最近就遇到了一個比較難的問題：一般情況下，要抓去網頁上某個標籤上的內容，在通過urllib下

爬蟲有多好玩？所見即所爬！抓取網頁、圖片、文章！無所不爬！

一，首先看看Python是如何簡單的爬取網頁的 1，準備工作專案用的BeautifulSoup4和chardet模組屬於三方擴充套件包，如果沒有請自行pip安裝，我是用pycharm來做的安裝，下面簡單講下用pycharm安裝chardet和BeautifulSou

JAVA抓取網頁的圖片,JAVA利用正則表示式抓取網站圖片

利用java抓取網頁上的所有圖片：用兩個正則表示式： 1、匹配html中img標籤的正則：<img.*src=(.*?)[^>]*?> 2、匹配img標籤中得src中http路徑的正則：http:\"?(.*?)(\"|>|\\s+) 實現：

如何抓取網頁中的實時監測資料進行分析

使用wpf做了窗體，跟Silverlight開發環境一樣，將前臺設計與後臺開發邏輯分離開來，抓取南京市九個PM 2.5監測站點的資料前臺程式碼： <Grid> <Button Content="資料獲取" Heigh

python3 抓取圖片

urllib def tao baidu taobao read ont all pytho import reimport urllib.request# import urllibimport osdef getHtml(url): page = urllib.r

kettle抓取網頁上的資料儲存到資料表中

今天做一個利用kettle抓取網頁資料儲存到資料表中的demo，如抓取AA市的空氣質量AQI 1.檢視網頁資訊 2.按下開發者工具，檢視虎丘空氣質量日報的請求 3.弄懂了網頁請求，並通過檢視資料格式，可以在資料庫中建表，表格如下 4.接下來就是在kettle中進行操

python 爬取網頁中的圖片到本地

最近在學習python,順便寫一個爬取網頁中圖片的程式練練手。主要分為兩個過程：第一，從給定域名的網頁中爬取圖片的連結第二，讀取連結對應的圖片，儲存到本地第一個過程需要匯入utllib包，在

Python初學者好玩案例（一）：最短的抓取網頁圖片程式碼，只有10行

這幾天閒來無事，又研究了一下Python的基礎內容，首先研究的是如何抓取網頁資料。發現大神們通常在初級教程裡就要寫很多程式碼，真讓我們這些初學者無所適從。加上Python的各種版本不同，也會讓初學者頭腦，在此提醒初學者，看資料一定要注意軟體版本號。還是按照我的原則，凡

一個簡單的網路爬蟲---爬取網頁中的圖片

這裡貼上py原始碼,這個爬蟲很簡單，爬取網頁的圖片，通過正則表示式匹配對應的圖片的url 然後下載之，基本上也沒有什麼容錯處理，僅供學習之用 # -*- coding: utf-8 -*- import urllib2 import urllib im

Python3爬蟲（一）抓取網頁的html

因為程式碼只有幾行，所以可以先貼程式碼： import urllib.request url = r'http://douban.com' res = urllib.request.urlopen(url) html = res.read().decode('utf-

Python爬蟲——爬取網頁中的圖片小試牛刀

Preface：以往爬取文字，這次需要爬取圖片pdf，先上手一個例子，爬取pdf，先取得url，然後通過urllib.urlretrieve函式將url的網頁內容遠端下載到本地，第一個引數為url，第二個引數為檔名(程式碼中有誤)，第三個引數為回撥函式，可以顯示下載進度。另

用java抓取網頁圖片

記得是這個月9號來深圳的，找了快20天的工作，結果只有那麼三四家公司打電話要我去面試，真的不知道什麼原因啊。是我投簡歷投簡歷投少了麼？還是這個季節就是招聘冷季節？真的不清楚。前天去一家創業公司面試，公司感覺還好，整體還算滿意，很幸運的被面試上了。談的工資也是我能接受的，就答

JAVA抓取網頁圖片並下載到本地

package com.yong.util; import java.io.File; import java.io.FileOutputStream; import java.io.InputStream; import java.net.URL; import jav

PHP中使用file_get_contents抓取網頁中文亂碼問題解決方法，GZIP

這篇文章主要介紹了PHP中使用file_get_contents抓取網頁中文亂碼問題解決方法,可以通過使用curl配置gzip選項來解決,具有一定的參考借鑑價值,需要的朋友可以參考下本文例項講述了PHP中使用file_get_contents抓取網頁中文亂碼問題解決方法。分享

Python3 利用requests抓取網頁原始碼中文亂碼問題（由gb2312編碼引起）

核心問題： meta charset = “gb2312” requests 中文亂碼 ×îÐÂÏûÏ¢_¡¶ÃÎ»ÃÎ÷ÓÎ¡·µçÄÔ°æ¹Ù·½ÍøÕ¾ 以夢幻西遊官網為例 <!DOCTYPE html> <hea

C# 正則表示式抓取網頁上某個標籤的內容，並替換連結地址和圖片地址

#region 獲取第三方網站內容 //獲取其他網站網頁內容的關鍵程式碼 WebRequest request = WebRequest.Create(第三方的網站地址); WebResponse response = requ

實現抓取網頁圖片（JAVA實現）

最近學習網頁設計，想仿網路上的一個頁面，圖片素材一個一個地儲存起來太麻煩。就想著裡利用JAVA來實現一個小小的網頁圖片爬蟲，程式碼很簡單，不一會兒就實現了，但是當我訪問https協議的圖片時，一直報javax.net.ssl.SSLKeyException異常，到我儲

python3實現網路爬蟲（1）--urlopen抓取網頁的html

準備開始寫一些python3關於爬蟲相關的東西，主要是一些簡單的網頁爬取，給身邊的同學入門看。首先我們向網路伺服器傳送GET請求以獲取具體的網頁，再從網頁中讀取HTML內容。我們大家平時都使用網路瀏覽器，並且它已經成為我們上網不可或缺的軟體。它建立資訊的資

Python3 抓取網頁中的圖片

相關推薦