python之爬蟲的入門02------爬取圖片、異常處理

阿新 • • 發佈：2018-11-13

一、爬取一張圖片

import urllib.request

req = 'http://placekitten.com/400/400'   # url地址
response = urllib.request.urlopen(req)   #用檔案形式來開啟url地址對應的HTML頁面
cat_img = response.read()               #讀取資料

with open('cat01.jpg','wb') as f:       #上下文管理器生成jpg檔案儲存資料
    f.write(cat_img)
print(response.geturl())    #geturl  展示的是url地址
print(response.info())      #info    展示一個物件，物件包含了遠端伺服器返回的head資訊
print(response.getcode())   #getcode 返回HTTP的狀態，200表示ok

二、爬蟲異常處理

import urllib.request
import urllib.error

#這裡的url地址：http://www.ooxx-fishc.com    是不存在的
req = urllib.request.Request('http://www.ooxx-fishc.com')

try:    #嘗試獲取內容，獲取不到或者出現其他錯誤，轉入except
    html = urllib.request.urlopen('http://www.baidu.com/ooxx.html')
    print(html)
except urllib.error.HTTPError as e:
    print(e.code)
    print(e.read())

python之爬蟲的入門02------爬取圖片、異常處理

一、爬取一張圖片 import urllib.request req = 'http://placekitten.com/400/400' # url地址 response = urllib.request.urlopen(req) #用檔案形式來開啟url地址對應的HTML頁

python 學習 - 爬蟲入門練習爬取鏈家網二手房資訊

import requests from bs4 import BeautifulSoup import sqlite3 conn = sqlite3.connect("test.db") c = conn.cursor() for num in range(1,101): url = "h

Python爬蟲入門 | 4 爬取豆瓣TOP250圖書信息

Python 編程語言 Python爬蟲先來看看頁面長啥樣的:https://book.douban.com/top250 我們將要爬取哪些信息：書名、鏈接、評分、一句話評價……1. 爬取單個信息我們先來嘗試爬取書名，利用之前的套路，還是先復制書名的xpath：得到第一本書《追風箏的人》的書名xpath如下：

Python爬蟲入門 | 5 爬取小豬短租租房信息

圖片交流 ffffff 信息 jpg http 而已基本 mat 小豬短租是一個租房網站，上面有很多優質的民宿出租信息，下面我們以成都地區的租房信息為例，來嘗試爬取這些數據。小豬短租（成都）頁面：http://cd.xiaozhu.com/1.爬取租房標題按照慣例，

Python 爬蟲入門(一)——爬取糗百

upa ext win comment 地址 odi 批量爬蟲程序 article 爬取糗百內容 GitHub 代碼地址https://github.com/injetlee/Python/blob/master/qiubai_crawer.py 微信公眾號：【智能制造專

Python爬蟲入門（爬取某網頁財經部分股票資料）

1：反思部分之前上學期也是看過一點點爬蟲的東西，然後時間太久了也基本哪裡學的又還給哪裡了。然後這兩週的時間被班主任的要求下開始一點一點接觸爬蟲，開始的時候覺的很害怕。可能是因為我這個人的性格，對於未接觸過的事物總有一些莫名的恐懼感，而且之前做東西總習慣了旁邊

python爬蟲: 指定關鍵字爬取圖片

Introduction 設定關鍵字，從百度圖片上爬取海量圖片。 Code # coding:utf-8 import os import re import urllib import shutil import requests import i

Python爬蟲入門 | 5 爬取小豬短租租房資訊

小豬短租是一個租房網站，上面有很多優質的民宿出租資訊，下面我們以成都地區的租房資訊為例，來嘗試爬取這些資料。 1.爬取租房標題按照慣例，先來爬下標題試試水，找到標題，複製xpath。多複製幾個房屋的標題 xpath 進行對比：

Python爬蟲入門 | 4 爬取豆瓣TOP250圖書資訊

我們將要爬取哪些資訊：書名、連結、評分、一句話評價…… 1. 爬取單個資訊我們先來嘗試爬取書名，利用之前的套路，還是先複製書名的xpath：得到第一本書《追風箏的人》的書名xpath如下： //*[@id=

python爬蟲--利用xpath爬取圖片（虛擬機器ubuntu16.04）

此篇爬蟲的背景是：虛擬機器剛裝好的ubuntu 16.04，系統環境還需配置，爬蟲的程式是之前幾個月前在windows上寫的，今天放到虛擬機器上跑一跑！（安裝了VMware Tools就可以把宿主機上的檔案拉進虛擬機器中！） xpath爬取用到了urllib2與lxml庫，

python 爬蟲入門(二) 爬取簡單網頁並儲存到本地

import refrom urllib.request import Request, urlopen#爬蟲基本的三個步驟:1.向頁面傳送請求, 獲取原始碼(都是靜態頁面的程式碼);2, 利用正則匹配資料;3 .儲存到資料庫class DataParserTool(obje

Python爬蟲入門 | 2 爬取豆瓣電影資訊

這是一個適用於小白的Python爬蟲免費教學課程，只有7節，讓零基礎的你初步瞭解爬蟲，跟著課程內容能自己爬取資源。看著文章，開啟電腦動手實踐，平均45分鐘就能學完一節，如果你願意，今天內你就可以邁入爬蟲的大門啦~ 好啦，正式開始我們的第二節課《爬取豆瓣電影資訊

python從爬蟲基礎到爬取網路小說例項

一.爬蟲基礎 1.1 requests類　　1.1.1 request的7個方法 requests.request() 例項化一個物件,擁有以下方法 requests.get(url, *args) requests.head() 頭資訊

爬蟲入門，爬取酷狗歌單top500，簡單爬蟲案例

import requests from bs4 import BeautifulSoup import time headers = { 'User-Agent': 'Mozilla/5.0

java爬蟲WebMagic框架爬取圖片

一.該爬蟲用了WebMagic爬蟲框架實現 2.在使用之前，您需要了解正則表示式和XPath，大神請忽略二.下面是實現程式碼和分析 2.1新增maven依賴 <dependency> <groupId>juni

xpath爬蟲例項，爬取圖片網站百度盤地址和提取碼

某套圖網站，套圖以封面形式展現在頁面，需要依次點選套圖，點選廣告盤連結，最後到達百度網盤展示頁面。這一過程通過爬蟲來實現，收集百度網盤地址和提取碼，採用xpath爬蟲技術 1、首先分析圖片列表頁，該頁按照更新先後順序暫時套圖封面，檢視HTML結構。每一組“li”對應一組套圖。屬

Python 網路爬蟲實戰：爬取 B站《全職高手》20萬條評論資料

本週我們的目標是：B站（嗶哩嗶哩彈幕網 https://www.bilibili.com ）視訊評論資料。我們都知道，B站有很多號稱“鎮站之寶”的視訊，擁有著數量極其恐怖的評論和彈幕。所以這次我們的目標就是，爬取B站視訊的評論資料，分析其為何會深受大家喜愛。首先去調研一下，B站評論數量最多的視訊是哪一

Python爬蟲入門（5）：URLError異常處理

大家好，本節在這裡主要說的是URLError還有HTTPError，以及對它們的一些處理。 1.URLError 首先解釋下URLError可能產生的原因：網路無連線，即本機無法上網連線不到特定的伺服器伺服器不存在在程式碼中，我們需要用

python3 爬取網頁的異常處理

有時候python爬取的網頁會出現異常，我們需要新增異常處理我們主要說明一下URLError和HTTPError URLError 首先解釋下URLError可能產生的原因：網路無連線，即

python之爬蟲的入門05------實戰：爬取貝殼網（用re匹配需要的資料）

# 第二頁：https://hz.zu.ke.com/zufang/pg2 # 第一頁：https://hz.zu.ke.com/zufang/pg1 import urllib.request import random import re def user_ip(): ''

python之爬蟲的入門02------爬取圖片、異常處理

相關推薦