網路不穩定時python爬蟲技巧
網路不穩定時,用爬蟲下載檔案會報ContentTooShortError,類似下面這樣:
ContentTooShortError: <urlopen error retrieval incomplete: got only 1043679 out of 1050997 bytes>
解決思路很簡單,就是捕獲異常,重新下載。但是如果重新下載的時候網路還是不穩定又遇到ContentTooShortError怎麼辦呢?答案是遞迴呼叫,反覆下載,直到能夠正常下載為止。
程式碼:
def recu_down(url,filename): # recurrent download with ContentTooShortError try: urllib.request.urlretrieve(url,filename) except urllib.error.ContentTooShortError: print ('Network conditions is not good. Reloading...') recu_down(url,filename)
下載的時候用這個函式替代urllib.request.urlretrieve函式就可以了。
相關推薦
網路不穩定時python爬蟲技巧
網路不穩定時,用爬蟲下載檔案會報ContentTooShortError,類似下面這樣: ContentTooShortError: <urlopen error retrieval incomplete: got only 1043679 out of 1050997 bytes>
Python 爬蟲技巧1 | 將爬取網頁中的相對路徑轉換為絕對路徑
1.背景: 在爬取網頁中的過程中,我對目前爬蟲專案後端指令碼中拼接得到絕對路徑的方法很不滿意,今天很無意瞭解到在python3 的 urllib.parse模組對這個問題有著非常完善的解決策略,真的是上天有眼,感動! 2.urllib.parse模組 This module define
使用Python一年多了,總結八個好用的Python爬蟲技巧
用python也差不多一年多了,python應用最多的場景還是web快速開發、爬蟲、自動化運維:寫過簡單網站、寫過自動發帖指令碼、寫過收發郵件指令碼、寫過簡單驗證碼識別指令碼。 爬蟲在開發過程中也有很多複用的過程,這裡總結一下,以後也能省些事情。 1、基本抓取網頁 get方法
STM32F4關於AD取樣時資料不穩定時“消抖”處理的幾種方法
STM32在利用AD採集時,如果是採集的感測器資料或其他傳入的資料的靈敏度相當高,或者因為其他原因導致資料不穩定,AD取樣採集進去後,資料抖動明顯,影響後期的資料利用,就需要對波動資料進行簡單的處理,以下是慕塵提供的可供嘗試的思路。 一、平均值濾波 最為簡單且容易想到的就是平均值濾波,多次取樣
總結八個好用的Python爬蟲技巧
用python也差不多一年多了,python應用最多的場景還是web快速開發、爬蟲、自動化運維:寫過簡單網站、寫過自動發帖指令碼、寫過收發郵件指令碼、寫過簡單驗證碼識別指令碼。 爬蟲在開發過程中也有很多複用的過程,這裡總結一下,以後也能省些事情。 1、基本抓取網頁 get方法
你絕對不知道的Python程式碼技巧,知道算我輸!
被人工智慧捧紅的 Python 已是一種發展完善且非常多樣化的語言,其中肯定有一些你尚未發現的功能。本文或許能夠讓你學到一些新技巧。 Python 是世界上最流行、熱門的程式語言之一,原因很多,比如: 易於學習 超高的通用性 具備大量模組和庫
[轉]用python爬蟲抓站的一些技巧總結 zz
內容 req xxxxx pic 個數 相關 choice 都是 observe 來源網站:http://www.pythonclub.org/python-network-application/observer-spider 學用python也有3個多月了,用得最
Python爬蟲基礎與技巧
修改 request對象 enc 語言 是我 res 加密 firefox int 基於Python2.71 基本抓取網頁get 方法import urllib2url = "http://www.baidu.com"response = urllib2
Python:爬蟲技巧總結!
gen name server 解析 num erro dde 資料 pre 一些常用的爬蟲技巧歸納與以下幾點: 1、基本抓取網頁 get方法 import urllib2 url "http://www.baidu.com" respons = urllib2.urlop
Python網絡爬蟲技巧小總結,靜態、動態網頁輕松爬取數據
開發者工具 cap 簡單 pos 動態網頁 class 查看 這樣的 bsp 很多人學用python,用得最多的還是各類爬蟲腳本:有寫過抓代理本機驗證的腳本,有寫過自動收郵件的腳本,還有寫過簡單的驗證碼識別的腳本,那麽我們今天就來總結下python爬蟲抓站的一些實用技巧。
scrapy框架爬蟲爬取糗事百科 之 Python爬蟲從入門到放棄第不知道多少天(1)
Scrapy框架安裝及使用 1. windows 10 下安裝 Scrapy 框架: 前提:安裝了python-pip 1. windows下按住win+R 輸入cmd 2. 在cmd 下 輸入 pip install scrapy pip inst
Python爬蟲入門實戰系列(一)--爬取網路小說並存放至txt檔案
執行平臺: Windows Python版本: Python3.x 一、庫檔案
Python,自己修改的爬去淘寶網頁的程式碼 解決Python爬蟲爬取淘寶商品資訊也不報錯,也不輸出資訊
程式碼部分: 下面是正確的: import requests import re def getHTMLText(url): try: r = requests.get(url, timeout = 30) r.raise_for_stat
python 每天如何定時啟動爬蟲任務
想要每天定時啟動,最好是把程式放在linux伺服器上執行,畢竟linux可以不用關機,即定時任務一直存活; #coding:utf8 import datetime import time def doSth(): # 把爬蟲程式放在這個類裡 print(u'這個程式
Python 爬蟲基礎學習--網路爬蟲與資訊提取
Python 爬蟲基礎學習 Requests庫的安裝 Win平臺: “以管理員身份執行”cmd,執行 pip install requests Requests庫的7個主要的方法 Requests庫中2個重要的物件:Request和Response Response物件
Python爬蟲:一些常用的爬蟲技巧總結
用python也差不多一年多了,python應用最多的場景還是web快速開發、爬蟲、自動化運維:寫過簡單網站、寫過自動發帖指令碼、寫過收發郵件指令碼、寫過簡單驗證碼識別指令碼。 爬蟲在開發過程中也有很多複用的過程,這裡總結一下,以後也能省些事情。 基本抓取
python爬蟲爬取網路小說
近日沉迷網路小說不能自拔的某人讓我趁著網站限免把她想看的小說爬取下來,免得到時候又要付費看書,本來對於這種又要看正版又想佔便宜不給錢的行為的我是深惡痛絕的,然而。。。為了小命我還是做一下吧。 主要使用的庫:requests,bs4 對與爬取某小說網站的內容,可以
Python網路爬蟲入門,帶你領略Python爬蟲的樂趣!
前段時間小編寫了一篇有關於Python入門的文章,我覺得寫的還是不夠好,所以我特地補上一篇Python爬蟲的入門的,本文特別適合Python小白,剛學習爬蟲不久。接下來就讓我們一起來寫第一個例子吧!
Python爬蟲——解決urlretrieve下載不完整問題且避免用時過長
在這篇部落格中:http://blog.csdn.net/Innovation_Z/article/details/51106601 ,作者利用遞迴方法解決了urlretrieve下載檔案不完整的方法,其程式碼如下: def auto_down(url,filename): t
Python爬蟲時翻頁等操作URL不會改變的解決辦法----以攜程評論爬取為例
一、需求: 需要爬取攜程的五四廣場景點主頁的使用者點評資訊。 二、爬蟲時可能遇到的問題: 評論資訊雖然可以在該頁的原始碼中獲取到: 但是存在許多問題,例如: 1、評論翻頁、修改評論排序方式(智慧排序、有用數排序、按時間排序)並不會改變當前頁的UR