python爬蟲模塊之HTML下載模塊

阿新 • • 發佈：2018-06-12

com cond 判斷 session eth mock 表示 += HA

HTML下載模塊

該模塊主要是根據提供的url進行下載對應url的網頁內容。使用模塊requets-HTML，加入重試邏輯以及設定最大重試次數，同時限制訪問時間，防止長時間未響應造成程序假死現象。

根據返回的狀態碼進行判斷如果訪問成功則返回源碼，否則開始重試，如果出現異常也是進行重試操作。

from requests_html import HTMLSession
from fake_useragent import UserAgent
import requests
import time
import random
class Gethtml():
    def __init__(self,url="http://wwww.baidu.com"):
        self.ua = UserAgent()
        self.url=url
        self.session=HTMLSession(mock_browser=True)
        #關於headers有個默認的方法 self.headers = default_headers()
        #mock_browser 表示使用useragent
    def get_source(self,url,retry=1):
           if retry>3:
               print("重試三次以上，跳出循環")
               return None
           while retry<3:
               try:
                  req=self.session.get(url,timeout=10)
                  if req.status_code==requests.codes.ok:
                      return req.text
                  else:
                      time.sleep(random.randint(0,6))
               except:
                   print(‘Unfortunitely -- An Unknow Error Happened, Please wait 0-6 seconds‘)
                   time.sleep(random.randint(0, 6))
                   retry += 1
                   self.get_source(url,retry)

python爬蟲模塊之HTML下載模塊

com cond 判斷 session eth mock 表示 += HA HTML下載模塊該模塊主要是根據提供的url進行下載對應url的網頁內容。使用模塊requets-HTML，加入重試邏輯以及設定最大重試次數，同時限制訪問時間，防止長時間未響應造成程序假死現象。

python爬蟲模塊之HTML解析模塊

str 修改 ini lxml 轉換 def imp dom對象 list 這個就比較簡單了沒有什麽好強調的，如果返回的json 就是直接按照鍵值取，如果是網頁就是用lxml模塊的html進行xpath解析。 from lxml import html import js

python模塊之序列化模塊

style sep 必須 ack 完成 ont 參數打開 indent 　　序列化 """ 序列--字符串序列化--其他數據類型轉化為字符串數據類型反序列化--字符串轉化為其他數據類型 """ 　　json模塊 """ jso

python 學習二十五天(python內置模塊之序列化模塊)

nan close 分行 name 寫入打開文件 rip ide 傳遞今日主要內容 1.python內置模塊-序列化模塊 python中的序列化模塊 json 所有的編程語言都通用的序列化格式....它支持的數據類型非常有限數字字符串列表字典 pickle 只能

python 模塊之路 re模塊運用

計算器 pan douban odin 函數源碼除法 main back re模塊正則混合使用　　　　　　永遠不要起一個py文件的名字這個名字和你已知的模塊同名而且沒有意義文件名字要有意義查找

爬蟲解析bs4 之(三) --- bs4模塊

爬蟲 open odi all 選擇參數 node 沒有 att bs4簡介 bs4是一個html的解析工具，根據html的特征和屬性來查找節點 1 from bs4 import BeautifulSoup 2 3 fp = open("./tes

saltstack模塊之pkg相關模塊

saltstack 模塊 pkg 軟件 pkgs pkg.install 1、pkg.available_version模塊pkg.available_version: 返回所查詢軟件包可供安裝或更新的最新版本。如果指定多個軟件包，則以字典的形式輸出返回結果。[[email

saltstack模塊之file相關模塊

saltstack file 模塊文件操作 1、file.access模塊file.access：測試salt進程是否有對指定文件的對應訪問權限。[[email protected]/* */ ~]# salt ‘*‘ file.access /etc/passwd f s

Python爬蟲入門一之綜述

復用智能實現進一步 -a web 蜘蛛 urllib 機器首先爬蟲是什麽？網絡爬蟲（又被稱為網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動的抓取萬維網信息的程序或者腳本。根據我的經驗，要學習Python爬蟲，我們要

Python爬蟲入門三之Urllib庫的基本使用

res 瀏覽器中必須答案文件的網頁 one .com 屏幕截圖 1.分分鐘扒一個網頁下來怎樣扒網頁呢？其實就是根據URL來獲取它的網頁信息，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段HTML代碼，加 JS、CSS

6.Python爬蟲入門六之Cookie的使用

expires cookielib spa result hat 即使 card rec 其他大家好哈，上一節我們研究了一下爬蟲的異常處理問題，那麽接下來我們一起來看一下Cookie的使用。為什麽要使用Cookie呢？ Cookie，指某些網站為了辨別用戶身份、進行se

Python爬蟲利器三之Xpath語法與lxml庫的用法

blank color idt tab 一段並且 .text rst 基本用法前面我們介紹了 BeautifulSoup 的用法，這個已經是非常強大的庫了，不過還有一些比較流行的解析庫，例如 lxml，使用的是 Xpath 語法，同樣是效率比較高的解析方法。如果大家

python爬蟲基礎案例之糗事百科

alt 依靠 webdriver pytho 糗事百科代碼 web 分享圖片 sel 關於爬蟲也是剛接觸，案例是基於python3做的，依靠selenium的webdriver做的，所以python3必須有selenium這個包，如果是基於谷歌瀏覽器的話需要下載谷歌瀏

Python爬蟲學習筆記之微信宮格驗證碼的識別(存在問題)

依次返回結果 ptc 接下來 clas 軌跡 self top http 本節我們將介紹新浪微博宮格驗證碼的識別。微博宮格驗證碼是一種新型交互式驗證碼，每個宮格之間會有一條指示連線，指示了應該的滑動軌跡。我們要按照滑動軌跡依次從起始宮格滑動到終止宮格，才可以完成驗證，

Python爬蟲學習筆記之模擬登陸並爬去GitHub

過程 eight res 開發者工具 @value clas 之前自己 8.0 (1)環境準備: 請確保已經安裝了requests和lxml庫 (2)分析登陸過程: 首先要分析登陸的過程，需要探究後臺的登陸請求是怎樣發送的，登陸之後又有怎樣的

python 爬蟲訪問網頁之request與requests：

標籤（空格分隔）： 9.23 一、訪問獲取網頁的基本方法：準備頭部和代理 user_agent = [ #準備頭部，列表 "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) Apple

【python爬蟲基礎】圖片自動下載器

製作爬蟲的基本步驟順便通過這個小例子，可以掌握一些有關製作爬蟲的基本的步驟。一般來說，製作一個爬蟲需要分以下幾個步驟：分析需求（對，需求分析非常重要，不要告訴我你老師沒教你）分析網頁原始碼，配合F12（沒有F12那麼亂的網頁原始碼，你想看死我？）編

Python爬蟲框架 scrapy之xpath選擇器 css選擇器

文章目錄一、xpath 1、節點選擇二、 css css選擇三、xpath函式操作 1

Python爬蟲踩坑之隨機數種子的問題

在看一本資料庫產生了一個關於離散的問題，由於本人對離散還不懂。在大佬的建議下研究了下隨機數種子的問題（和此問題類似吧）由於隨機數種子的概念有些文章已經有了就不在贅述:隨機數種子概述在此主要通過Python當中random來研究這個問題:random模組進

Python爬蟲踩坑之二分查詢，數值按位相加，

由於比較緊張，題當時沒寫完，昨天重新寫了下二分查詢：二分查詢又稱折半查詢，其核心就是在有序的表中，取中表的中間值和目標值來匹配，中間值比目標值大，則繼續左子表中二分，反之同理。一直查到目標值與匹配值相等，否則不存在。題目：在數字列表中隨機兩個數使之等

python爬蟲模塊之HTML下載模塊

HTML下載模塊

相關推薦