python反爬之懶載入

阿新 • • 發佈：2018-11-20

# 在平時的爬蟲中，如果遇到沒有區域性重新整理，沒有字型加密，右鍵檢查也能看到清晰的資料，但是按照已經制定好的解析規則進行解析時，會返回空資料,這是為什麼呢，這時可以在網頁右鍵檢視一下網頁原始碼，可以發現，在網頁上的原始碼中有些部分是正確的，有些標籤是不正確的，改了名字或者加了數字，或者不是你在網頁上檢檢視到的標籤名，所以如果你按照網頁上的解析規則去解析， 是解析不到的，這時就要按照網頁原始碼的解析規則去解析了,這就是典型的網頁懶載入。
# 什麼是網頁懶載入？
＃　網頁懶載入是前端為了提高網頁訪問速度，將頁面內沒有出現在可視區域內的圖片先不做載入，等到手動滑動滑鼠滾動到可視區域後再載入。這樣對於網頁載入效能上會有很大的提升，懶載入的效果就可以提升使用者體驗。
import requests
from pyquery import PyQuery as pq
headers = {
    'User-Agent':"Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10",
}
url = 'http://sc.chinaz.com/tupian/fengjingtupian.html'
r = requests.get(url=url,headers = headers)
r.encoding = r.apparent_encoding
demo = r.text
soup = pq(demo)
src = soup('.box.picblock.col3 img')
for i in src:
    i = pq(i)
    i = i.attr('src2')
    print(i)
print(len(src))

　　選取了站長之家作為目標站點

　　右鍵檢檢視到的標籤

實際爬取下來的網頁原始碼

按照這個解析規則，一般就能正確的解析出來需要的內容了。

python反爬之懶載入

# 在平時的爬蟲中，如果遇到沒有區域性重新整理，沒有字型加密，右鍵檢查也能看到清晰的資料，但是按照已經制定好的解析規則進行解析時，會返回空資料,這是為什麼呢，這時可以在網頁右鍵檢視一下網頁原始碼，可以發現，在網頁上的原始碼中有些部分是正確的，有些標籤是不正確的，改了名字或者加了數字，或者不是你在網頁上檢

python反爬之使用者代理

# requests是第三方庫，需要安裝 pip install requests import requests import random # 通常很多網站都會設定檢測請求頭中的User-Agent，所以在編寫爬蟲程式碼時一般都會加上user-agent url = 'http://www.zhih

python反爬之網頁局部刷新1

般的進行 1.9 技術 tag format com light dem # ajax動態加載網頁 # 怎樣判斷一個網頁是不是動態加載的呢？ # 查看網頁源代碼，如果源碼中沒有你要的數據，嘗試訪問下一頁，當你點擊下一頁的時候，整個頁面沒有刷新，只是局部刷新了，很大的可

python反爬之網頁區域性重新整理1

# ajax動態載入網頁 # 怎樣判斷一個網頁是不是動態載入的呢？ # 檢視網頁原始碼，如果原始碼中沒有你要的資料，嘗試訪問下一頁，當你點選下一頁的時候，整個頁面沒有重新整理，只是區域性重新整理了，很大的可能是ajax載入 # 遇到ajax載入，一般的解決步驟就，通過瀏覽器或者軟體抓包分析響應的請求，

python 反爬總結（1）- 限制IP UA 的解決方法，修改headers和新增IP代理池

在學習python爬蟲的過程中，遇到各種反爬機制，個人總結了一下：對同樣的ip或User-Agent進行限制，對頻繁訪問的ip進行限制，設定登陸限制，設定驗證碼，設定Ajax載入頁面。目前小白我也就瞭解這麼多，其中驗證碼的反反爬還在學習當中，學無止境啊 &

Android系列Viewpager+Fragment 優化之懶載入（預載入）的實現

今天帶來的就是fragment的優化，怎麼去實現懶載入懶載入（預載入）懶載入字面意思就是當需要的時候才會去載入，不需要就不要載入為什麼Fragment需要懶載入呢，一般我們都會在onCreate()或者onCreateView()裡去啟動一些資料載入操作，比如從本

python爬蟲爬取非同步載入網頁資訊（python抓取網頁中無法通過網頁標籤屬性抓取的內容）

1.問題描述最近由於學習內容的要求，需要從網頁上抓取一些資料來做分析報告，在看了python爬蟲的一些基礎知識之後就直接上手去網站上爬資料了。作為新手踩坑是無法避免，最近就遇到了一個比較難的問題：一般情況下，要抓去網頁上某個標籤上的內容，在通過urllib下

通過一道面試題來引入Hibernate之懶載入

前言先來看看面試題： Hibernate中get和load方法的區別？答：相同點：都是通過主鍵查詢的方法。session.get(User.class,1);session.load(User.class,1); 不同點： get: 及時載入，只要

安卓效能優化之懶載入（View的懶載入）

1、背景：為什麼需要View的懶載入。我們在做安卓專案的時候，經常會有一個使用場景：需要在執行時根據資料動態決定顯示或隱藏某個View和佈局。上述場景，我們通常的解決方案就是：就是把可能用到的View先寫在佈局裡，再初始化其可見性都設為

Objective-C學習之懶載入（延遲載入）

簡介懶載入——也稱為延遲載入，即在需要的時候才載入（效率低，佔用記憶體小）。所謂懶載入，寫的是其get方法. 注意：如果是懶載入的話則一定要注意先判斷是否已經有了，如果沒有那麼再去進行例項化好處使用懶載入的好處：

[js點滴]JavaScript之懶載入概念

Angular2學習之懶載入（Lazy）路由（router）問題

路由是Angular2中經常用到的.而且在Angular2中添加了懶載入(lazy). 問題描述：上面為檔案目錄.具體是在hero-routing.module.ts將上面三個資料夾中各元件繫

常見小效果之懶載入

<!DOCTYPE html><html> <head> <meta charset="UTF-8"> <m

python反編譯之位元組碼

如果你曾經寫過或者用過 Python，你可能已經習慣了看到 Python 原始碼檔案；它們的名稱以.Py 結尾。你可能還見過另一種型別的檔案是 .pyc 結尾的，它們就是 Python “位元組碼”檔案。(在 Python3 的時候這個 .pyc 字尾的檔案不太好找了,它在一個名為__pycache__的子目

【Python3爬蟲】反反爬之解決前端反除錯問題

一、前言　　在我們爬取某些網站的時候，會想要開啟 DevTools 檢視元素或者抓包分析，但按下 F12 的時候，卻出現了下面這一幕：　　　　此時網頁暫停載入，也就沒法執行程式碼了，直接中斷掉了，難道這就能阻止我們爬取了？不存在的，還是會有解決方案的。至於怎麼做，請慢慢往下看。

【Python3爬蟲】突破反爬之應對前端反除錯手段

一、前言　　在我們爬取某些網站的時候，會想要開啟 DevTools 檢視元素或者抓包分析，但按下 F12 的時候，卻出現了下面這一幕：　　　此時網頁暫停載入，自動跳轉到 Source 頁面並打開了一個 JS 檔案，在右側可以看到 “Debugger paused&r

python網頁爬蟲開發之五-反爬

build referer mac eee pac -o strip 不響應 win64 1、頭信息檢查是否頻繁相同隨機產生一個headers， #user_agent 集合 user_agent_list = [ ‘Mozilla/5.0 (Windows N

懶人動手，用python做一個基礎翻譯重新命名器（破解百度翻譯反爬手段）

想法：在做開發的時候，經常需要命名各種變數，方法/函式，類，包，庫等。走一遍流程就是：想好要起的名字，比如“非常帥氣”；然後上翻譯網站，比如百度翻譯，有道翻譯；將中文輸入並讓其翻譯成英文，此時就得出一個“very handsome”的單詞；根據駝峰命名法，我們最後需要得

python3 學習 3：python爬蟲之爬取動態載入的圖片，以百度圖片為例

轉： https://blog.csdn.net/qq_32166627/article/details/60882964 前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片

Python爬蟲六：字型反爬處理（貓眼+汽車之家）-2018.10

環境：Windows7 +Python3.6+Pycharm2017 目標：貓眼電影票房、汽車之家字型反爬的處理 --------全部文章：京東爬蟲、鏈家爬蟲、美團爬蟲、微信公眾號爬蟲、字型反爬--------- 前言：字型反爬，

python反爬之懶載入

相關推薦