python反爬之網頁區域性重新整理1

阿新 • • 發佈：2018-11-19

# ajax動態載入網頁
# 怎樣判斷一個網頁是不是動態載入的呢？
# 檢視網頁原始碼，如果原始碼中沒有你要的資料，嘗試訪問下一頁，當你點選下一頁的時候，整個頁面沒有重新整理， 只是區域性重新整理了，很大的可能是ajax載入
# 遇到ajax載入，一般的解決步驟就，通過瀏覽器或者軟體抓包分析響應的請求，檢視response裡面哪個有你需要的資料，
# 然後再分析headers請求的網址，直接向哪個網址請求即可，當然還會有一些介面需要構建post請求
import json
import jsonpath
import requests
headers = {
    'User-Agent':"Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10",
}
url = 'https://fe-api.zhaopin.com/c/i/sou?start={}&pageSize=60&cityId=489&workExperience=-1&education=-1&companyType=-1&employmentType=-1&jobWelfareTag=-1&kw=python&kt=3&_v=0.11045029&x-zp-page-request-id=7d6ccc963ff14b1d995b6f21942f2295-1542632726829-135321'
r = requests.get(url=url.format(3*60),headers=headers)
demo = r.text
# string = json.dumps(demo, ensure_ascii=False)
obj = json.loads(demo)
ret = jsonpath.jsonpath(obj, '$..company.name')
print(ret)# ajax動態載入網頁
# 怎樣判斷一個網頁是不是動態載入的呢？
# 檢視網頁原始碼，如果原始碼中沒有你要的資料，嘗試訪問下一頁，當你點選下一頁的時候，整個頁面沒有重新整理，
# 只是區域性重新整理了，很大的可能是ajax載入
# 遇到ajax載入，一般的解決步驟就，通過瀏覽器或者軟體抓包分析響應的請求，檢視response裡面哪個是需要的資料，
# 然後再分析headers請求的網址，直接向哪個網址請求即可，當然還會有一些介面需要構建post請求
#匯入的包如果下面出現紅色波浪線，pip install 名字 即可
import json
import jsonpath
import requests
headers = {
    'User-Agent':"Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10",
}
url = 'https://fe-api.zhaopin.com/c/i/sou?start={}&pageSize=60&cityId=489&workExperience=-1&education=-1&companyType=-1&employmentType=-1&jobWelfareTag=-1&kw=python&kt=3&_v=0.11045029&x-zp-page-request-id=7d6ccc963ff14b1d995b6f21942f2295-1542632726829-135321'
r = requests.get(url=url.format(3*60),headers=headers)
demo = r.text
# string = json.dumps(demo, ensure_ascii=False)
obj = json.loads(demo)
ret = jsonpath.jsonpath(obj, '$..company.name')
print(ret)

　　-----網頁抓包----

通過觀察，改變start後面數字，會出現不同的資料，第一頁是0,第二頁是60，依次遞增，pagesize則是每一頁出現多少條，最好不要改變

將網頁中的內容貼上到線上json解析中，可以看到，這是一個標準的json資料，通過線上解析可以看到清晰的結構

獲取到的資料是一個json格式的字串，需要使用jsonpath進行解析，獲取裡面的內容，圖中選取了當前請求的公司名

python反爬之網頁區域性重新整理1

# ajax動態載入網頁 # 怎樣判斷一個網頁是不是動態載入的呢？ # 檢視網頁原始碼，如果原始碼中沒有你要的資料，嘗試訪問下一頁，當你點選下一頁的時候，整個頁面沒有重新整理，只是區域性重新整理了，很大的可能是ajax載入 # 遇到ajax載入，一般的解決步驟就，通過瀏覽器或者軟體抓包分析響應的請求，

python反爬之網頁局部刷新1

般的進行 1.9 技術 tag format com light dem # ajax動態加載網頁 # 怎樣判斷一個網頁是不是動態加載的呢？ # 查看網頁源代碼，如果源碼中沒有你要的數據，嘗試訪問下一頁，當你點擊下一頁的時候，整個頁面沒有刷新，只是局部刷新了，很大的可

python反爬之使用者代理

# requests是第三方庫，需要安裝 pip install requests import requests import random # 通常很多網站都會設定檢測請求頭中的User-Agent，所以在編寫爬蟲程式碼時一般都會加上user-agent url = 'http://www.zhih

python反爬之懶載入

# 在平時的爬蟲中，如果遇到沒有區域性重新整理，沒有字型加密，右鍵檢查也能看到清晰的資料，但是按照已經制定好的解析規則進行解析時，會返回空資料,這是為什麼呢，這時可以在網頁右鍵檢視一下網頁原始碼，可以發現，在網頁上的原始碼中有些部分是正確的，有些標籤是不正確的，改了名字或者加了數字，或者不是你在網頁上檢

python 反爬總結（1）- 限制IP UA 的解決方法，修改headers和新增IP代理池

在學習python爬蟲的過程中，遇到各種反爬機制，個人總結了一下：對同樣的ip或User-Agent進行限制，對頻繁訪問的ip進行限制，設定登陸限制，設定驗證碼，設定Ajax載入頁面。目前小白我也就瞭解這麼多，其中驗證碼的反反爬還在學習當中，學無止境啊 &

python動態爬取網頁

匹配應用 https select idt beautiful 檢查選擇 path 簡介有時候，我們天真無邪的使用urllib庫或Scrapy下載HTML網頁時會發現，我們要提取的網頁元素並不在我們下載到的HTML之中，盡管它們在瀏覽器裏看起來唾手可得。這說明我們想

★ Python爬蟲 - 爬取網頁文字資訊並儲存（美文的爬取與儲存）

本篇文章所包含的主要內容：使用requests模組實現對網頁以字串的形式儲存使用open()、write()、close()函式實現檔案的開啟與寫入使用if() 條件語句對所需要的文字資訊進行過濾以形成一個專用提取函式 &n

python簡單爬取網頁文字操作體會

自上次成功嘗試爬取了靜態頁面的圖片之後，本白又跟著另一篇博文做了一下爬取網頁文字的嘗試。基本程式碼都是來源於該篇博文，本人只是做了輕微修改。簡單的實現爬蟲爬取網頁文字和圖片以python3為背景，這裡還是先定義一個讀取html頁面資訊的函式： import urllib.

Python學習【第23篇】：利用threading模組開執行緒 python併發程式設計之多執行緒1

python併發程式設計之多執行緒1 一多執行緒的概念介紹 threading模組介紹 threading模組和multiprocessing模組在使用層

python初學-爬取網頁資料

python初學-爬取網頁資料 1,獲取網頁原始碼 import urllib url = 'http://www.163.com' wp = urllib.urlopen(url) file_content = wp.read() print file_content 2,

python爬蟲——爬取網頁的中文

# 爬取網頁的中文內容 from urllib import request from bs4 import BeautifulSoup import pandas as pds import xlrd import docx #讀取excel def excel(fname):

python學習筆記之正則表示式1

正則表示式正則表示式即RE，我們可以使用正則表示式來匹配字串集，其實正則表示式是一個小型的程式語言。它可以方便我們對於文字任務的操作。對於python來說，re模組就是正則式操作模組。元字元：元字元是特殊的字元，普通的字元在正則表示式中都可以用來匹配自己，如正則表示

Python爬蟲——爬取網頁中的圖片小試牛刀

Preface：以往爬取文字，這次需要爬取圖片pdf，先上手一個例子，爬取pdf，先取得url，然後通過urllib.urlretrieve函式將url的網頁內容遠端下載到本地，第一個引數為url，第二個引數為檔名(程式碼中有誤)，第三個引數為回撥函式，可以顯示下載進度。另

Python爬蟲爬取網頁資料並存儲（一）

環境搭建 1.需要事先安裝anaconda（或Python3.7）和pycharm *anaconda可在中科大映象下下載較快 2.安裝中遇到的問題： *anaconda（記得安裝過程中點新增路徑到path裡，沒新增的話手動新增：計算機右鍵屬性——高階系統設

python學習記錄之---------資料處理（1）陣列/二維陣列的定義和使用

工具/版本（1）安裝環境：Windows7 64bit（2）使用版本Python3.7Python 列表(List)序列是Python中最基本的資料結構。序列中的每個元素都分配一個數字 - 它的位置，或索引，第一個索引是0，第二個索引是1，依此類推。定義陣列1、定義一維陣列d

python urllib爬取網頁編碼問題

利用python urllib庫爬取網頁，有時獲得的網頁列印或寫檔案遇到編碼問題，找了許久終於知道為什麼了。首先利用urlopen()函式獲取網頁物件，再利用info()函式列印網頁的相關資訊，確定網頁的編碼及是否壓縮。 import urllib.request f

從零開始學Python學習筆記---之--pandas資料框(1)

作為從事資料相關工作朋友，平時接觸的更多的可能是一張有板有眼的資料表格，在這裡我們就叫作資料框。在Python中可以通過pandas模組的DataFrame函式構造資料框。 1、資料框的構造在Python中,可以藉助於列表、元組、字典進行手工構建資料框，我們用例子說明：

用python爬蟲爬取網頁桌布圖片（彼岸桌面網唯美圖片）

今天想給我的電腦裡面多加點桌布，但是嫌棄一個個儲存太慢，於是想著寫個爬蟲直接批量爬取，因為爬蟲只是很久之前學過一些，很多基礎語句都不記得了，於是直接在網上找了個有基礎操作語句的爬蟲程式碼，在這上面進行修改以適應我的要求和爬取的網頁需求注意：這次爬取的

Pjax實現網頁區域性重新整理

現在很多網站( facebook, twitter)都支援這樣的一種瀏覽方式，當你點選一個站內的連結的時候，不是做頁面跳轉，而是隻是站內頁面重新整理。這樣的使用者體驗，比起整個頁面都閃一下來說，好很多。其中有一個很重要的組成部分，這些網站的aj

python學習記錄之---------硬體相關（1）獲取電腦的資訊

工具/版本（1）安裝環境：Windows7 64bit （2）使用版本Python3.6 一、準備工作安裝pywin32模組安裝wmi模組二、開始 1、獲取系統版本，版本號等 def sys_version(): c = wmi.W

python反爬之網頁區域性重新整理1

相關推薦