python爬取Ajax動態載入網頁過程解析

阿新 • • 發佈：2020-01-09

常見的反爬機制及處理方式

1、Headers反爬蟲：Cookie、Referer、User-Agent

解決方案: 通過F12獲取headers,傳給requests.get()方法

2、IP限制：網站根據IP地址訪問頻率進行反爬,短時間內進位制IP訪問

解決方案:

1、構造自己IP代理池,每次訪問隨機選擇代理,經常更新代理池

2、購買開放代理或私密代理IP

3、降低爬取的速度

3、User-Agent限制：類似於IP限制

解決方案: 構造自己的User-Agent池,每次訪問隨機選擇

5、對查詢引數或Form表單資料認證(salt、sign)

解決方案: 找到JS檔案,分析JS處理方法,用Python按同樣方式處理

6、對響應內容做處理

解決方案: 列印並檢視響應內容,用xpath或正則做處理

python中正則處理headers和formdata

1、pycharm進入方法：Ctrl + r ，選中 Regex

2、處理headers和formdata

(.*): (.*)

"1":"1":"2",

3、點選 Replace All

民政部網站資料抓取

目標: 抓取最新中華人民共和國縣以上行政區劃程式碼

URL: http://www.mca.gov.cn/article/sj/xzqh/2019/ - 民政資料 - 行政區劃程式碼

實現步驟

1、從民政資料網站中提取最新行政區劃程式碼連結

最新的在上面，命名格式: 2019年X月中華人民共和國縣以上行政區劃程式碼

import requests
from lxml import etree
import re

url = 'http://www.mca.gov.cn/article/sj/xzqh/2019/'
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/74.0.3729.169 Safari/537.36'}
html = requests.get(url,headers=headers).text
parse_html = etree.HTML(html)
article_list = parse_html.xpath('//a[@class="artitlelist"]')

for article in article_list:
  title = article.xpath('./@title')[0]
  # 正則匹配title中包含這個字串的連結
  if title.endswith('程式碼'):
    # 獲取到第1個就停止即可，第1個永遠是最新的連結
    two_link = 'http://www.mca.gov.cn' + article.xpath('./@href')[0]
    print(two_link)
    break

2、從二級頁面連結中提取真實連結（反爬-響應網頁內容中嵌入JS，指向新的網頁連結）

向二級頁面連結發請求得到響應內容，並檢視嵌入的JS程式碼

正則提取真實的二級頁面連結

# 爬取二級“假”連結
two_html = requests.get(two_link,headers=headers).text
# 從二級頁面的響應中提取真實的連結（此處為JS動態載入跳轉的地址）
new_two_link = re.findall(r'window.location.href="(.*?)" rel="external nofollow" rel="external nofollow" ',two_html,re.S)[0]

3、在資料庫表中查詢此條連結是否已經爬取，建立增量爬蟲

資料庫中建立version表，儲存爬取的連結

每次執行程式和version表中記錄核對，檢視是否已經爬取過

cursor.execute('select * from version')
result = self.cursor.fetchall()
if result:
  if result[-1][0] == two_link:
    print('已是最新')
  else:
    # 有更新，開始抓取
    # 將連結再重新插入version表記錄

4、程式碼實現

import requests
from lxml import etree
import re
import pymysql
class GovementSpider(object):
  def __init__(self):
    self.url = 'http://www.mca.gov.cn/article/sj/xzqh/2019/'
    self.headers = {'User-Agent': 'Mozilla/5.0'}
    # 建立2個物件
    self.db = pymysql.connect('127.0.0.1','root','123456','govdb',charset='utf8')
    self.cursor = self.db.cursor()
  # 獲取假連結
  def get_false_link(self):
    html = requests.get(url=self.url,headers=self.headers).text
    # 此處隱藏了真實的二級頁面的url連結，真實的在假的響應網頁中，通過js指令碼生成，
    # 假的連結在網頁中可以訪問，但是爬取到的內容卻不是我們想要的
    parse_html = etree.HTML(html)
    a_list = parse_html.xpath('//a[@class="artitlelist"]')
    for a in a_list:
      # get()方法:獲取某個屬性的值
      title = a.get('title')
      if title.endswith('程式碼'):
        # 獲取到第1個就停止即可，第1個永遠是最新的連結
        false_link = 'http://www.mca.gov.cn' + a.get('href')
        print("二級“假”連結的網址為",false_link)
        break
    # 提取真連結
    self.incr_spider(false_link)
  # 增量爬取函式
  def incr_spider(self,false_link):
    self.cursor.execute('select url from version where url=%s',[false_link])
    # fetchall: (('http://xxxx.html',),)
    result = self.cursor.fetchall()

    # not result:代表資料庫version表中無資料
    if not result:
      self.get_true_link(false_link)
      # 可選操作: 資料庫version表中只保留最新1條資料
      self.cursor.execute("delete from version")

      # 把爬取後的url插入到version表中
      self.cursor.execute('insert into version values(%s)',[false_link])
      self.db.commit()
    else:
      print('資料已是最新,無須爬取')
  # 獲取真連結
  def get_true_link(self,false_link):
    # 先獲取假連結的響應,然後根據響應獲取真連結
    html = requests.get(url=false_link,headers=self.headers).text
    # 從二級頁面的響應中提取真實的連結（此處為JS動態載入跳轉的地址）
    re_bds = r'window.location.href="(.*?)" rel="external nofollow" rel="external nofollow" '
    pattern = re.compile(re_bds,re.S)
    true_link = pattern.findall(html)[0]

    self.save_data(true_link) # 提取真連結的資料
  # 用xpath直接提取資料
  def save_data(self,true_link):
    html = requests.get(url=true_link,headers=self.headers).text

    # 基準xpath,提取每個資訊的節點列表物件
    parse_html = etree.HTML(html)
    tr_list = parse_html.xpath('//tr[@height="19"]')
    for tr in tr_list:
      code = tr.xpath('./td[2]/text()')[0].strip() # 行政區劃程式碼
      name = tr.xpath('./td[3]/text()')[0].strip() # 單位名稱
      print(name,code)

  # 主函式
  def main(self):
    self.get_false_link()
if __name__ == '__main__':
  spider = GovementSpider()
  spider.main()

動態載入資料抓取-Ajax

特點

右鍵 -> 檢視網頁原始碼中沒有具體資料

滾動滑鼠滑輪或其他動作時載入

抓取

F12開啟控制檯，選擇XHR非同步載入資料包，找到頁面動作抓取網路資料包

通過XHR-->Header-->General-->Request URL，獲取json檔案URL地址

通過XHR-->Header-->Query String Parameters(查詢引數)

豆瓣電影資料抓取案例

目標

地址: 豆瓣電影 - 排行榜 - 劇情

https://movie.douban.com/typerank?

type_name=%E5%89%A7%E6%83%85&type=11&interval_id=100:90&action=

目標: 爬取電影名稱、電影評分

F12抓包（XHR）

1、Request URL(基準URL地址) ：https://movie.douban.com/j/chart/top_list?

2、Query String Paramaters(查詢引數)

# 查詢引數如下：
type: 13 # 電影型別
interval_id: 100:90
action: '[{},{},{}]'
start: 0 # 每次載入電影的起始索引值
limit: 20 # 每次載入的電影數量

json檔案在以下地址：

基準URL地址+查詢引數

'https://movie.douban.com/j/chart/top_list?'+'type=11&interval_id=100%3A90&action=&start=20&limit=20'

程式碼實現

import requests
import time
from fake_useragent import UserAgent
class DoubanSpider(object):
  def __init__(self):
    self.base_url = 'https://movie.douban.com/j/chart/top_list?'
    self.i = 0
  def get_html(self,params):
    headers = {'User-Agent': UserAgent().random}
    res = requests.get(url=self.base_url,params=params,headers=headers)
    res.encoding = 'utf-8'
    html = res.json() # 將json格式的字串轉為python資料型別
    self.parse_html(html) # 直接呼叫解析函式
  def parse_html(self,html):
    # html: [{電影1資訊},{電影2資訊},{}]
    item = {}
    for one in html:
      item['name'] = one['title'] # 電影名
      item['score'] = one['score'] # 評分
      item['time'] = one['release_date'] # 列印測試
      # 列印顯示
      print(item)
      self.i += 1
  # 獲取電影總數
  def get_total(self,typ):
    # 非同步動態載入的資料 都可以在XHR資料抓包
    url = 'https://movie.douban.com/j/chart/top_list_count?type={}&interval_id=100%3A90'.format(typ)
    ua = UserAgent()
    html = requests.get(url=url,headers={'User-Agent': ua.random}).json()
    total = html['total']

    return total

  def main(self):
    typ = input('請輸入電影型別(劇情|喜劇|動作):')
    typ_dict = {'劇情': '11','喜劇': '24','動作': '5'}
    typ = typ_dict[typ]
    total = self.get_total(typ) # 獲取該型別電影總數量

    for page in range(0,int(total),20):
      params = {
        'type': typ,'interval_id': '100:90','action': '','start': str(page),'limit': '20'}
      self.get_html(params)
      time.sleep(1)
    print('爬取的電影的數量:',self.i)
if __name__ == '__main__':
  spider = DoubanSpider()
  spider.main()

騰訊招聘資料抓取(Ajax)

確定URL地址及目標

URL: 百度搜索騰訊招聘 - 檢視工作崗位 https://careers.tencent.com/search.html

目標: 職位名稱、工作職責、崗位要求

要求與分析

通過檢視網頁原始碼，得知所需資料均為 Ajax 動態載入

通過F12抓取網路資料包，進行分析

一級頁面抓取資料: 職位名稱

二級頁面抓取資料: 工作職責、崗位要求

一級頁面json地址(pageIndex在變,timestamp未檢查)

https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1563912271089&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=&pageIndex={}&pageSize=10&language=zh-cn&area=cn

二級頁面地址(postId在變,在一級頁面中可拿到)

https://careers.tencent.com/tencentcareer/api/post/ByPostId?timestamp=1563912374645&postId={}&language=zh-cn

useragents.py檔案

ua_list = [
 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML,like Gecko) Chrome/14.0.835.163 Safari/535.1','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0','Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; InfoPath.3)',]

import time
import json
import random
import requests
from useragents import ua_list
class TencentSpider(object):
  def __init__(self):
    self.one_url = 'https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1563912271089&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=&pageIndex={}&pageSize=10&language=zh-cn&area=cn'
    self.two_url = 'https://careers.tencent.com/tencentcareer/api/post/ByPostId?timestamp=1563912374645&postId={}&language=zh-cn'
    self.f = open('tencent.json','a') # 開啟檔案
    self.item_list = [] # 存放抓取的item字典資料
  # 獲取響應內容函式
  def get_page(self,url):
    headers = {'User-Agent': random.choice(ua_list)}
    html = requests.get(url=url,headers=headers).text
    html = json.loads(html) # json格式字串轉為Python資料型別
    return html
  # 主線函式: 獲取所有資料
  def parse_page(self,one_url):
    html = self.get_page(one_url)
    item = {}
    for job in html['Data']['Posts']:
      item['name'] = job['RecruitPostName'] # 名稱
      post_id = job['PostId'] # postId，拿postid為了拼接二級頁面地址
      # 拼接二級地址,獲取職責和要求
      two_url = self.two_url.format(post_id)
      item['duty'],item['require'] = self.parse_two_page(two_url)
      print(item)
      self.item_list.append(item) # 新增到大列表中
  # 解析二級頁面函式
  def parse_two_page(self,two_url):
    html = self.get_page(two_url)
    duty = html['Data']['Responsibility'] # 工作責任
    duty = duty.replace('\r\n','').replace('\n','') # 去掉換行
    require = html['Data']['Requirement'] # 工作要求
    require = require.replace('\r\n','') # 去掉換行
    return duty,require
  # 獲取總頁數
  def get_numbers(self):
    url = self.one_url.format(1)
    html = self.get_page(url)
    numbers = int(html['Data']['Count']) // 10 + 1 # 每頁有10個推薦
    return numbers
  def main(self):
    number = self.get_numbers()
    for page in range(1,3):
      one_url = self.one_url.format(page)
      self.parse_page(one_url)
    # 儲存到本地json檔案:json.dump
    json.dump(self.item_list,self.f,ensure_ascii=False)
    self.f.close()
if __name__ == '__main__':
  start = time.time()
  spider = TencentSpider()
  spider.main()
  end = time.time()
  print('執行時間:%.2f' % (end - start))

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

python爬取Ajax動態載入網頁過程解析

常見的反爬機制及處理方式 1、Headers反爬蟲：Cookie、Referer、User-Agent 解決方案: 通過F12獲取headers,傳給requests.get()方法

基於Python爬取愛奇藝資源過程解析

像iqiyi這種視訊網站，現在下載視訊都需要下載相應的客戶端。那麼如何不用下載客戶端，直接下載非vip視訊？

基於Python爬取搜狐證券股票過程解析

資料的爬取我們以上證50的股票為例，首先需要找到一個網站包含這五十隻股票的股票程式碼，例如這裡我們使用搜狐證券提供的列表。

Python使用mongodb儲存爬取豆瓣電影的資料過程解析

建立爬蟲專案douban scrapy startproject douban 設定items.py檔案，儲存要儲存的資料型別和欄位名稱

Python爬取阿拉丁統計資訊過程圖解

背景目前專案在移動端上，首推使用微信小程式。各專案的小程式訪問資料有必要進行採集入庫，方便後續做統計分析。雖然阿拉丁後臺也提供了趨勢分析等功能，但一個個的獲取資料做資料分析是很痛苦的事情。通過將資料轉

Python CSS選擇器爬取京東網商品資訊過程解析

CSS選擇器目前，除了官方文件之外，市面上及網路詳細介紹BeautifulSoup使用的技術書籍和部落格軟文並不多，而在這僅有的資料中介紹CSS選擇器的少之又少。在網路爬蟲的頁面解析中，CCS選擇器實際上是一把效率甚高的利

Python爬取知乎圖片程式碼實現解析

首先，需要獲取任意知乎的問題，只需要你輸入問題的ID，就可以獲取相關的頁面資訊，比如最重要的合計有多少人回答問題。

基於Python爬取fofa網頁端資料過程解析

FOFA-網路空間安全搜尋引擎是網路空間資產檢索系統（FOFA）是世界上資料覆蓋更完整的IT裝置搜尋引擎，擁有全球聯網IT裝置更全的DNA資訊。探索全球網際網路的資產資訊，進行資產及漏洞影響範圍分析、應用分佈統計、應

python爬取動態載入的資料

程式開發資源庫 https://zyk.mingrisoft.com/Develop/view/id/2562/type/7/cid/49.html 分析網頁，查詢資料位置

Python爬取破解無線網路wifi密碼過程解析

前言今天從WiFi連線的原理，再結合程式碼為大家詳細的介紹如何利用python來破解WiFi。

基於python爬取有道翻譯過程圖解

1.準備工作先來到有道線上翻譯的介面http://fanyi.youdao.com/ F12 審查元素 ->選Network一欄，然後F5重新整理（如果看不到Method一欄，右鍵Name欄，選中Method）

Python爬取YY評級分數並儲存資料實現過程解析

前言當需要進行大規模查詢時（比如目前遇到的情形：查詢某個省所有發債企業的YY評級分數），人工查詢顯然太過費時，那就寫個爬蟲吧。

只要30行程式碼！7步教會你Python爬取網頁抖音熱門視訊

前言抖音短視訊相信大家都聽過，也不陌生對吧！可以看到海量的短視訊，涵蓋了各大行業。個人覺得抖音有毒，刷著刷著根本停不下來，一看時間就是凌晨3、4點。今天帶大家爬取抖音網頁版的視訊資料！一睹為快吧

python 爬取指定網頁中的圖片（python crawls the image in the specified page）

來自《Python專案案例開發從入門到實戰》（清華大學出版社鄭秋生夏敏捷主編）中爬蟲應用——抓取百度圖片

python 爬取指定網頁中的圖片精細版（python crawls the image in the specified page fine version）

來自《Python專案案例開發從入門到實戰》（清華大學出版社鄭秋生夏敏捷主編）中爬蟲應用——抓取百度圖片

利用python爬取網頁圖片

\"\"\"利用python爬取網頁圖片\"\"\" import requests import urllib from bs4 import BeautifulSoup import json

詳細記錄了python爬取小說《元尊》的整個過程，看了你必會~

學了好幾天的滲透測試基礎理論，週末了讓自己放鬆一下，最近聽說天蠶土豆有一本新小說，叫做《元尊》，學生時代的我可是十分喜歡讀天蠶土豆的小說，《鬥破蒼穹》相信很多小夥伴都看過吧。今天我們就來看看如果一步一

python 爬取網頁天天基金

# encoding=utf-8 import pandas as pd import requests from lxml import etree import re import collections def fund_code_name():

基於Python爬取51cto部落格頁面資訊過程解析

介紹提到爬蟲，網際網路的朋友應該都不陌生，現在使用Python爬取網站資料是非常常見的手段，好多朋友都是爬取豆瓣資訊為案例，我不想重複，就使用了爬取51cto部落格網站資訊為案例，這裡以我的部落格頁面為教程，編

Python爬取網頁資訊的示例

Python爬取網頁資訊的步驟以爬取英文名字網站（https://nameberry.com/）中每個名字的評論內容，包括英文名，使用者名稱，評論的時間和評論的內容為例。

python爬取Ajax動態載入網頁過程解析

相關推薦