爬取JS動態生成的URL

阿新 • • 發佈：2018-12-03

愛卡汽車論壇搜尋結果頁面：

想要python爬取搜尋結果連結：a標籤中的href，但是這個url是動態生成的。
網頁原始碼：

用普通方式解析：

import urllib.request

url = "http://search.xcar.com.cn/metasearch.php#?&searchValue=奔騰x40"
data = urllib.request.urlopen(url).read()
data = data.decode('UTF-8')
print(data)

解析結果：

selenium：這是一個用於web應用程測試的工具
下載方式：pip install selenium

phantomjs
是一種無介面的瀏覽器，用於完成網頁的渲染
下載地址
http://phantomjs.org/download.html

解壓就可以用
開啟解壓後的檔案，找到bin下的phantomjs.exe將這個路徑放到PATH路徑下

動態解析：

from selenium import webdriver
url = "http://search.xcar.com.cn/metasearch.php#?&searchValue=奔騰x40"
driver = webdriver.PhantomJS(executable_path='E:/phantomjs/bin/phantomjs.exe')
#這個路徑就是你新增到PATH的路徑
driver.get(url)
print (driver.page_source)

解析結果：



下一步如何取出：






參考文章：http://www.freebuf.com/column/142404.html

繼續：

爬取JS動態生成的URL

愛卡汽車論壇搜尋結果頁面：想要python爬取搜尋結果連結：a標籤中的href，但是這個url是動態生成的。網頁原始碼：用普通方式解析： import urllib.request url = "http://search.xcar.com.cn/metasea

scrapy利用scrapy-splash爬取JS動態生成的標籤

1 引言 scrapy處理爬取靜態頁面，可以說是很好的工具，但是隨著技術的發展，現在很多頁面都不再是靜態頁面了，都是通過AJAX非同步載入資料動態生成的，我們如何去解決問題呢？今天給大家介紹一種方法：scrapy-splash 2 準備工作首先需要安裝一下幾個工具（1）

使用phantomjs抓取JS動態生成的頁面

關於phantomjs phantomjs實現了一個無介面的webkit瀏覽器。雖然沒有介面，但dom渲染、js執行、網路訪問等API都很完整。可以利用phantomjs來下載js生成的頁面。下載phantomjs（http://phantomjs.org

python爬取JS動態網頁完整指南（selenium+chrome headless）

11.23：更新，每次還要開啟瀏覽器多影響執行效率，看到蟲師講了chrome headless，非常好用引用新增： from selenium.webdriver.chrome.options import Options 程式碼新增： chrome_options =

通過爬取天貓商品評論例項分析Python爬取ajax動態生成的資料

本文主要通過爬取天貓商品kindle的評論為例來說明利用python爬取ajax動態生成的資料的方式，本文使用的工具如下：工具 chrome瀏覽器【尋找評論的動態連結】 python3.5【執行程式碼】 mysql【儲存爬蟲獲得

通過抓取淘寶評論為例講解Python爬取ajax動態生成的資料

'https://rate.taobao.com/feedRateList.htm?auctionNumId=538039793643&userNumId=2779992133&currentPageNum=6&pageSize=20&rateType=&orderTy

利用scrapy-splash爬取JS生成的動態頁面

目前，為了加速頁面的載入速度，頁面的很多部分都是用JS生成的，而對於用scrapy爬蟲來說就是一個很大的問題，因為scrapy沒有JS engine，所以爬取的都是靜態頁面，對於JS生成的動態頁面都無法獲得。解決方案：利用第三方中介軟體來提供JS渲染服務： scrapy-splash 等。利用webk

selenium+chromedrive 爬取js載入的動態網頁（下拉才能顯示內容）

from selenium import webdriver from selenium.webdriver.common.keys import Keys #呼叫鍵盤操作 from selenium.webdriver.chrome.options import Opt

利用htmlunit和jsoup來實現爬取js的動態網頁實踐(執行js)

更新，這就尷尬了，這篇文章部落格閱讀文章最多，但是被踩得也最多。爬取思路：所謂動態，就是通過請求後臺，可以動態的改變相應的html頁面，頁面並不是一開始就全部展現出來的。大部分操作都是通過請求完成的，一次請求，一次返回。而在大多數網頁中請求往往都被開發者隱藏在了js程

Python爬蟲：Selenium+ BeautifulSoup 爬取JS渲染的動態內容（雪球網新聞）

爬取目標：下圖中紅色方框部分的文章內容。（需要點選每篇文章的連結才能獲得文章內容）注：該文章僅介紹爬蟲爬取新聞這一部分，爬蟲語言為Python。乍一看，爬蟲的實現思路很簡單：（2）通過第一步所獲得的各篇文章的URL，抓取文章內容。但是發現簡單使用urlli

[python爬蟲] selenium爬取區域性動態重新整理網站（URL始終固定）

在爬取網站過程中，通常會遇到區域性動態重新整理情況，當你點選“下一頁”或某一頁時，它的資料就進行重新整理，但其頂部的URL始終不變。這種區域性動態重新整理的網站，怎麼爬取資料呢？某網站資料顯示如下圖所示，當點選“第五頁”之時，其URL始終不變，傳統的網站爬取方法是無法拼接這類

2017-05-17 js動態生成輪播圖小圓點

輪播圖鼠標 borde images author eight 復習 innerhtml pad 從今天開始，把自己做的筆記轉移到博客園：今晚復習了一下動態創建輪播圖小圓點做了一下小的筆記： 1 <!DOCTYPE html> 2 <html l

python+selenium+PhantomJS爬取網頁動態加載內容

use for ive comm 自動化測試 mac os x page 影響 blank 一般我們使用python的第三方庫requests及框架scrapy來爬取網上的資源，但是設計javascript渲染的頁面卻不能抓取，此時，我們使用web自動化測試化工具Selen

【學習筆記】python爬取百度真實url

python 今天跑個腳本需要一堆測試的url，，，挨個找復制粘貼肯定不是程序員的風格，so，還是寫個腳本吧。環境：python2.7 編輯器：sublime text 3 一、分析一下首先非常感謝百度大佬的url分類非常整齊，都在一個

關於爬取json內容生成詞雲（瘋狂踩坑）

.sh 動態 cnblogs google 插件 save result json數據 keys 本文爬取了掘金上關於前端前n頁的標題。將文章的標題進行分析，可以看出人們對前端關註的點或者近來的熱點。導入庫 import requests import re from

Js--動態生成表格

aaaaa tel 一個 click inpu document NPU UNC b+ <div> <h1>動態生成表格</h1> <div id="table1"> 行：&l

初學js---動態生成表格

tle innerhtml rip ont link -s oct ref 操作動態生成表格並封裝函數： 1.動態創建表頭　　*通過createElement(‘table‘)創建一個表格標簽——>通過createElement(‘thead‘)創建表頭——&g

JS動態獲取 Url 參數

lac query pre www video pan www. 調用函數 rep 此操作主要用於動態 ajax 請求 1、首先封裝一個函數 GetRequest()，能動態獲取到 url 問號"?"後的所有參數， function GetRequest

js動態生成表格

htm round get test rem words contex .com cli 下面用js實現可以生成用戶所需行數的表格。 1.首先在body中填入下列代碼，獲取用戶填入的行數值 1 <table> 2 <tr> 3

python 反反爬蟲策略之js動態加密url破解

這次這個爬蟲廢了我好幾天時間，第一次遇到js反爬蟲策略，瞬間被打趴下了。不過研究了好幾天之後終於是搞定了，求助的一個朋友，最後的原理我可能也不是太清楚，寫下來，記錄一下，有遇到類似問題的可以參考一下。這個反爬蟲策略，具體是這樣的，當我寫了一個這樣的get請求。 content = re

爬取JS動態生成的URL

相關推薦