如果獲得頁面跳轉的最終URL

阿新 • • 發佈：2019-02-17

最近做一個小功能，就是獲取一個頁面經過跳轉後的最終頁面URL，這裡的跳轉方式包含但不僅限於HTTP 301/302、js、meta refresh。下面是我想到的三種可能的解決方式，可能會有更優的方法，期望大家提出更好的方法。
1. 首先的解決方法就是解析html頁面，獲得html頁面中跳轉的URL。
這種方式是我能想到的最高效、速度最快的方法，但是也有可能是最難維護的，因為我們必須對各種跳轉方式都要了解。現在我所遇到的是HTTP 302/301、windows.location.href、meta http-equiv="refresh" content="0; url=http://www.nsfocus.com/"

，這僅僅是我當前遇到的，不用說還有更多的跳轉方式，而且跳轉的條件也有各種，所以要保證功能的可用性你得不斷的維護解析程式碼。
這個方法還要注意的就是多級跳轉的情況，程式碼就不上了，因為當時我也沒決定用這種方法。
2. 用Selenium+Chrome(Firefox)藉助瀏覽器一勞永逸的方法。
前面解析html頁面的方法可能會遇到各種我們未知的跳轉問題，我們何不站在”偉人”的肩膀上，藉助她們的力量來幫我們解決這些棘手的問題。
Selenium是大家熟悉的自動化測試的開源軟體，通過Selenium載入本地的瀏覽器，通過瀏覽器來做頁面的載入跳轉，獲得最終的跳轉URL。
因為程式執行的環境沒有GUI所以得通過Xvfb來載入執行瀏覽器，PyVirtualDisplay是一個封裝了Xvfb, Xephyr and Xvnc操作的工具包Python庫。程式碼如下：

#!env python
#coding=utf-8
# 
# Author:       [email protected]
# 
# Created Time: 2016年07月31日 星期日 21時16分04秒
# 
# FileName:     redirect.py
# 
# Description:  
# 
# ChangeLog:

from pyvirtualdisplay import Display
from selenium import webdriver

display = Display(visible=0, size=(1024, 768))
display.start()

driver = webdriver.Chrome('/home/lxg/chromedriver' 
)
driver.implicitly_wait(30)
link = "https://jf.bankofrizhao.com.cn/"
driver.get(link)

redirected_url = driver.current_url
print 30*'='
print redirected_url
print 30*'='
driver.close() # Close the current window.
driver.quit() # Quit the driver and close every associated window.
display.stop()

這種方法從效果來說比較好，我們無需關注頁面的可能跳轉方法有哪些，因為Chrome都會替我們解決。但是這種方式比前面的解析html頁面的方法可能就是消耗的資源比較多、執行時間也會稍長。
3. 使用Headless browsers的PhantomJS。
PhantomJS是一個無介面的webkit核心瀏覽器，你可以把它當作一個沒有介面的Safari。既然是一個瀏覽器那麼它應該也能滿足我們的需求，下面是我從網上copy回來的一段程式碼：

var sys = require('system');
var pageUrl = ( sys.args[1] ) ? sys.args[1] : phantom.exit(0);

function forceExit(){
    phantom.exit(0);
}

var renderPage = function (url) {
    var page = require('webpage').create();

    page.onNavigationRequested = function(url, type, willNavigate, main) {
        var tmpUrl = ( url.substr(url.length - 1) != '/' ) ? url+'/' : url;
        var tmpPageUrl = ( pageUrl.substr( pageUrl.length - 1) != '/' ) ? pageUrl+'/' : pageUrl;
        if (main && tmpUrl!=tmpPageUrl && url!='about:blank') {
            pageUrl = url;
            sys.stdout.write(url+'\n');
            setTimeout(forceExit,1000 );
        }
    };

    page.open(url, function(status) {
        if ( status != 'success' ) {
            phantom.exit( 1 );
        } else {
            phantom.exit( 0 );
        }
    },100);

    setTimeout(forceExit,2000 );
};

renderPage( pageUrl );

這段程式碼能夠獲取js跳轉，但是對於meta refresh跳轉卻不支援，當然對於HTTP 302/301也不支援。大致瀏覽了一邊API也沒能找到完美的解決方法。
後面的兩種方法相對來說比較”重”，因為我這次對於程式的執行效率不太在乎，所以我就選擇了第二中方法。

如果獲得頁面跳轉的最終URL

如果獲得頁面跳轉的最終URL

python獲得頁面跳轉的最終URL

框架之TP5 頁面跳轉 / 以及url地址

在頁面跳轉的時候，在跳轉後的頁面中使用js 獲取到頁面跳轉的url中攜帶的引數。

Servlet頁面跳轉的URL拼接問題

JS頁面跳轉傳url地址錯誤

頁面鏈接跳轉歷史URL不記錄的兼容處理

三十七、小程式頁面跳轉傳參引數值為url時引數丟失

微信小程式頁面跳轉如何通過url傳遞引數

ie瀏覽器在頁面跳轉的時候，url裡面有漢字跳轉報錯

頁面發生跳轉但是url 不發生變化

spring jquery Mobile 頁面跳轉後瀏覽器url未改變&&javaScript程式碼重新整理後才能執行的問題解決

幾種常用的頁面跳轉URL的方法

兩個頁面跳轉 url傳中文非法字元及亂碼

AngularJS路由實現單頁面跳轉

php中實現頁面跳轉的幾種方式

ionic2 頁面跳轉 push() pop() NavController,navParams

jquery頁面跳轉導航變色，刷新後依然存在

5S後頁面跳轉

微信小程序頁面跳轉

如果獲得頁面跳轉的最終URL

相關推薦