1. 程式人生 > >復雜HTML解析

復雜HTML解析

加載 整理 尋找 javascrip scrip 網頁 asc 網站 但是

面對頁面解析難題時候,需要註意問題:

1、尋找“打印次頁”的鏈接,或者看看網站有沒有HTML樣式更友好的移動版(把自己的請求頭設置成處於移動設備的狀態,然後接收網站移動版)。

2、尋找隱藏在JavaScript文件裏的信息。要實現這一點,可能需要查看網頁加載的JavaScript文件。比如一個網站上的街道地址(以緯度和經度呈現的)整理成格式整潔的數組時,查看過內嵌谷歌地圖的JavaScript文件,裏面有每個地址的標記點。雖然網頁標題經常會用到,但是這個信息也許可以從網頁的URL鏈接裏獲取。

3、如果找的信息只存在於一個網站上,別處沒有,那你確實是運氣不佳。如果不只限於這個網站,那麽可以找找其他數據源。有沒有其他網站也顯示了同樣的數據?網站上顯示的數據是不是從其他網站上抓取後攢出來的?

復雜HTML解析