1. 程式人生 > >【思路】php使用curl爬資料的思路

【思路】php使用curl爬資料的思路

首先我們要知道頁面資料內容有兩種方式(待爬資料只有2種):
一,直接渲染出來的(基於mvc模板賦值到模板頁面的)

二,通過介面獲取然後JS渲染出來(介面返回的)

然後你要找資料的話:

就看直接訪問的地址能不能拿到有你想要的那些內容的文字 (基於mvc模板賦值到模板頁面的)

如果沒有,就看看是通過哪些介面獲取到的

關於更進一步的連結,也是如此:

如果是直接渲染的可以通過xpath或csspath等第3方列庫來分離資料和標籤

如果不是直接渲染的話,JS 生成的連結你就要自己去根據他,需要拼湊的引數,拼湊好連結(帶上cookie)進行下一步的訪問

注意1:這樣如果你多次取不到值了,就應該去手工換一下cookie了

注意2:如果是介面的話,注意請求的url每天都要變,因為url上帶的引數都會變,不修改的話,爬不下來的(可以這樣將url入庫,爬的時候查出來,拼好引數,在丟給curl)

注意3:還有就是,不知道微信的限速問題,不是時效性高的話就10秒左右爬一輪就行了

最重要的是,有些東西,不是非要先模擬登入才能爬去,登陸之後,直接找個介面在瀏覽器跑一下試試(如果有資料返回,那就證明只要帶cookie和請求需要帶的引數就可以了)就不用模擬掃碼了