1. 程式人生 > >爬蟲:網頁裏元素的xpath結構,scrapy不一定就找的到

爬蟲:網頁裏元素的xpath結構,scrapy不一定就找的到

源代碼 發現 插件 結構 完成 網頁 分享 動態生成 http

這種情況原因是html界面關聯的js文件可能會動態修改DOM結構,這樣瀏覽器完成了動態修改DOM,在 瀏覽器上看到的DOM結構,就和後臺抓到的DOM結構不通

舉例:新浪微博發的微博,在瀏覽器通過firebug的插件FirePath可以很容易計算出xpath

技術分享

通過Firefinder可以查看xpath的匹配情況

技術分享

但是查看頁面的源代碼,可以發現,微博的內容都是包含在js裏的FM.view裏的,這些會被js動態生成DOM,但是抓取返回的內容都是下面這些內容,是還沒有生成DOM的

技術分享

爬蟲:網頁裏元素的xpath結構,scrapy不一定就找的到