1. 程式人生 > 其它 >對伺服器端渲染的爬蟲方法

對伺服器端渲染的爬蟲方法

資料解析:上一個部落格講的是爬取整個網頁的基本技能,但是大多數情況下都不需要爬取整個介面,只是需要其中的一小部分,這就涉及到資料提取的問題。

有三種解析方式:1、re解析(執行速度最快) 2、bs4接續(最簡單,執行速度低) 3、xpath解析 三種方法可以混合使用。

正則表示式:一種使用表示式的方法對字串進行匹配的語法規則,抓取到的網頁原始碼本質上是一個超長的字串,想從中提取內容,正則表示式最合適。

正則語法:使用元字元進行排列組合用來匹配字串,線上測試正則表示式:正則表示式線上測試 | 菜鳥工具 (runoob.com)

元字元:具有固定含義的特殊符號

常用元字元:1、.-------------匹配除換行符以外的所有字元

2、\w-----------匹配字母或者數字或者下劃線 \W------------匹配非字母或者數字下劃線

3、\s------------匹配任意的空白串 \S-------------匹配非空白符

4、\d------------匹配數字 \D--------------匹配非數字

5、\n------------匹配一個換行符

6、^--------------匹配字串的開始

7、$-------------匹配字串的結束

8、a|b------------匹配字元a或者字元b

9、()-----------匹配括號內的表示式,也表示一個組

10、[...]--------------匹配字元組中的字元 [^...]--------------匹配除了字元組中的所有字元

11、\t---------------匹配一個製表符

量詞:控制前面的元字元出現的次數

1、* 重複零次或者多次

2、+重複一次或者更多次

3、?重複零次或者一次

4、{n}重複n次

5、{n,}重複n次或者更多次

6、{n,m}重複n次到m次

貪婪匹配和惰性匹配(爬蟲)

1、。*---------貪婪匹配

2、。*?------惰性匹配

.