爬蟲入門到放棄系列02:html網頁如何解析
阿新 • • 發佈:2021-02-04
![](https://img-blog.csdnimg.cn/20210201173634123.png)
## 前言
上一篇文章講了爬蟲的概念,本篇文章主要來講述一下如何來解析爬蟲請求的網頁內容。
一個簡單的爬蟲程式主要分為兩個部分,請求部分和解析部分。請求部分基本一行程式碼就可以搞定,所以主要來講述一下解析部分。對於解析,最常用的就是xpath和css選擇器,偶爾也會使用正則表示式。
不論是xpah還是css,都是通過html元素或者其中某些屬性來選中符合條件的元素節點。
以斗羅大陸的部分html為例。
```html