1. 程式人生 > >java爬蟲Jsoup簡單學習

java爬蟲Jsoup簡單學習

啥是jsoup?

jsoup我就不巴拉巴拉了,具體介紹百度或者去官網檢視。

jsoup怎麼用?

jsoup和jquery的操作相似,下面簡單使用一下。

使用jsoup大概也就以下幾個步驟:

  1. 獲取整個html文件
  2. 使用選擇器獲取需要爬的資料節點集合
  3. 迴圈遍歷使用選擇器獲取相應資料

例項

這是專案結構也就普通的一個測試專案,需要匯入jsoup-x.xx.x.jar包,然後建一個實體類。

 我們就拿這個嘰歪笑話來說。

 

 每一個笑話對應一個div。

 

建立一個測試main方法通過Jsoup.conect(url).get();方法獲取相應整個html頁面

然後通過select方法。select方法跟jquery選擇器類似,可以通過 .,#,屬性等選擇標籤。

注意:這裡選擇器選擇所有class為xh的節點也就是上文所有的笑話節點集合

然後迴圈節點集合

然後根據節點的class屬性獲取相應的節點然後text()方法獲取節點文字。然後執行輸出。

附上執行結果:

jsoup可玩性挺大的,過年,過節爬爬火車票啥的。簡單介紹就到這兒了。