Java爬蟲-使用HttpClient+Jsoup實現簡單的爬蟲爬取文字

阿新 • • 發佈：2019-01-17

##一、工具介紹
HttpClient是Apache Jakarta Common下的子專案，用來提供高效的、最新的、功能豐富的支援HTTP協議的客戶端程式設計工具包，並且它支援HTTP協議最新的版本和建議。HttpClient已經應用在很多的專案中，比如Apache Jakarta上很著名的另外兩個開源專案Cactus和HTMLUnit都使用了HttpClient。
HttpClient下載地址：http://hc.apache.org/downloads.cgi
Jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似於jQuery的操作方法來取出和操作資料。
Jsoup下載地址：

https://jsoup.org/download
##二、使用方法
1.HttpClient的使用步驟：
(1) 建立HttpClient物件；
(2) 建立請求方法的例項，並指定請求URL。如果需要傳送GET請求，建立HttpGet物件；如果需要傳送POST請求，建立HttpPost物件；
(3) 如果需要傳送請求引數，可呼叫HttpGet、HttpPost共同的setParams(HetpParams params)方法來新增請求引數；對於HttpPost物件而言，也可呼叫setEntity(HttpEntity entity)方法來設定請求引數；
(4) 呼叫HttpClient物件的execute(HttpUriRequest request)傳送請求，該方法返回一個HttpResponse；
(5) 呼叫HttpResponse的getAllHeaders()、getHeaders(String name)等方法可獲取伺服器的響應頭；呼叫HttpResponse的getEntity()方法可獲取HttpEntity物件，該物件包裝了伺服器的響應內容。程式可通過該物件獲取伺服器的響應內容；
(6) 釋放連線。無論執行方法是否成功，都必須釋放連線；
2.Jsoup的常用方法（Jsoup很強大，我只列出來一部分）：

| 類| 方法 | 作用
| :---------

Java爬蟲-使用HttpClient+Jsoup實現簡單的爬蟲爬取文字

Java爬蟲-使用HttpClient+Jsoup實現簡單的爬蟲爬取文字

python爬蟲（1）——簡單的爬取網頁的資訊

HttpClient+jsoup實現網頁資料抓取和處理

Node.js實現簡單的爬取

java基於jsoup實現簡單的圖片爬蟲並下載

Java實現簡單爬蟲爬取天氣預報

用JAVA實現簡單爬蟲多執行緒抓取

java爬蟲：jsoup的簡單案例

python實現簡單爬蟲功能

爬蟲基礎知識與簡單爬蟲實現

Python學習 —— 實現簡單爬蟲

使用Python的BeautifulSoup庫實現一個可以爬取1000條百度百科數據的爬蟲

python 爬蟲（一） requests+BeautifulSoup 爬取簡單網頁代碼示例

Python實現簡單爬蟲功能--批量下載百度貼吧裡的圖片

Node實現簡單爬蟲

使用php實現簡單爬蟲（一種通用的爬蟲思想）

通過scrapy實現簡單爬蟲

第一次初學爬蟲編寫的最簡單的爬出百度貼吧的圖片

爬蟲系統基礎框架 & 何時使用爬蟲框架？& requests庫 + bs4來實現簡單爬蟲

使用tornado實現簡單爬蟲

Java爬蟲-使用HttpClient+Jsoup實現簡單的爬蟲爬取文字

相關推薦