1. 程式人生 > >綜述:本專欄將介紹以下內容(專欄:網路爬蟲(java版))

綜述:本專欄將介紹以下內容(專欄:網路爬蟲(java版))

目前爬蟲技術非常火,使用Java、Python、PHP等語言都可以完成。雖說現在Python是開發爬蟲的首選語言,但是Java在爬蟲的開發方面也是有一定優勢的:例如,HttpClient可以很好地模擬瀏覽器請求;Jsoup在解析爬取的Html文件時具有非常高效的特性;最重要的是Java很好地支援分散式開發,在很大程度上提高了爬蟲的效率;Java可以十分方便的開發一款視覺化介面,用來對爬蟲進行監控。
本專欄將介紹以下內容:

1、Socket程式設計

(1)Socket是java網路程式設計的基礎,本文使用Socket模擬傳送Get和Post請求
(2)https://blog.csdn.net/tiandixuanwuliang/article/details/80796002

2、HttpURLConnection程式設計

(1)使用HttpURLConnection傳送Get和Post請求
(2)

3、HttpClient程式設計

(1)HttpClient具有使用方便,高效率的特性,本文使用HttpClient傳送Get和Post請求,後續的爬蟲也是基於HttpClient開發的
(2)

4、Jsoup的使用

(1)Jsoup在解析Html文件時具有非常高效的特性,使用起來非常方便
(2)

5、虎嗅網爬蟲—-基礎版

(1)本文使用HttpClient+Jsoup開發簡單版本爬蟲
(2)

6、虎嗅網爬蟲—-中級版

(1)在基礎版本上,使用了多執行緒技術
(2)

7、虎嗅網爬蟲—-高階版

(1)在中級版本上,增加了Redis快取,使用了Redis提供的佇列功能,並且把該爬蟲變為一個分散式爬蟲
(2)

8、京東爬蟲

(1)爬取京東網站的資料
(2)

9、圖片中的文字識別

(1)使用Tesseract技術識別圖片中的文字
(2)