綜述:本專欄將介紹以下內容(專欄:網路爬蟲(java版))
阿新 • • 發佈:2018-12-26
目前爬蟲技術非常火,使用Java、Python、PHP等語言都可以完成。雖說現在Python是開發爬蟲的首選語言,但是Java在爬蟲的開發方面也是有一定優勢的:例如,HttpClient可以很好地模擬瀏覽器請求;Jsoup在解析爬取的Html文件時具有非常高效的特性;最重要的是Java很好地支援分散式開發,在很大程度上提高了爬蟲的效率;Java可以十分方便的開發一款視覺化介面,用來對爬蟲進行監控。
本專欄將介紹以下內容:
1、Socket程式設計
(1)Socket是java網路程式設計的基礎,本文使用Socket模擬傳送Get和Post請求
(2)https://blog.csdn.net/tiandixuanwuliang/article/details/80796002
2、HttpURLConnection程式設計
(1)使用HttpURLConnection傳送Get和Post請求
(2)
3、HttpClient程式設計
(1)HttpClient具有使用方便,高效率的特性,本文使用HttpClient傳送Get和Post請求,後續的爬蟲也是基於HttpClient開發的
(2)
4、Jsoup的使用
(1)Jsoup在解析Html文件時具有非常高效的特性,使用起來非常方便
(2)
5、虎嗅網爬蟲—-基礎版
(1)本文使用HttpClient+Jsoup開發簡單版本爬蟲
(2)
6、虎嗅網爬蟲—-中級版
(1)在基礎版本上,使用了多執行緒技術
(2)
7、虎嗅網爬蟲—-高階版
(1)在中級版本上,增加了Redis快取,使用了Redis提供的佇列功能,並且把該爬蟲變為一個分散式爬蟲
(2)
8、京東爬蟲
(1)爬取京東網站的資料
(2)
9、圖片中的文字識別
(1)使用Tesseract技術識別圖片中的文字
(2)