1. 程式人生 > >Java資料採集--1.準備工作

Java資料採集--1.準備工作

前言:自從2014年4月大一開始接觸Java,7月開始接觸網路爬蟲至今已經兩年的時間,共抓取非同型別網站150餘個,其中包括一些超大型網站,比如百度文庫,亞馬遜,魔方格,學科網等。也在學長五年經驗留下來的程式碼的基礎上,整合成一個小型的爬蟲框架,主要用於抓取期刊之類的資料型網站,包括元資料抓取和檔案下載。在此感謝曾經給我指導方向,幫助我學習的學長們。

關於本系列博文:主要基於Java語言,使用Jsoup解析網頁原始碼,HttpClient模擬請求,MySQL資料持久化儲存等,包括模擬登陸,資料抓取,代理IP,驗證碼識別等。

學習前的準備工作:
1.關於Java基礎
此文件主要以Jsoup解析+MySql資料庫儲存講解資料抓取,需要具備一定的Java基礎和資料庫基礎。由於在實際抓取中經常使用到Java中對String的操作,如indexOf,subString,split,replace等,請重點回顧相關用法及有可能丟擲的異常。對於一些複雜的網站只靠Jsoup解析+String操作遠遠不夠,有時候也需要使用正則表示式,也需要適當瞭解。