1. 程式人生 > >Java裸寫爬蟲技術,運用多執行緒技術,高效爬取某個醫療機構網站資料

Java裸寫爬蟲技術,運用多執行緒技術,高效爬取某個醫療機構網站資料

最近喜歡上了資料的龐大的感覺,就爬取了一下某個醫療機構網站醫療資料,由於資料量龐大,只爬取了江西省的各個市的各個醫院的各個科室的各個科室。中各種資訊。其中用的持久層技術是hibernate框架,和用到一些ioc技術。話不多說,上圖。

結構很簡單,但是程式碼量有一點,在這個程式中,只開了12個執行緒,爬取過程並未出現什麼異常。

在之前測試全國資料的時候,開了36個執行緒,出現了一些事務異常,可能會出現幻讀,現象。

t_city:

 

t_department:

t_hospital

還有省份

原理很簡單理解,就是通過分析網站的架構,來進行巢狀分析,最後就可以得到網站的一種樹狀結構,然後分析各個子葉的內容,得到資料來源。