1. 程式人生 > >使用java的爬蟲策略獲取京東評論

使用java的爬蟲策略獲取京東評論

前言

習慣了python的爬蟲,當重新使用回Java來爬蟲時,顯得十分的陌生.當然這不是為了好玩,在需要快速爬取大量的評論的情況下,python的效能不及於java.我小規模的測試,大概python的平均爬取網頁的時間為0.3秒,而java為0.1秒~0.2秒.因此,為了高效地我還是選回了java.

爬蟲演示程式碼

public String call (String url){
            String content = "";
            BufferedReader in = null;
            try{
                URL realUrl = new
URL(url); URLConnection connection = realUrl.openConnection(); //請求連線 connection.connect(); in = new BufferedReader(new InputStreamReader(connection.getInputStream(),"gbk")); //注意網頁的編碼 String line ; while ((line = in.readLine()) != null
){ content += line + "\n"; } }catch (Exception e){ e.printStackTrace(); } finally{ try{ if (in != null){ in.close(); // 資料流請求完,要關閉,避免資源空間的浪費 } }catch
(Exception e2){ e2.printStackTrace(); } } return content; }