使用java的爬蟲策略獲取京東評論
阿新 • • 發佈:2019-01-25
前言
習慣了python的爬蟲,當重新使用回Java來爬蟲時,顯得十分的陌生.當然這不是為了好玩,在需要快速爬取大量的評論的情況下,python的效能不及於java.我小規模的測試,大概python的平均爬取網頁的時間為0.3秒,而java為0.1秒~0.2秒.因此,為了高效地我還是選回了java.
爬蟲演示程式碼
public String call (String url){
String content = "";
BufferedReader in = null;
try{
URL realUrl = new URL(url);
URLConnection connection = realUrl.openConnection(); //請求連線
connection.connect();
in = new BufferedReader(new InputStreamReader(connection.getInputStream(),"gbk")); //注意網頁的編碼
String line ;
while ((line = in.readLine()) != null ){
content += line + "\n";
}
}catch (Exception e){
e.printStackTrace();
}
finally{
try{
if (in != null){
in.close(); // 資料流請求完,要關閉,避免資源空間的浪費
}
}catch (Exception e2){
e2.printStackTrace();
}
}
return content;
}