1. 程式人生 > >java爬蟲--百度--入門

java爬蟲--百度--入門

參考連結:http://www.jb51.net/article/57193.htm

本來打算這篇文章直接抓取知乎的,但是想想還是先來個簡單的吧,初級文章適合初學者,高手們請直接

上一集中我們說到需要用Java來製作一個知乎爬蟲,那麼這一次,我們就來研究一下如何使用程式碼獲取到網頁的內容。

首先,沒有HTML和CSS和JS和AJAX經驗的建議先去W3C(點我點我)小小的瞭解一下。

說到HTML,這裡就涉及到一個GET訪問和POST訪問的問題。

如果對這個方面缺乏瞭解可以閱讀W3C的這篇:《GET對比POST》。

啊哈,在此不再贅述。

然後咧,接下來我們需要用Java來爬取一個網頁的內容。

這時候,我們的百度就要派上用場了。

沒錯,他不再是那個默默無聞的網速測試器了,他即將成為我們的爬蟲小白鼠!~

我們先來看看百度的首頁:

相信大家都知道,現在這樣的一個頁面,是HTML和CSS共同工作的結果。

我們在瀏覽器中右擊頁面,選擇“檢視頁面原始碼”:

沒錯,就是這一坨翔一樣的東西。這就是百度頁面的原始碼。

接下來我們的任務,就是使用我們的爬蟲也獲取到一樣的東西。

先來看一段簡單的原始碼:

import java.io.*;
import java.net.*;
public class Main {
 public static void main(String[] args) {
  // 定義即將訪問的連結
  String url = "
http://www.baidu.com
";   // 定義一個字串用來儲存網頁內容   String result = "";   // 定義一個緩衝字元輸入流   BufferedReader in = null;   try {    // 將string轉成url物件    URL realUrl = new URL(url);    // 初始化一個連結到那個url的連線    URLConnection connection = realUrl.openConnection();    // 開始實際的連線    connection.connect();    // 初始化 BufferedReader輸入流來讀取URL的響應    in = new BufferedReader(new InputStreamReader(      connection.getInputStream()));    // 用來臨時儲存抓取到的每一行的資料    String line;    while ((line = in.readLine()) != null) {     //遍歷抓取到的每一行並將其儲存到result裡面     result += line;    }   } catch (Exception e) {    System.out.println("傳送GET請求出現異常!" + e);    e.printStackTrace();   }   // 使用finally來關閉輸入流   finally {    try {     if (in != null) {      in.close();     }    } catch (Exception e2) {     e2.printStackTrace();    }   }   System.out.println(result);  } }
http://www.baidu.com";   // 定義一個字串用來儲存網頁內容   String result = "";   // 定義一個緩衝字元輸入流   BufferedReader in = null;   try {    // 將string轉成url物件    URL realUrl = new URL(url);    // 初始化一個連結到那個url的連線    URLConnection connection = realUrl.openConnection();    // 開始實際的連線    connection.connect();    // 初始化 BufferedReader輸入流來讀取URL的響應    in = new BufferedReader(new InputStreamReader(      connection.getInputStream()));    // 用來臨時儲存抓取到的每一行的資料    String line;    while ((line = in.readLine()) != null) {     //遍歷抓取到的每一行並將其儲存到result裡面     result += line;    }   } catch (Exception e) {    System.out.println("傳送GET請求出現異常!" + e);    e.printStackTrace();   }   // 使用finally來關閉輸入流   finally {    try {     if (in != null) {      in.close();     }    } catch (Exception e2) {     e2.printStackTrace();    }   }   System.out.println(result);  } }

以上就是Java模擬Get訪問百度的Main方法,

可以執行一下看看結果:

啊哈,和我們前面用瀏覽器看到的一模一樣。至此,一個最最簡單的爬蟲就算是做好了。

但是這麼一大坨東西未必都是我想要的啊,怎麼從中抓取出我想要的東西呢?

以百度的大爪子Logo為例。

臨時需求:

獲取百度Logo的大爪子的圖片連結。

先說一下瀏覽器的檢視方法。

滑鼠對圖片右擊,選擇審查元素(火狐,谷歌,IE11,均有此功能,只是名字不太一樣):

啊哈,可以看到在一大堆div的圍攻下的可憐的img標籤。

這個src就是影象的連結了。

那麼在java中我們怎麼搞呢?

事先說明,為了方便演示程式碼,所有程式碼均未作類封裝,還請諒解。

我們先把前面的程式碼封裝成一個sendGet函式:

import java.io.*;
import java.net.*;
public class Main {
 static String sendGet(String url) {
  // 定義一個字串用來儲存網頁內容
  String result = "";
  // 定義一個緩衝字元輸入流
  BufferedReader in = null;
  try {
   // 將string轉成url物件
   URL realUrl = new URL(url);
   // 初始化一個連結到那個url的連線
   URLConnection connection = realUrl.openConnection();
   // 開始實際的連線
   connection.connect();
   // 初始化 BufferedReader輸入流來讀取URL的響應
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用來臨時儲存抓取到的每一行的資料
   String line;
   while ((line = in.readLine()) != null) {
    // 遍歷抓取到的每一行並將其儲存到result裡面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("傳送GET請求出現異常!" + e);
   e.printStackTrace();
  }
  // 使用finally來關閉輸入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  return result;
 }
 public static void main(String[] args) {
  // 定義即將訪問的連結
  String url = "http://www.baidu.com";
  // 訪問連結並獲取頁面內容
  String result = sendGet(url);
  System.out.println(result);
 }
}http://www.baidu.com";
  // 訪問連結並獲取頁面內容
  String result = sendGet(url);
  System.out.println(result);
 }
}

這樣看起來稍微整潔了一點,請原諒我這個強迫症。

接下來的任務,就是從獲取到的一大堆東西里面找到那個圖片的連結。

我們首先可以想到的方法,是對頁面原始碼的字串result使用indexof函式進行String的子串搜尋。

沒錯這個方法是可以慢慢解決這個問題,比如直接indexOf("src")找到開始的序號,然後再稀里嘩啦的搞到結束的序號。

不過我們不能一直使用這種方法,畢竟草鞋只適合出門走走,後期還是需要切假腿來拿人頭的。

請原諒我的亂入,繼續。

那麼我們用什麼方式來尋找這張圖片的src呢?

沒錯,正如下面觀眾所說,正則匹配。

如果有同學不太清楚正則,可以參照這篇文章:[Python]網路爬蟲(七):Python中的正則表示式教程。

簡單來說,正則就像是匹配。

比如三個胖子站在這裡,分別穿著紅衣服,藍衣服,綠衣服。

正則就是:抓住那個穿綠衣服的!

然後把綠胖子單獨抓了出來。

就是這麼簡單。

但是正則的語法卻還是博大精深的,剛接觸的時候難免有點摸不著頭腦,

向大家推薦一個正則的線上測試工具:正則表示式線上測試。

有了正則這個神兵利器,那麼怎麼在java裡面使用正則呢?

先來看個簡單的小李子吧。

啊錯了,小栗子。

  // 定義一個樣式模板,此中使用正則表示式,括號中是要抓的內容
  // 相當於埋好了陷阱匹配的地方就會掉下去
  Pattern pattern = Pattern.compile("href=\"(.+?)\"");
  // 定義一個matcher用來做匹配
  Matcher matcher = pattern.matcher("<a href=\"index.html\">我的主頁</a>");
  // 如果找到了
  if (matcher.find()) {
   // 打印出結果
   System.out.println(matcher.group(1));
  }

執行結果:

index.html

沒錯,這就是我們的第一個正則程式碼。

這樣應用的抓取圖片的連結想必也是信手拈來了。

我們將正則匹配封裝成一個函式,然後將程式碼作如下修改:

import java.io.*;
import java.net.*;
import java.util.regex.*;
public class Main {
 static String SendGet(String url) {
  // 定義一個字串用來儲存網頁內容
  String result = "";
  // 定義一個緩衝字元輸入流
  BufferedReader in = null;
  try {
   // 將string轉成url物件
   URL realUrl = new URL(url);
   // 初始化一個連結到那個url的連線
   URLConnection connection = realUrl.openConnection();
   // 開始實際的連線
   connection.connect();
   // 初始化 BufferedReader輸入流來讀取URL的響應
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用來臨時儲存抓取到的每一行的資料
   String line;
   while ((line = in.readLine()) != null) {
    // 遍歷抓取到的每一行並將其儲存到result裡面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("傳送GET請求出現異常!" + e);
   e.printStackTrace();
  }
  // 使用finally來關閉輸入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  return result;
 }
 static String RegexString(String targetStr, String patternStr) {
  // 定義一個樣式模板,此中使用正則表示式,括號中是要抓的內容
  // 相當於埋好了陷阱匹配的地方就會掉下去
  Pattern pattern = Pattern.compile(patternStr);
  // 定義一個matcher用來做匹配
  Matcher matcher = pattern.matcher(targetStr);
  // 如果找到了
  if (matcher.find()) {
   // 打印出結果
   return matcher.group(1);
  }
  return "";
 }
 public static void main(String[] args) {
  // 定義即將訪問的連結
  String url = "http://www.baidu.com";
  // 訪問連結並獲取頁面內容
  String result = SendGet(url);
  // 使用正則匹配圖片的src內容
  String imgSrc = RegexString(result, "即將的正則語法");
  // 列印結果
  System.out.println(imgSrc);
 }
}http://www.baidu.com";
  // 訪問連結並獲取頁面內容
  String result = SendGet(url);
  // 使用正則匹配圖片的src內容
  String imgSrc = RegexString(result, "即將的正則語法");
  // 列印結果
  System.out.println(imgSrc);
 }
}

好的,現在萬事俱備,只差一個正則語法了!

那麼用什麼正則語句比較合適呢?

我們發現只要抓住了src="xxxxxx"這個字串,就能抓出整個src連結,

所以簡單的正則語句:src=\"(.+?)\"

完整程式碼如下:

import java.io.*;
import java.net.*;
import java.util.regex.*;
public class Main {
 static String SendGet(String url) {
  // 定義一個字串用來儲存網頁內容
  String result = "";
  // 定義一個緩衝字元輸入流
  BufferedReader in = null;
  try {
   // 將string轉成url物件
   URL realUrl = new URL(url);
   // 初始化一個連結到那個url的連線
   URLConnection connection = realUrl.openConnection();
   // 開始實際的連線
   connection.connect();
   // 初始化 BufferedReader輸入流來讀取URL的響應
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用來臨時儲存抓取到的每一行的資料
   String line;
   while ((line = in.readLine()) != null) {
    // 遍歷抓取到的每一行並將其儲存到result裡面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("傳送GET請求出現異常!" + e);
   e.printStackTrace();
  }
  // 使用finally來關閉輸入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  return result;
 }
 static String RegexString(String targetStr, String patternStr) {
  // 定義一個樣式模板,此中使用正則表示式,括號中是要抓的內容
  // 相當於埋好了陷阱匹配的地方就會掉下去
  Pattern pattern = Pattern.compile(patternStr);
  // 定義一個matcher用來做匹配
  Matcher matcher = pattern.matcher(targetStr);
  // 如果找到了
  if (matcher.find()) {
   // 打印出結果
   return matcher.group(1);
  }
  return "Nothing";
 }
 public static void main(String[] args) {
  // 定義即將訪問的連結
  String url = "http://www.baidu.com";
  // 訪問連結並獲取頁面內容
  String result = SendGet(url);
  // 使用正則匹配圖片的src內容
  String imgSrc = RegexString(result, "src=\"(.+?)\"");
  // 列印結果
  System.out.println(imgSrc);
 }
}http://www.baidu.com";
  // 訪問連結並獲取頁面內容
  String result = SendGet(url);
  // 使用正則匹配圖片的src內容
  String imgSrc = RegexString(result, "src=\"(.+?)\"");
  // 列印結果
  System.out.println(imgSrc);
 }
}

這樣我們就能用java抓出百度LOGO的連結了。

好吧雖然花了很多時間講百度,但是基礎要打紮實啦,下次我們正式開始抓知乎咯!~