java爬蟲--百度--入門

阿新 • • 發佈：2018-12-17

參考連結：http://www.jb51.net/article/57193.htm

本來打算這篇文章直接抓取知乎的，但是想想還是先來個簡單的吧，初級文章適合初學者，高手們請直接

上一集中我們說到需要用Java來製作一個知乎爬蟲，那麼這一次，我們就來研究一下如何使用程式碼獲取到網頁的內容。

首先，沒有HTML和CSS和JS和AJAX經驗的建議先去W3C（點我點我）小小的瞭解一下。

說到HTML，這裡就涉及到一個GET訪問和POST訪問的問題。

如果對這個方面缺乏瞭解可以閱讀W3C的這篇：《GET對比POST》。

啊哈，在此不再贅述。

然後咧，接下來我們需要用Java來爬取一個網頁的內容。

這時候，我們的百度就要派上用場了。

沒錯，他不再是那個默默無聞的網速測試器了，他即將成為我們的爬蟲小白鼠！~

我們先來看看百度的首頁：

相信大家都知道，現在這樣的一個頁面，是HTML和CSS共同工作的結果。

我們在瀏覽器中右擊頁面，選擇“檢視頁面原始碼”：

沒錯，就是這一坨翔一樣的東西。這就是百度頁面的原始碼。

接下來我們的任務，就是使用我們的爬蟲也獲取到一樣的東西。

先來看一段簡單的原始碼：

import java.io.*;
import java.net.*;
public class Main {
 public static void main(String[] args) {
  // 定義即將訪問的連結
  String url = " 
http://www.baidu.com";
  // 定義一個字串用來儲存網頁內容
  String result = "";
  // 定義一個緩衝字元輸入流
  BufferedReader in = null;
  try {
   // 將string轉成url物件
   URL realUrl = new URL(url);
   // 初始化一個連結到那個url的連線
   URLConnection connection = realUrl.openConnection();
   // 開始實際的連線
   connection.connect();
   // 初始化 BufferedReader輸入流來讀取URL的響應
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用來臨時儲存抓取到的每一行的資料
   String line;
   while ((line = in.readLine()) != null) {
    //遍歷抓取到的每一行並將其儲存到result裡面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("傳送GET請求出現異常！" + e);
   e.printStackTrace();
  }
  // 使用finally來關閉輸入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  System.out.println(result);
 }
} 
http://www.baidu.com";
  // 定義一個字串用來儲存網頁內容
  String result = "";
  // 定義一個緩衝字元輸入流
  BufferedReader in = null;
  try {
   // 將string轉成url物件
   URL realUrl = new URL(url);
   // 初始化一個連結到那個url的連線
   URLConnection connection = realUrl.openConnection();
   // 開始實際的連線
   connection.connect();
   // 初始化 BufferedReader輸入流來讀取URL的響應
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用來臨時儲存抓取到的每一行的資料
   String line;
   while ((line = in.readLine()) != null) {
    //遍歷抓取到的每一行並將其儲存到result裡面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("傳送GET請求出現異常！" + e);
   e.printStackTrace();
  }
  // 使用finally來關閉輸入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  System.out.println(result);
 }
}

以上就是Java模擬Get訪問百度的Main方法，

可以執行一下看看結果：

啊哈，和我們前面用瀏覽器看到的一模一樣。至此，一個最最簡單的爬蟲就算是做好了。

但是這麼一大坨東西未必都是我想要的啊，怎麼從中抓取出我想要的東西呢？

以百度的大爪子Logo為例。

臨時需求：

獲取百度Logo的大爪子的圖片連結。

先說一下瀏覽器的檢視方法。

滑鼠對圖片右擊，選擇審查元素（火狐，谷歌，IE11，均有此功能，只是名字不太一樣）：

啊哈，可以看到在一大堆div的圍攻下的可憐的img標籤。

這個src就是影象的連結了。

那麼在java中我們怎麼搞呢？

事先說明，為了方便演示程式碼，所有程式碼均未作類封裝，還請諒解。

我們先把前面的程式碼封裝成一個sendGet函式：

import java.io.*;
import java.net.*;
public class Main {
 static String sendGet(String url) {
  // 定義一個字串用來儲存網頁內容
  String result = "";
  // 定義一個緩衝字元輸入流
  BufferedReader in = null;
  try {
   // 將string轉成url物件
   URL realUrl = new URL(url);
   // 初始化一個連結到那個url的連線
   URLConnection connection = realUrl.openConnection();
   // 開始實際的連線
   connection.connect();
   // 初始化 BufferedReader輸入流來讀取URL的響應
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用來臨時儲存抓取到的每一行的資料
   String line;
   while ((line = in.readLine()) != null) {
    // 遍歷抓取到的每一行並將其儲存到result裡面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("傳送GET請求出現異常！" + e);
   e.printStackTrace();
  }
  // 使用finally來關閉輸入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  return result;
 }
 public static void main(String[] args) {
  // 定義即將訪問的連結
  String url = "http://www.baidu.com";
  // 訪問連結並獲取頁面內容
  String result = sendGet(url);
  System.out.println(result);
 }
}http://www.baidu.com";
  // 訪問連結並獲取頁面內容
  String result = sendGet(url);
  System.out.println(result);
 }
}

這樣看起來稍微整潔了一點，請原諒我這個強迫症。

接下來的任務，就是從獲取到的一大堆東西里面找到那個圖片的連結。

我們首先可以想到的方法，是對頁面原始碼的字串result使用indexof函式進行String的子串搜尋。

沒錯這個方法是可以慢慢解決這個問題，比如直接indexOf("src")找到開始的序號，然後再稀里嘩啦的搞到結束的序號。

不過我們不能一直使用這種方法，畢竟草鞋只適合出門走走，後期還是需要切假腿來拿人頭的。

請原諒我的亂入，繼續。

那麼我們用什麼方式來尋找這張圖片的src呢？

沒錯，正如下面觀眾所說，正則匹配。

如果有同學不太清楚正則，可以參照這篇文章：[Python]網路爬蟲（七）：Python中的正則表示式教程。

簡單來說，正則就像是匹配。

比如三個胖子站在這裡，分別穿著紅衣服，藍衣服，綠衣服。

正則就是：抓住那個穿綠衣服的！

然後把綠胖子單獨抓了出來。

就是這麼簡單。

但是正則的語法卻還是博大精深的，剛接觸的時候難免有點摸不著頭腦，

向大家推薦一個正則的線上測試工具：正則表示式線上測試。

有了正則這個神兵利器，那麼怎麼在java裡面使用正則呢？

先來看個簡單的小李子吧。

啊錯了，小栗子。

  // 定義一個樣式模板，此中使用正則表示式，括號中是要抓的內容
  // 相當於埋好了陷阱匹配的地方就會掉下去
  Pattern pattern = Pattern.compile("href=\"(.+?)\"");
  // 定義一個matcher用來做匹配
  Matcher matcher = pattern.matcher("＜a href=\"index.html\"＞我的主頁＜/a＞");
  // 如果找到了
  if (matcher.find()) {
   // 打印出結果
   System.out.println(matcher.group(1));
  }

執行結果：

index.html

沒錯，這就是我們的第一個正則程式碼。

這樣應用的抓取圖片的連結想必也是信手拈來了。

我們將正則匹配封裝成一個函式，然後將程式碼作如下修改：

import java.io.*;
import java.net.*;
import java.util.regex.*;
public class Main {
 static String SendGet(String url) {
  // 定義一個字串用來儲存網頁內容
  String result = "";
  // 定義一個緩衝字元輸入流
  BufferedReader in = null;
  try {
   // 將string轉成url物件
   URL realUrl = new URL(url);
   // 初始化一個連結到那個url的連線
   URLConnection connection = realUrl.openConnection();
   // 開始實際的連線
   connection.connect();
   // 初始化 BufferedReader輸入流來讀取URL的響應
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用來臨時儲存抓取到的每一行的資料
   String line;
   while ((line = in.readLine()) != null) {
    // 遍歷抓取到的每一行並將其儲存到result裡面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("傳送GET請求出現異常！" + e);
   e.printStackTrace();
  }
  // 使用finally來關閉輸入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  return result;
 }
 static String RegexString(String targetStr, String patternStr) {
  // 定義一個樣式模板，此中使用正則表示式，括號中是要抓的內容
  // 相當於埋好了陷阱匹配的地方就會掉下去
  Pattern pattern = Pattern.compile(patternStr);
  // 定義一個matcher用來做匹配
  Matcher matcher = pattern.matcher(targetStr);
  // 如果找到了
  if (matcher.find()) {
   // 打印出結果
   return matcher.group(1);
  }
  return "";
 }
 public static void main(String[] args) {
  // 定義即將訪問的連結
  String url = "http://www.baidu.com";
  // 訪問連結並獲取頁面內容
  String result = SendGet(url);
  // 使用正則匹配圖片的src內容
  String imgSrc = RegexString(result, "即將的正則語法");
  // 列印結果
  System.out.println(imgSrc);
 }
}http://www.baidu.com";
  // 訪問連結並獲取頁面內容
  String result = SendGet(url);
  // 使用正則匹配圖片的src內容
  String imgSrc = RegexString(result, "即將的正則語法");
  // 列印結果
  System.out.println(imgSrc);
 }
}

好的，現在萬事俱備，只差一個正則語法了！

那麼用什麼正則語句比較合適呢？

我們發現只要抓住了src="xxxxxx"這個字串，就能抓出整個src連結，

所以簡單的正則語句：src=\"(.+?)\"

完整程式碼如下：

import java.io.*;
import java.net.*;
import java.util.regex.*;
public class Main {
 static String SendGet(String url) {
  // 定義一個字串用來儲存網頁內容
  String result = "";
  // 定義一個緩衝字元輸入流
  BufferedReader in = null;
  try {
   // 將string轉成url物件
   URL realUrl = new URL(url);
   // 初始化一個連結到那個url的連線
   URLConnection connection = realUrl.openConnection();
   // 開始實際的連線
   connection.connect();
   // 初始化 BufferedReader輸入流來讀取URL的響應
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用來臨時儲存抓取到的每一行的資料
   String line;
   while ((line = in.readLine()) != null) {
    // 遍歷抓取到的每一行並將其儲存到result裡面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("傳送GET請求出現異常！" + e);
   e.printStackTrace();
  }
  // 使用finally來關閉輸入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  return result;
 }
 static String RegexString(String targetStr, String patternStr) {
  // 定義一個樣式模板，此中使用正則表示式，括號中是要抓的內容
  // 相當於埋好了陷阱匹配的地方就會掉下去
  Pattern pattern = Pattern.compile(patternStr);
  // 定義一個matcher用來做匹配
  Matcher matcher = pattern.matcher(targetStr);
  // 如果找到了
  if (matcher.find()) {
   // 打印出結果
   return matcher.group(1);
  }
  return "Nothing";
 }
 public static void main(String[] args) {
  // 定義即將訪問的連結
  String url = "http://www.baidu.com";
  // 訪問連結並獲取頁面內容
  String result = SendGet(url);
  // 使用正則匹配圖片的src內容
  String imgSrc = RegexString(result, "src=\"(.+?)\"");
  // 列印結果
  System.out.println(imgSrc);
 }
}http://www.baidu.com";
  // 訪問連結並獲取頁面內容
  String result = SendGet(url);
  // 使用正則匹配圖片的src內容
  String imgSrc = RegexString(result, "src=\"(.+?)\"");
  // 列印結果
  System.out.println(imgSrc);
 }
}

這樣我們就能用java抓出百度LOGO的連結了。

好吧雖然花了很多時間講百度，但是基礎要打紮實啦，下次我們正式開始抓知乎咯！~

java爬蟲--百度--入門

參考連結：http://www.jb51.net/article/57193.htm 本來打算這篇文章直接抓取知乎的，但是想想還是先來個簡單的吧，初級文章適合初學者，高手們請直接上一集中我們說到需要用Java來製作一個知乎爬蟲，那麼這一次，我們就來研究一下如何使

python爬蟲百度翻譯

return 中文 http mar user base res img apple python3,爬取的是百度翻譯手機版的網頁運用requests,json模塊英漢互譯，運行結果 #!/bin/python3 # -*- coding: UTF-

python 爬蟲百度貼吧簽到小工具

sca window user con lee post use wow64 搜索 import requests,re,timeheader ={ "Cookie":"登陸過賬號後的cookie 必須填寫", "User-Agent":"Mozilla/5.

Java呼叫百度API實現文字識別-羅紹崗-專題視訊課程

Java呼叫百度API實現文字識別—242人已學習課程介紹 java呼叫百度AI文字識別SDK來實現一張圖片的文字資訊課程收益

java呼叫百度AI識別圖片上的文字功能

1、登入百度AI開放平臺網站連結：http://ai.baidu.com/ 新手接入指南：http://ai.baidu.com/docs#/Begin/top &n

Java呼叫百度API實現翻譯-羅紹崗-專題視訊課程

Java呼叫百度API實現翻譯—390人已學習課程介紹 java呼叫百度API實現中英文翻譯課程收益此課程學習後可以反駁領悟

Java呼叫百度API實現翻譯

教程地址下面是Java呼叫百度API實現翻譯的具體步驟：一、在寫程式碼之前先在在百度翻譯平臺中，申請APP_ID 申請地址申請的詳見點選開啟連結申請之後，會得到APP_ID和SECURITY_KEY 二、java程式碼如

java呼叫百度地圖API開發，百度線上地圖開發——未完待續

這裡是目錄一、引入百度地圖API 二、百度地圖開發 1、定義一個div來存放地圖 2、生成地圖 3、新增一個跳躍的點 4、新增控制元件 5、有其他需要的請留言一、引入百度地圖API 百度地圖官方示例：http://lbsyun.b

java 版百度網盤功能

java 版百度網盤功能，目前已經實現： 1：百度網盤登入 2：列出百度網盤檔案 3: 切換目錄 4: 多執行緒下載檔案速度有待優化。思路已經成型。原始碼地址：https://gitee.com/xiaoyaofeiyang/BaiduPcs #

Java-基於百度API的圖片文字識別（支援中文，英文和中英文混合）

PS：基於Java 1.8 版本控制：maven 使用之前需要獲取對應的專案API_KEY，SECRET_KEY，這些引數在使用API的時候必須用到，

Java-基於百度API的圖片文字識別（支援中文，英文和中英文混合）貨運APP開發找上海捌躍網路科技有限公司

PS：基於Java 1.8 版本控制：maven 使用之前需要獲取對應的專案API_KEY，SECRET_KEY，這些引數在使用API的時候必須用到，用於生成access_token。如何獲取這些引數：在百度開發者中心申請一個“通用文字識別”專案，然後就可

java 使用百度地圖顯示多個標註點帶彈出資訊框

直接上程式碼 <%@ page language="java" pageEncoding="UTF-8"%> <!DOCTYPE html> <html> <head> <meta charset="UT

常用的類，包，介面（Java）--百度知道

要讓人家感覺你對java ee開發很熟，所以，不能僅僅只列core java中的那些東西，要多列你在做ssh專案中涉及的那些東西。就寫你最近寫的那些程式中涉及的那些類。常用的類： BufferedReader BufferedWriter File

Java呼叫百度AI開放平臺API

百度AI開放平臺百度AI開放平臺是全球領先的人工智慧服務平臺，面向開發者及企業開放120多項全球領先的AI能力和軟硬一體元件，並提供 EasyDL定製化訓練平臺、對話系統開發平臺UNIT、自定義模板OCR等AI定製化平臺，為上下游合作伙伴搭建了展示與交易平臺-AI市場。百度AI開放平

java仿百度文庫-使用SWFTools轉換pdf檔案

/** * */ package com.zxjxw.framework.util; import java.io.BufferedReader; import java.io.File; import java.io.IOException; import jav

java Ueditor 百度編輯器整合ssm後臺多圖片上傳，無縫加入專案做新增儲存

效果圖多圖片單圖片上傳到後臺本地儲存。編輯框回顯，複製貼上直接用，適合實際專案中做內容發表，發表文章等等編輯自定義上傳圖片多圖片到後臺路徑，看了網上一推教程，走了很多彎路，簡單明瞭，複製貼上直接用專案地址 https://download.csdn.net/d

利用java呼叫百度API介面，解析返回的json資料，突破百度API介面呼叫結果的限制

近一段時間的專案的核心是百度API的POI（興趣點）資料，所以需要呼叫百度API資料，下面就來講一下整個流程和遇到的問題及解決辦法。首先要檢視百度API文件，連結如下：http://lbsyun.baidu.com/index.php?title=webapi 專案中主要用到的是Plac

java實現百度統計api呼叫

**公司需要呼叫百度統計的api，昨天搞了一天，先看了百度統計的官方文件 emmmmmmm 是真的沒怎麼看懂，然後在網上搜了各位大牛的實現，最後自己嘗試了一下訪問成功！** 首先是訪問https的類(網上找大牛copy的): 類名 HttpsU

Java基於百度AI+JavaCV+OpenCV 實現攝像頭人數動態統計

本文是基於上一篇進行迭代的。本文主要是以攝像頭畫面進行人流量統計。並對返回影象進行展示。需要額外瞭解JavaCV OpenCV swing awt等也許JavaCV OpenCV 不需要也可以實現效果。但是小帥丶就先用這樣的方式實現了。別的方式大家就自己

Java實現百度雲OCR介面識別圖片文字資訊（也包含身份證，銀行卡識別,更新新增通用票據識別）

1.需求背景因專案需求，需要提取身份證、發票（9/16更新內容）、榮譽證書上的文字資訊，與相關檔案進行匹配，而查閱相關資料，經過對比之後，發現用百度OCR文字識別API服務可以相應解決相關問題，識別率較好。當然，還不能夠做到完全匹配，也有其中不足的地方，例如，發票中公章資訊不能提取；發票周

java爬蟲--百度--入門

相關推薦