Java爬取豆瓣電影資料的方法詳解
本文例項講述了Java爬取豆瓣電影資料的方法。分享給大家供大家參考,具體如下:
所用到的技術有Jsoup,HttpClient。
Jsoup
jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API,可通過DOM,CSS以及類似於jQuery的操作方法來取出和操作資料。
HttpClient
HTTP 協議可能是現在 Internet 上使用得最多、最重要的協議了,越來越多的 Java 應用程式需要直接通過 HTTP 協議來訪問網路資源。雖然在 JDK 的 java net包中已經提供了訪問 HTTP 協議的基本功能,但是對於大部分應用程式來說,JDK 庫本身提供的功能還不夠豐富和靈活。HttpClient 是 Apache Jakarta Common 下的子專案,用來提供高效的、最新的、功能豐富的支援 HTTP 協議的客戶端程式設計工具包,並且它支援 HTTP 協議最新的版本和建議。
爬取豆瓣電影資料
豆瓣電影網址。
https://movie.douban.com/explore#!type=movie&tag=熱門&sort=recommend&page_limit=20&page_start=0
開啟瀏覽器f12,位址列中輸入該地址訪問,可以看到請求響應的頁面,對應可以找到電影資料的請求地址,資料請求地址
https://movie.douban.com/j/search_subjects?type=movie&tag=熱門&sort=recommend&page_limit=20&page_start=0
可以看到資料請求地址響應過來的是一個JSON格式的資料,之後我們看到請求地址上的引數type=movie&tag=熱門&sort=recommend&page_limit=20&page_start=0。其中type是電影tag是標籤,sort是按照熱門進行排序的,page_limit是每頁20條資料,page_start是從第幾條資料開始查詢(下標從0開始)。但是這不是我們想要的,我們需要去找豆瓣電影資料的總入口地址是下面這個
https://movie.douban.com/j/search_subjects
建立SpringBoot專案爬取資料
把爬取到的資料儲存到資料庫中,電影圖片儲存在本地磁碟中,這裡持久層用的是JPA,所以需要引入對應的依賴。pom.xml中依賴程式碼如下。
<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <parent> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-parent</artifactId> <version>2.2.1.RELEASE</version> <relativePath/> <!-- lookup parent from repository --> </parent> <groupId>com.mcy</groupId> <artifactId>crawler-douban</artifactId> <version>0.0.1-SNAPSHOT</version> <name>crawler-douban</name> <description>Demo project for Spring Boot</description> <properties> <java.version>1.8</java.version> </properties> <dependencies> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-data-jpa</artifactId> </dependency> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-web</artifactId> </dependency> <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <scope>runtime</scope> </dependency> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-test</artifactId> <scope>test</scope> <exclusions> <exclusion> <groupId>org.junit.vintage</groupId> <artifactId>junit-vintage-engine</artifactId> </exclusion> </exclusions> </dependency> <!--httpclient--> <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifactId> <version>4.5.2</version> </dependency> <!--jsoup,解析HTML--> <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.11.3</version> </dependency> <dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artifactId> <version>1.2.47</version> </dependency> </dependencies> <build> <plugins> <plugin> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-maven-plugin</artifactId> </plugin> </plugins> </build> </project>
專案目錄結構如下。
首先我們在entity包中建立實體物件,欄位為豆瓣電影的基本資訊(有些資訊是詳情頁面的資訊)。
Movie實體類。
import javax.persistence.*; @Entity public class Movie { private Integer id; private double rate; //評分 private String title; //電影名稱 private String director; //導演 private String protagonist; //主演 private String dateTime; //電影時長 @Id @GeneratedValue(strategy = GenerationType.IDENTITY) public Integer getId() { return id; } public void setId(Integer id) { this.id = id; } public double getRate() { return rate; } public void setRate(double rate) { this.rate = rate; } public String getTitle() { return title; } public void setTitle(String title) { this.title = title; } public String getDirector() { return director; } public void setDirector(String director) { this.director = director; } @Column(length=2000) public String getProtagonist() { return protagonist; } public void setProtagonist(String protagonist) { this.protagonist = protagonist; } public String getDateTime() { return dateTime; } public void setDateTime(String dateTime) { this.dateTime = dateTime; } }
在src/main/resources下找到application.properties檔案,在該配置檔案中配置資料庫連結資訊,需要在資料庫中新建一個名為douban的資料庫。
spring.datasource.url=jdbc:mysql://localhost:3306/douban?serverTimezone=GMT%2B8 spring.datasource.username=root spring.datasource.password=root spring.datasource.driver-class-name=com.mysql.cj.jdbc.Driver spring.jpa.database-platform=org.hibernate.dialect.MySQL5InnoDBDialect spring.jpa.show-sql=true spring.jpa.hibernate.ddl-auto=update spring.jpa.hibernate.use-new-id-generator-mappings=false
建立MovieRepository資料訪問層介面
import com.mcy.crawlerdouban.entity.Movie; import org.springframework.data.jpa.repository.JpaRepository; public interface MovieRepository extends JpaRepository<Movie,Integer> { }
建立MovieService類,裡邊有一個儲存資料的方法。
import com.mcy.crawlerdouban.entity.Movie; import com.mcy.crawlerdouban.repository.MovieRepository; import org.springframework.beans.factory.annotation.Autowired; import org.springframework.stereotype.Service; @Service public class MovieService { @Autowired private MovieRepository movieRepository; public void save(Movie movie) { movieRepository.save(movie); } }
建立一個HttpUtils獲取網頁資料和儲存圖片的工具類。
建立連線池和配置連線池資訊。
//建立連線池管理器 private static PoolingHttpClientConnectionManager cm; public HttpUtils(){ cm = new PoolingHttpClientConnectionManager(); //設定最大連線數 cm.setMaxTotal(100); //設定每個主機的最大連線數 cm.setDefaultMaxPerRoute(10); } //配置請求資訊 private static RequestConfig getConfig() { RequestConfig config = RequestConfig.custom() .setConnectTimeout(10000) //建立連線的最長時間,單位毫秒 .setConnectionRequestTimeout(10000) //設定獲取連結的最長時間,單位毫秒 .setSocketTimeout(10000) //設定資料傳輸的最長時間,單位毫秒 .build(); return config; }
根據請求地址獲取響應資訊方法,獲取成功後返回響應資訊。
public static String doGetHtml(String url,Map<String,String> map,String> mapTile) throws URISyntaxException { //建立HTTPClient物件 CloseableHttpClient httpClient = HttpClients.createDefault(); //設定請求地址 //建立URLBuilder URIBuilder uriBuilder = new URIBuilder(url); //設定引數 if(!map.isEmpty()){ for(String key : map.keySet()){ uriBuilder.setParameter(key,map.get(key)); } } //建立HTTPGet物件,設定url訪問地址 //uriBuilder.build()得到請求地址 HttpGet httpGet = new HttpGet(uriBuilder.build()); //設定請求頭資訊 if(!mapTile.isEmpty()){ for(String key : mapTile.keySet()){ httpGet.addHeader(key,mapTile.get(key)); } } //設定請求資訊 httpGet.setConfig(getConfig()); System.out.println("發起請求的資訊:"+httpGet); //使用HTTPClient發起請求,獲取response CloseableHttpResponse response = null; try { response = httpClient.execute(httpGet); //解析響應 if(response.getStatusLine().getStatusCode() == 200){ //判斷響應體Entity是否不為空,如果不為空就可以使用EntityUtils if(response.getEntity() != null) { String content = EntityUtils.toString(response.getEntity(),"utf8"); return content; } } }catch (IOException e){ e.printStackTrace(); }finally { //關閉response try { response.close(); } catch (IOException e) { e.printStackTrace(); } } return ""; }
根據連結下載圖片儲存到本地方法。
public static String doGetImage(String url) throws IOException { //獲取HTTPClient物件 CloseableHttpClient httpClient = HttpClients.createDefault(); //設定HTTPGet請求物件,設定url地址 HttpGet httpGet = new HttpGet(url); //設定請求資訊 httpGet.setConfig(getConfig()); //使用HTTPClient發起請求,獲取響應 CloseableHttpResponse response = null; try { //使用HTTPClient發起請求,獲取響應 response = httpClient.execute(httpGet); //解析響應,返回結果 if(response.getStatusLine().getStatusCode() == 200){ //判斷響應體Entity是否不為空 if(response.getEntity() != null) { //下載圖片 //獲取圖片的字尾 String extName = url.substring(url.lastIndexOf(".")); //建立圖片名,重新命名圖片 String picName = UUID.randomUUID().toString() + extName; //下載圖片 //宣告OutputStream OutputStream outputStream = new FileOutputStream(new File("E://imges/" + picName)); response.getEntity().writeTo(outputStream); //返回圖片名稱 return picName; } } } catch (IOException e) { e.printStackTrace(); }finally { //關閉response if(response != null){ try { response.close(); } catch (IOException e) { e.printStackTrace(); } } } return ""; }
HttpUtils工具類全部程式碼。
import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import java.io.OutputStream; import java.net.URISyntaxException; import java.util.Map; import java.util.UUID; import org.apache.http.client.config.RequestConfig; import org.apache.http.client.methods.CloseableHttpResponse; import org.apache.http.client.methods.HttpGet; import org.apache.http.client.utils.URIBuilder; import org.apache.http.impl.client.CloseableHttpClient; import org.apache.http.impl.client.HttpClients; import org.apache.http.impl.conn.PoolingHttpClientConnectionManager; import org.apache.http.util.EntityUtils; public class HttpUtils { //建立連線池管理器 private static PoolingHttpClientConnectionManager cm; public HttpUtils(){ cm = new PoolingHttpClientConnectionManager(); //設定最大連線數 cm.setMaxTotal(100); //設定每個主機的最大連線數 cm.setDefaultMaxPerRoute(10); } //配置請求資訊 private static RequestConfig getConfig() { RequestConfig config = RequestConfig.custom() .setConnectTimeout(10000) //建立連線的最長時間,單位毫秒 .setConnectionRequestTimeout(10000) //設定獲取連結的最長時間,單位毫秒 .setSocketTimeout(10000) //設定資料傳輸的最長時間,單位毫秒 .build(); return config; } /** * 根據請求地址下載頁面資料 * @param url 請求路徑 * @param map 請求引數 * @param mapTile 請求頭 * @return //頁面資料 * @throws URISyntaxException */ public static String doGetHtml(String url,String> mapTile) throws URISyntaxException { //建立HTTPClient物件 CloseableHttpClient httpClient = HttpClients.createDefault(); //設定請求地址 //建立URLBuilder URIBuilder uriBuilder = new URIBuilder(url); //設定引數 if(!map.isEmpty()){ for(String key : map.keySet()){ uriBuilder.setParameter(key,map.get(key)); } } //建立HTTPGet物件,設定url訪問地址 //uriBuilder.build()得到請求地址 HttpGet httpGet = new HttpGet(uriBuilder.build()); //設定請求頭資訊 if(!mapTile.isEmpty()){ for(String key : mapTile.keySet()){ httpGet.addHeader(key,mapTile.get(key)); } } //設定請求資訊 httpGet.setConfig(getConfig()); System.out.println("發起請求的資訊:"+httpGet); //使用HTTPClient發起請求,獲取response CloseableHttpResponse response = null; try { response = httpClient.execute(httpGet); //解析響應 if(response.getStatusLine().getStatusCode() == 200){ //判斷響應體Entity是否不為空,如果不為空就可以使用EntityUtils if(response.getEntity() != null) { String content = EntityUtils.toString(response.getEntity(),"utf8"); return content; } } }catch (IOException e){ e.printStackTrace(); }finally { //關閉response try { response.close(); } catch (IOException e) { e.printStackTrace(); } } return ""; } /** * 下載圖片 * @param url * @return 圖片名稱 */ public static String doGetImage(String url) throws IOException { //獲取HTTPClient物件 CloseableHttpClient httpClient = HttpClients.createDefault(); //設定HTTPGet請求物件,設定url地址 HttpGet httpGet = new HttpGet(url); //設定請求資訊 httpGet.setConfig(getConfig()); //使用HTTPClient發起請求,獲取響應 CloseableHttpResponse response = null; try { //使用HTTPClient發起請求,獲取響應 response = httpClient.execute(httpGet); //解析響應,返回結果 if(response.getStatusLine().getStatusCode() == 200){ //判斷響應體Entity是否不為空 if(response.getEntity() != null) { //下載圖片 //獲取圖片的字尾 String extName = url.substring(url.lastIndexOf(".")); //建立圖片名,重新命名圖片 String picName = UUID.randomUUID().toString() + extName; //下載圖片 //宣告OutputStream OutputStream outputStream = new FileOutputStream(new File("E://imges/" + picName)); response.getEntity().writeTo(outputStream); //返回圖片名稱 return picName; } } } catch (IOException e) { e.printStackTrace(); }finally { //關閉response if(response != null){ try { response.close(); } catch (IOException e) { e.printStackTrace(); } } } return ""; } }
在專案的test類中編寫程式碼獲取資料儲存到資料庫中。
先通過@Resource註解將MovieService類對應的實現類注入進來。
@Autowired private MovieService movieService;
設定請求地址https://movie.douban.com/j/search_subjects
String url = "https://movie.douban.com/j/search_subjects";
之後在定義兩個Map,用於儲存請求頭和請求引數資訊。
網頁請求頭。
請求引數,type=movie&tag=熱門&sort=recommend&page_limit=20&page_start=0
設定請求引數和請求頭程式碼如下。
Map<String,String> map = new HashMap<>(); Map<String,String> mapTitle = new HashMap<>(); //設定請求引數 map.put("type","movie"); map.put("tag","熱門"); map.put("sort","recommend"); map.put("page_limit","20"); //i為一個變數,從多少條資料開始查詢 map.put("page_start",i+""); //設定請求頭 mapTitle.put("Accept","text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"); mapTitle.put("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:71.0) Gecko/20100101 Firefox/71.0"); mapTitle.put("Cookie","bid=QNoG_zn4mZY; _pk_id.100001.4cf6=6209709719896af7.1575619506.2.1575940374.1575621362.; __utma=30149280.1889677372.1575619507.1575619507.1575940335.2; __utmz=30149280.1575619507.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utma=223695111.986359939.1575619507.1575619507.1575940335.2; __utmz=223695111.1575619507.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __yadk_uid=QVSP2uvzzDBrpnvHKzZpZEWJnuARZ4aL; ll=\"118259\"; _vwo_uuid_v2=D1FC45CAE50CF6EE38D245C68D7CECC4F|e8d1db73f4c914f0b0be7ed85ac50d14; trc_cookie_storage=taboola%2520global%253Auser-id%3D690a21c0-9ad9-4f8d-b997-f0decb3cfc9b-tuct4e39874; _pk_ses.100001.4cf6=*; ap_v=0,6.0; __utmb=30149280.0.10.1575940335; __utmc=30149280; __utmb=223695111.0.10.1575940335; __utmc=223695111; __gads=ID=2f06cb0af40206d0:T=1575940336:S=ALNI_Ma4rv9YmqrkIUNXsIt5E7zT6kZy2w");
通過HttpUtils類doGetHtml方法獲取該請求響應的資料。
String html = HttpUtils.doGetHtml(url,map,mapTitle);
請求響應資料格式。
可以看出是一個json格式的資料,我們可以通過阿里巴巴的Fastjson一個json解析庫,把它解析成為一個List格式資料。Fastjson基本用法
JSONObject jsonObject = JSONObject.parseObject(html); JSONArray jsonArray = jsonObject.getJSONArray("subjects");
因為每頁查詢是是20條資料,我們用一個for迴圈遍歷一下這一頁的資料。可以獲得電影的標題,評分,圖片連結和詳情頁面的連結,上面JSON資料中的cover屬性值為圖片的地址。通過圖片的連結我們可以呼叫HttpUtils類的doGetImage方法把圖片儲存到本地磁碟。
HttpUtils.doGetImage(json.getString("cover"));
上面請求的資料只能獲取到標題,評分和圖片,然而我們還有獲取導演,主演,和電影時長。這些資訊我們點開上面請求到的json資料的url屬性值,會開啟詳情頁面,詳情頁面中有導演,主演,和電影時長資訊。
開啟的詳情頁面,我們可以看到導演,主演和電影時長等資訊。
我們查詢詳情頁面的原始碼,可以看到導演,主演,電影時長等資訊的位置。
我們在通過HttpUtils類doGetHtml方法獲取詳情頁面的資料,利用Jsoup進行解析,Jsoup是一個可以讓java程式碼解析HTML程式碼的一個工具,可以參考一下Jsoup官網文件,找到主演,導演和電影時長資訊。到這裡我們需要的全部資訊都獲取到了,最後把資料儲存起來。
String url2 = json.getString("url"); Map<String,String> map2 = new HashMap<>(); Map<String,String> mapTitle2 = new HashMap<>(); String html2 = HttpUtils.doGetHtml(url2,map2,mapTitle2); //解析HTML獲取DOM物件 Document doc = Jsoup.parse(html2); //獲取導演名稱 Element element = doc.select("div#info a[rel=v:directedBy]").first(); movie.setDirector(element.text()); Elements elements = doc.select("div#info a[rel=v:starring]"); //主演 String protagonist = ""; for (Element e : elements) { protagonist += e.text()+","; } if(!protagonist.equals("")){ protagonist = protagonist.substring(0,protagonist.length()-1); } movie.setProtagonist(protagonist); //獲取電影時長 element = doc.select("div#info span[property=v:runtime]").first(); movie.setDateTime(element.text()); movieService.save(movie);
測試類全部程式碼如下。
import com.alibaba.fastjson.JSONObject; import com.mcy.crawlerdouban.entity.Movie; import com.mcy.crawlerdouban.service.MovieService; import com.mcy.crawlerdouban.util.HttpUtils; import com.alibaba.fastjson.JSONArray; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import org.junit.jupiter.api.Test; import org.springframework.beans.factory.annotation.Autowired; import org.springframework.boot.test.context.SpringBootTest; import java.io.IOException; import java.net.URISyntaxException; import java.util.HashMap; import java.util.Map; @SpringBootTest class CrawlerDoubanApplicationTests { @Autowired private MovieService movieService; @Test public void contextLoads() throws URISyntaxException,IOException { //請求地址 //https://movie.douban.com/j/search_subjects?type=movie&tag=熱門&sort=recommend&page_limit=20&page_start=0 String url = "https://movie.douban.com/j/search_subjects"; Map<String,String> map = new HashMap<>(); Map<String,String> mapTitle = new HashMap<>(); //設定請求引數 map.put("type","movie"); map.put("tag","熱門"); map.put("sort","recommend"); map.put("page_limit","20"); //設定請求頭 mapTitle.put("Accept",*/*;q=0.8"); mapTitle.put("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:71.0) Gecko/20100101 Firefox/71.0"); mapTitle.put("Cookie",6.0; __utmb=30149280.0.10.1575940335; __utmc=30149280; __utmb=223695111.0.10.1575940335; __utmc=223695111; __gads=ID=2f06cb0af40206d0:T=1575940336:S=ALNI_Ma4rv9YmqrkIUNXsIt5E7zT6kZy2w"); //獲取前100條資料,可以自行更改 for(int i = 0; i < 100; i+=20){ map.put("page_start",i+""); String html = HttpUtils.doGetHtml(url,mapTitle); JSONObject jsonObject = JSONObject.parseObject(html); JSONArray jsonArray = jsonObject.getJSONArray("subjects"); for(int j = 0; j < jsonArray.size(); j++){ //迴圈遍歷每頁資料 Movie movie = new Movie(); JSONObject json = (JSONObject) jsonArray.get(j); movie.setRate(json.getDouble("rate")); movie.setTitle(json.getString("title")); //下載儲存圖片 HttpUtils.doGetImage(json.getString("cover")); String url2 = json.getString("url"); Map<String,String> map2 = new HashMap<>(); Map<String,String> mapTitle2 = new HashMap<>(); String html2 = HttpUtils.doGetHtml(url2,mapTitle2); //解析HTML獲取DOM物件 Document doc = Jsoup.parse(html2); //獲取導演名稱 Element element = doc.select("div#info a[rel=v:directedBy]").first(); movie.setDirector(element.text()); Elements elements = doc.select("div#info a[rel=v:starring]"); //主演 String protagonist = ""; for (Element e : elements) { protagonist += e.text()+","; } if(!protagonist.equals("")){ protagonist = protagonist.substring(0,protagonist.length()-1); } movie.setProtagonist(protagonist); //獲取電影時長 element = doc.select("div#info span[property=v:runtime]").first(); movie.setDateTime(element.text()); movieService.save(movie); } } System.out.println("資料獲取完成。。。"); } }
最後我們在mysql資料庫中新建一個名為douban的資料庫,啟動專案,JPA會自動在資料庫中新建一張movie表,存放獲取到的電影資料。在本地磁碟也會儲存電影圖片,如圖。
電影圖片,儲存的位置和HttpUtils的doGetImage方法中設定的儲存地址一樣。
最後放上下載地址https://github.com/machaoyin/crawler-douban
有什麼問題歡迎下方留言交流。
更多關於java相關內容感興趣的讀者可檢視本站專題:《Java網路程式設計技巧總結》、《Java Socket程式設計技巧總結》、《Java檔案與目錄操作技巧彙總》、《Java資料結構與演算法教程》、《Java操作DOM節點技巧總結》和《Java快取操作技巧彙總》
希望本文所述對大家java程式設計有所幫助。