Java 爬蟲爬取html網頁解析

阿新 • • 發佈：2020-12-26

技術標籤：java

1、springboot專案，引入jsoup

        <dependency>
			<groupId>org.jsoup</groupId>
			<artifactId>jsoup</artifactId>
			<version>1.10.2</version>
		</dependency>

2、準備解析物件

Content.java

package com.asia.pojo;

import lombok.AllArgsConstructor;
import lombok.Data;
import lombok.NoArgsConstructor;

//java專案 www.fhadmin.org
@Data
@NoArgsConstructor
@AllArgsConstructor
public class Content {
	private String title;
	private String img;
	private String price;
}

3、爬蟲工具類

HtmlParseUtil.java

package com.asia.utils;

import java.net.URL;
import java.net.URLDecoder;
import java.util.ArrayList;
import java.util.List;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import com.asia.pojo.Content;

//java專案 www.fhadmin.org
public class HtmlParseUtil {

	public static void main(String[] args) throws Exception {
		new HtmlParseUtil().parseJD("西瓜").forEach(System.out::println);
	}

	public List<Content> parseJD(String keywords) throws Exception {
		String url = "https://search.jd.com/Search?keyword=" + URLDecoder.decode(keywords, "GBK");
		// 解析網頁.（Jsoup返回Document就是瀏覽器的Document物件）
		Document document = Jsoup.parse((new URL(url)), 30000);
		Element element = document.getElementById("J_goodsList");
		Elements elements = element.getElementsByTag("li");
		List<Content> list = new ArrayList<Content>();
		for (Element el : elements) {
			String src = el.getElementsByTag("img").eq(0).attr("data-lazy-img");
			String price = el.getElementsByClass("p-price").eq(0).text();
			String name = el.getElementsByClass("p-name").eq(0).text();
			list.add(new Content(name, src, price));
		}
		return list;
	}
}

Java 爬蟲爬取html網頁解析

技術標籤：java 1、springboot專案，引入jsoup <dependency> <groupId>org.jsoup</groupId>

用Java爬蟲爬取鳳凰財經提供的滬深A股所有股票代號名稱

技術標籤：python 爬取程式：複製程式碼 package com.ufo.hy.agumaster.tool; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.net.MalformedURLE

Node-RED中使用html節點爬取HTML網頁資料之爬取Node-RED的最新版本

場景 Node-RED簡介與Windows上安裝、啟動和執行示例： https://blog.csdn.net/BADAO_LIUMANG_QIZHI/article/details/121884766

java.net.*爬取網頁，Jsoup解析網頁內容

java.net.* 建立網路連線 Jsoup解析網頁內容 package com.sun.util; import java.io.BufferedReader;

python爬蟲爬取網頁資料並解析資料

1.網路爬蟲的基本概念網路爬蟲（又稱網路蜘蛛，機器人），就是模擬客戶端傳送網路請求，接收請求響應，一種按照一定的規則，自動地抓取網際網路資訊的程式。

Python爬蟲爬取Bilibili彈幕過程解析

先來思考一個問題，B站一個視訊的彈幕最多會有多少？比較多的會有2000條吧，這麼多資料，B站肯定是不會直接把彈幕和這個視訊綁在一起的。

Python爬蟲爬取、解析資料操作示例

本文例項講述了Python爬蟲爬取、解析資料操作。分享給大家供大家參考，具體如下：

Python爬蟲爬取部落格實現視覺化過程解析

原始碼： from pyecharts import Bar import re import requests num=0 b=[] for i in range(1,11): link=\'https://www.cnblogs.com/echoDetected/default.html?page=\'+str(i)