Java HtmlParse提取標籤中的值操作

阿新 • • 發佈：2020-08-20

☆程式碼示例：

程式碼塊語法遵循標準markdown程式碼，例如：

package cas;

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.StringFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.ImageTag;
import org.htmlparser.util.NodeList;

/**
 * Html 中的body體中提取出Img標籤中的src值
 *
 * @author XY
 *
 */
public class CASHtmlImgConvert {

  public static void main(String[] args) {
//演示
    String[] oldSrcPath=changeImgSrc("<img alt=\"\" src=\"http://www.czb8688.com/attached/image/20160116/20160116141455_775.jpg\" />");
    if(oldSrcPath!=null){
      for(String str:oldSrcPath){
        System.out.println(str);
      }
    }
  }

  public static boolean isEmpty(String str){
    if(str!=null&&(!str.equals("")))
      return false;
    else
      return true;
  }

  /**
   * 
   * @param htmlPath 本地的html路徑 或者body
   */ 
  private static String[] changeImgSrc(String htmlPath) 
  {  StringBuilder oldSrcPath = new StringBuilder();  
    try { 
      Parser parser = new Parser(htmlPath); 
    //標籤名過濾器
      NodeFilter filter = new TagNameFilter ("img"); 
      NodeList nodes = parser.extractAllNodesThatMatch(filter); 
      Node eachNode = null; 
      ImageTag imageTag = null; 

      if (nodes != null) 
      { 
//       遍歷所有的img節點 
        for (int i = 0; i < nodes.size(); i++)  
        { 
          eachNode = (Node)nodes.elementAt(i); 
          if (eachNode instanceof ImageTag)  
          { 
            imageTag = (ImageTag)eachNode;              
//           獲得html文字的原來的src屬性 
            String path=imageTag.getAttribute("src");
            if(path.startsWith(""))
              path="http://www.czb8688.com"+path;
            oldSrcPath .append(path+","); 
          } 
        } 
      } 
    } catch (Exception e) { 
      e.printStackTrace(); 
    } 
    String str=oldSrcPath.toString();
    //返回圖片陣列
    return str.substring(0,str.length()-1).split(",");
  } 
}

補充知識：java 掃描HTML 拿取各種標籤資源資料

直接上程式碼，不比比。

package com.zhirui.oa.modules.notice.utils;

import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class TemplateUtil {

  public static List<Map<String,Object>> getImgSrc(String htmlContent) {
    List<Map<String,Object>> srcList = new ArrayList<>(); //用來儲存獲取到的地址
    Map<String,Object> map = null;
    Pattern p = Pattern.compile("<(img|IMG)(.*?)(>|></img>|/>)");//匹配字串中的img標籤
    Matcher matcher = p.matcher(htmlContent);
    boolean hasPic = matcher.find();
    if (hasPic == true)//判斷是否含有圖片
    {
      while (hasPic) //如果含有圖片，那麼持續進行查詢，直到匹配不到
      {
        String group = matcher.group(2);//獲取第二個分組的內容，也就是 (.*?)匹配到的
        Pattern srcText = Pattern.compile("(src|SRC)=(\"|\')(.*?)(\"|\')");//匹配圖片的地址
        Matcher matcher2 = srcText.matcher(group);
        if (matcher2.find()) {
          map = new HashMap<>();
          map.put("imgResourcePath",matcher2.group(3));
          srcList.add(map);//把獲取到的圖片地址新增到列表中
          map = null;
        }
        hasPic = matcher.find();//判斷是否還有img標籤
      }
    }
    return srcList;
  }

  public static List<Map<String,Object>> getVideoSrc(String htmlContent) {
    List<Map<String,Object>> srcList = new ArrayList<>(); //用來儲存獲取到的視訊地址
    Map<String,Object> map = null;
    Pattern p = Pattern.compile("<(video|VIDEO)(.*?)(>|></video>|/>)");//匹配字串中的video標籤
    Matcher matcher = p.matcher(htmlContent);
    boolean hasPic = matcher.find();
    if (hasPic == true)//判斷是否含有視訊
    {
      while (hasPic) //如果含有視訊，那麼持續進行查詢，直到匹配不到
      {
        String group = matcher.group(2);//獲取第二個分組的內容，也就是 (.*?)匹配到的
        Pattern srcText = Pattern.compile("(src|SRC)=(\"|\')(.*?)(\"|\')");//匹配視訊的地址
        Matcher matcher2 = srcText.matcher(group);
        if (matcher2.find()) {
          map = new HashMap<>();
          map.put("videoResourcePath",matcher2.group(3));
          srcList.add(map);//把獲取到的視訊地址新增到列表中
          map = null;
        }
        hasPic = matcher.find();//判斷是否還有video標籤
      }
    }
    return srcList;
  }

  public static List<Map<String,Object>> getAhref(String htmlContent) {
    List<Map<String,Object>> srcList = new ArrayList<>(); //用來儲存獲取到的超連結地址
    Map<String,Object> map = null;
    Pattern p = Pattern.compile("<(a|A)(.*?)(>|></a>|/>)");//匹配字串中的a標籤
    Matcher matcher = p.matcher(htmlContent);
    boolean hasPic = matcher.find();
    if (hasPic == true)//判斷是否含有超連結
    {
      while (hasPic) //如果含有超連結，那麼持續進行查詢，直到匹配不到
      {
        String group = matcher.group(2);//獲取第二個分組的內容，也就是 (.*?)匹配到的
        Pattern srcText = Pattern.compile("(href|HREF)=(\"|\')(.*?)(\"|\')");//匹配超連結的地址
        Matcher matcher2 = srcText.matcher(group);
        if (matcher2.find()) {
          map = new HashMap<>();
          map.put("aResourcePath",matcher2.group(3));
          srcList.add(map);//把獲取到的超連結地址新增到列表中
          map = null;
        }
        hasPic = matcher.find();//判斷是否還有a標籤
      }
    }
    return srcList;
  }
}

以上這篇Java HtmlParse提取標籤中的值操作就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

Java HtmlParse提取標籤中的值操作

☆程式碼示例：程式碼塊語法遵循標準markdown程式碼，例如： package cas; import org.htmlparser.Node;

vue 清空input標籤中file的值操作

template中： <input type=\"file\" ref=\"pathClear\" @change=\"onUpload\" name=\"file\" id=\"file\">

使用Java Stream，提取集合中的某一列/按條件過濾集合/求和/最大值/最小值/平均值

不得不說，使用Java Stream操作集合實在是太好用了，不過最近在觀察生產環境錯誤日誌時，發現偶爾會出現以下2個異常：

使用 lxml 中的 xpath 高效提取文字與標籤屬性值

轉自：使用 lxml 中的 xpath 高效提取文字與標籤屬性值 # 我們爬取網頁的目的，無非是先定位到DOM樹的節點，然後取其文字或屬性值

Java 8 Stream Api 中的 peek 操作

原文連結：segmentfault.com/a/119000002… 1. 前言我在Java8 Stream API 詳細使用指南中講述了 Java 8 Stream API 中 map 操作和 flatMap 操作的區別。然後有小夥伴告訴我 peek 操作也能實現元素的處理。但是你知

mybatis 中<if>標籤bool值型別為false判斷

mybatis 中<if>標籤bool值型別為false判斷對百度的某些文章深惡痛絕，只是ctrl+c和ctrl+v。並且還不能解決問題。

Java中值型別和引用型別的比較與問題解決

一、問題描述前幾天因為一個需求出現了Bug。說高階點也挺高階，說白點也很簡單。其實也就是一個很簡單的Java基礎入門時候的值型別和引用型別的區別。只是開發的時候由於自己的問題，導致小問題的出現。還好突然想起

Java 8 Stream Api 中的 map和 flatMap 操作方法

1.前言 Java 8提供了非常好用的 Stream API,可以很方便的操作集合。今天我們來探討兩個 Stream 中間操作 map(Function<? super T,? extends R> mapper) 和 flatMap(Function<? super T,?

Java 新增、提取PDF中的圖片

Spire.Cloud.SDK for Java提供了PdfImagesApi介面可用於新增圖片到PDF檔案addImage()、提取PDF中的圖片extractImages()，具體操作步驟和Java程式碼示例可參考以下內容。

JS事件委託中同一個標籤執行不同操作

JS事件委託中同一個標籤執行不同操作，根據標籤的選擇器選擇 <!DOCTYPE html>

Vue props中Object和Array設定預設值操作

我就廢話不多說，看程式碼吧~ seller: { type: Object,default() { return {} } } seller: { type: Object,default: function () {

在Vue 中獲取下拉框的文字及選項值操作

方法1：  <el-form :model=\"ruleForm\" label-position=\"right\" ref=\"ruleForm\"// 被ref 標記的

Java提取字串中的漢字、字母、數字

1.提取漢字 public static void main(String[] args) { String str = \" 我是123一段測abd試空a格的字元串 \";

Java 通過反射給實體類賦值操作

表單提交這個方法是挺方便的，但在java來說就顯得有些麻煩了，怎麼個麻煩呢，就是當你欄位多的時候，你就得一個一個的獲取其對應的值，這樣程式碼量就多了起來，其程式碼量不說，維護也是一個問題。

java註解之執行時修改欄位的註解值操作

今天遇到需求：匯入Excel時候列頭會發生變化，客戶是大爺要求你改程式碼，

vue-cli3中配置alias和打包加hash值操作

1.之前在專案測試環境打包的時候，js檔案打包出來沒有hash值，但是生產環境打包出來卻又hash值

Java多執行緒之對同一個值操作

1.首先synchronized(物件 --> 一定是一個類，不可以用基本資料型別) 2.目標是對Integer count操作，用count當鎖有問題，因為count是包裝型別，存放的是地址，count不斷變化則地址不斷變化，物件不斷變化

java 8 lambda表示式中的異常處理操作

簡介 java 8中引入了lambda表示式，lambda表示式可以讓我們的程式碼更加簡介，業務邏輯更加清晰，但是在lambda表示式中使用的Functional Interface並沒有很好的處理異常，因為JDK提供的這些Functional Interface通常

java 將資料載入到記憶體中的操作

將資料載入到記憶體中 1、建立InitListener.java package app.util; import java.util.HashMap; import java.util.Map;

SpringBoot中屬性賦值操作的實現

說明：當程式中出現頻繁變化的資料時，如果採用認為的方式進行修改並且編譯打包則會導致程式碼的耦合性較高，不便於維護！所以能否為屬性動態賦值？

Java HtmlParse提取標籤中的值操作

相關推薦