Java中正則表示式去除html標籤
注:這是Java正則表示式去除html標籤方法。
private static final String regEx_script = "<script[^>]*?>[\\s\\S]*?<\\/script>"; // 定義script的正則表示式
private static final String regEx_style = "<style[^>]*?>[\\s\\S]*?<\\/style>"; // 定義style的正則表示式private static final String regEx_html = "<[^>]+>"; // 定義HTML標籤的正則表示式
private static final String regEx_space = "\\s*|\t|\r|\n";// 定義空格回車換行符
private static final String regEx_w = "<w[^>]*?>[\\s\\S]*?<\\/w[^>]*?>";//定義所有w標籤
/**
* @param htmlStr
* @return 刪除Html標籤
* @author LongJin
*/
public static String delHTMLTag(String htmlStr) {
Pattern p_w = Pattern.compile(regEx_w, Pattern.CASE_INSENSITIVE);
Matcher m_w = p_w.matcher(htmlStr);
htmlStr = m_w.replaceAll(""); // 過濾script標籤
Pattern p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
Matcher m_script = p_script.matcher(htmlStr);
htmlStr = m_script.replaceAll(""); // 過濾script標籤
Pattern p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
Matcher m_style = p_style.matcher(htmlStr);
htmlStr = m_style.replaceAll(""); // 過濾style標籤
Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
Matcher m_html = p_html.matcher(htmlStr);
htmlStr = m_html.replaceAll(""); // 過濾html標籤
Pattern p_space = Pattern.compile(regEx_space, Pattern.CASE_INSENSITIVE);
Matcher m_space = p_space.matcher(htmlStr);
htmlStr = m_space.replaceAll(""); // 過濾空格回車標籤
htmlStr = htmlStr.replaceAll(" ", ""); //過濾
return htmlStr.trim(); // 返回文字字串
}
相關推薦
Java中正則表示式去除html標籤
注:這是Java正則表示式去除html標籤方法。 private static final String regEx_script = "<script[^>]*?>[\\s\\S]*?<\\/script>"; // 定義sc
html字串去除標籤,字串利用正則表示式去除html標籤
html字串是儲存在伺服器的s='<li><a href="http://www.waiqin365.com/p-page-293.html">標題<span class="new">new</span></a>&l
js正則表示式去除HTML標籤
1,得到網頁上的連結地址: string matchString = @"<a[^>]+href=\s*(?:'(?<href>[^']+)'|""(?<href>[^""]+)""|(?<href>[^>\s]+))\s*[^>]
python正則表示式去除html標籤
使用python的re模組,正則表示式去除html標籤,程式碼如下: import re html = '<pre class="line mt-10 q-content" accuse="qContent">\ 目的是通過第一次soup.find按class
正則表示式去除html標籤
大部分部落格網站的首頁文章的內容都是截取了文章的一部分,然後點選“檢視更多”才能看完整的文字。所以,擷取字串是必不可少的。 但是如果我們直接用 substring 擷取,會出現很多問題。比如樣式不會改變,加粗的,文字顏色都不會去掉。還有就是一個 html標籤如<str
java正則表示式去除html中所有的標籤和特殊HTML字元
關於java正則表示式去除html中所有的標籤和特殊HTML字元,結合我所做的專案總結的經驗: 總共分為三種:第一種適用於適用短的文章,將文章用正則表示式的方式拼接到程式碼中,有些繁瑣,其實不太實用。第二種就是直接將文件引入,進行更改,但是有一個小缺點,就是文件中的格式可能是utf-8格式的
js 正則表示式去除html字元中所有的標籤(img標籤除外)
廢話不多說,直接上程式碼:description.replace(/<(?!img).*?>/g, ""); 如果保留img,p標籤,則為:description.replace(/<
java/android 正則表示式去除所有HTML標籤
protected string str = "<table><tr><td>sdasasdsdd</td></tr></table><br><p>sds</p>&l
java中正則表示式的瞭解與實踐記錄
Pattern pattern = Pattern.compile("^\\S+/q/"); Matcher matcher = pattern.matcher(resultString); String qrcode=""; while(matcher.find()){ String path
Java中正則表示式相關類Pattern和Matcher的使用
在Java中,java.util.regex包定義了正則表示式使用到的相關類,其中最主要的兩個類為:Pattern、Matcher: Pattern 編譯正則表示式後建立一個匹配模式; Matcher 使用Pattern例項提供的正則表示式對目標字串進行匹
Java中 正則表示式
字元類: [abc] a、b 或 c [^abc] 任何字元,除了abc [a-zA-Z] a 到 z 或 A 到 Z ,兩頭的字母包括在內 [0-9] 0到9 的字元都包括 預定義字元類: . 任何字元 \d 數字:[0-9] 示例:判斷手機號的規則: String regex = “
正則表示式替換HTML標籤小寫為大寫
c#在獲取游標時focus方法和select方法有什麼不同呢datagridview的列的DefaultCellStyle.Format設定問題c#在獲取游標時focus方法和select方法有什麼不同呢datagridview的列的DefaultCellStyle.Form
用正則表示式匹配HTML標籤
<script> //匹配HTML標籤 方法一: var str = '<p class="odd" id="odd">123</p>'; var pattern = /<\/?[a-zA-Z]+(\s+[a-zA-
1000行程式碼徒手寫正則表示式引擎【1】--JAVA中正則表示式的使用
簡介: 本文是系列部落格的第一篇,主要講解和分析正則表示式規則以及JAVA中原生正則表示式引擎的使用。在後續的文章中會涉及基於NFA的正則表示式引擎內部的工作原理,並在此基礎上用1000行左右的JAVA程式碼,實現一個支援常用功能的正則表示式引擎。它支援貪婪匹配和懶惰匹配;支援零寬度字元(如“\b”, “\B
正則表示式去除a標籤和img標籤原始碼
public class TestString { public static void main(String[] args) { String s = "<a href=hjkhkhhk>daafadfafdadfa</a></a><img src='d
Java中正則表示式匹配的語法規則
, package com.fsti.icop.util.regexp; import java.util.regex.Matcher; import java.util.regex.Pattern; public final class RegExpValidatorUt
正則表示式替換 html 標籤
/** * 此方法描述的是:字串的替換 * @param string 需要替換的字串 * @param oldString 被替換的字串 * @param newString 新字串 * @author 作者 E-mail: [em
java中正則表示式驗證日期
/** *正則表示式驗證日期格式 包括潤二月 **/ // public static void main(String[] args) { // Pattern p = Pattern // .compile("^((\\d{2}(([02468][
JAVA中正則表示式的二次轉義
需求:格式化金額,替換伺服器返回的格式化字串中的”{0}”為金額 public class Test { public static void main(String[] args) { String unformattedMoney
java中正則表示式工具類:Pattern和Macher
原地址 java.util.regex是一個用正則表示式所訂製的模式來對字串進行匹配工作的類庫包。 1.簡介: java.util.regex是一個用正則表示式所訂製的模式來對字串進行匹配工作的類庫包。 它包括兩個類:Pattern和Matcher