去除html格式,獲取文字
/**
* 去掉所有的HTML,獲取其中的文字資訊
* @param htmlText
* @return
*/
public static String GetHtmlText(String htmlText)
{
String regEx_html = "<[^>]+>"; // 定義HTML標籤的正則表示式
Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
Matcher m_html = p_html.matcher(htmlText);
htmlText = m_html.replaceAll(""); // 過濾HTML標籤
return htmlText;
}
/**
* 獲取HTML檔案裡面的IMG標籤的SRC地址
* @param htmlText 帶html格式的文字
*/
public static List<String> GetHtmlImageSrcList(String htmlText)
{
List<String> imgSrc = new ArrayList<String>();
Matcher m = Pattern.compile("src=\"?(.*?)(\"|>|\\s+)").matcher(htmlText);
while(m.find())
{
imgSrc.add(m.group(1));
}
return imgSrc;
}