1. 程式人生 > >通過正則過濾html標籤

通過正則過濾html標籤

publicstatic String delHtml(String inputString) {
        String htmlStr 
= inputString; // 含html標籤的字串        String textStr ="";
        java.util.regex.Pattern p_script;
        java.util.regex.Matcher m_script;
        java.util.regex.Pattern p_html;
        java.util.regex.Matcher m_html;

        
try {
            String regEx_html 
="<[^>]+>"// 定義HTML標籤的正則表示式
            String regEx_script 
="<[/s]*?script[^>]*?>[/s/S]*?<[/s]*?//[/s]*?script[/s]*?>"// 定義script的正則表示式{或<script[^>]*?>[/s/S]*?<//script>
            p_script 
= Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
            m_script 
= p_script.matcher(htmlStr);
            htmlStr 
= m_script.replaceAll(""); // 過濾script標籤
            p_html 
= Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
            m_html 
= p_html.matcher(htmlStr);
            htmlStr 
= m_html.replaceAll(""); // 過濾html標籤
            textStr 
= htmlStr;

        } 
catch (Exception e) {
            System.err.println(
"Html2Text: "+ e.getMessage());
        }

        
return textStr;// 返回文字字串    }