正則提取中間的內容
阿新 • • 發佈:2019-01-02
package com.yueguang.regex; import java.io.File; import java.io.FileNotFoundException; import java.io.FileWriter; import java.io.IOException; import java.util.Scanner; import java.util.regex.Matcher; import java.util.regex.Pattern; public class ParseDIV { public static void main(String[] args) throws IOException { Pattern pattern = Pattern.compile("(<div>)([^<]*)(</div>)"); File file = new File("overview.html"); FileWriter fileWriter = new FileWriter(new File("output.txt")); Scanner in = new Scanner(file, "UTF8"); // Scanner in = new Scanner(System.in,"UTF8"); while (in.hasNextLine()) { String nextLine = in.nextLine(); Matcher matcher = pattern.matcher(nextLine); // System.out.println(nextLine); // System.out.println(matcher); while (matcher.find()) { // System.out.println(matcher.group(2)); fileWriter.write(matcher.group(2)+"\n"); } } fileWriter.flush(); fileWriter.close(); } }
輸入是一個 需要提取的內容在每行上都以<div>content</div>的形式表示,可以一行有多個,只要每行上的格式完整
簡單的正則的應用,裡面值得注意的地方是 不要把 [^<] 寫成 . ; 因為點會匹配所有字元,那麼如果一行存在多個 第一個div中的內容和最後一個div中間內容都會被匹配到,我們只需要明白<不可能出現在div 裡,並且這是div 結束符號的開始,那麼我們就可以成功匹配到正確的content,另外值得說的一點是字符集的問題,我的IDE中配置的是UTF8,顯示的時候如果使用了ANSI之類的格式都會顯示亂碼,改一下編輯器的預設顯示格式即可