正則提取中間的內容

阿新 • • 發佈：2019-01-02

package com.yueguang.regex;

import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileWriter;
import java.io.IOException;
import java.util.Scanner;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class ParseDIV {
	public static void main(String[] args) throws IOException {
		Pattern pattern = Pattern.compile("(<div>)([^<]*)(</div>)");
		File file = new File("overview.html");
		FileWriter fileWriter = new FileWriter(new File("output.txt"));
		Scanner in = new Scanner(file, "UTF8");
		// Scanner in = new Scanner(System.in,"UTF8");
		while (in.hasNextLine()) {
			String nextLine = in.nextLine();
			Matcher matcher = pattern.matcher(nextLine);
			// System.out.println(nextLine);
			// System.out.println(matcher);
			while (matcher.find()) {
//				System.out.println(matcher.group(2));
			    fileWriter.write(matcher.group(2)+"\n");
			}
		}
		fileWriter.flush();
		fileWriter.close();
	}
}

輸入是一個需要提取的內容在每行上都以<div>content</div>的形式表示，可以一行有多個，只要每行上的格式完整

簡單的正則的應用，裡面值得注意的地方是不要把 [^<] 寫成 . ；因為點會匹配所有字元，那麼如果一行存在多個第一個div中的內容和最後一個div中間內容都會被匹配到，我們只需要明白<不可能出現在div 裡，並且這是div 結束符號的開始，那麼我們就可以成功匹配到正確的content，另外值得說的一點是字符集的問題，我的IDE中配置的是UTF8，顯示的時候如果使用了ANSI之類的格式都會顯示亂碼，改一下編輯器的預設顯示格式即可

正則提取中間的內容

正則提取中間的內容

php正則提取內容中的圖片

PHP正則提取或替換img標記屬性內容

Visual Stuido 2017中使用正則修改部分內容

js 正則提取後臺傳輸的img src

織夢數據庫內容替換，正則去掉文章內容中的img標簽

php正則提取html圖片(img)src地址與任意屬性的方法

shell正則提取字串中的數字並儲存到變數中

Python 爬蟲4——使用正則表示式篩選內容

python3正則提取字串裡的中文

python的正則提取技巧

jmeter如何將上一個請求的結果作為下一個請求的引數——使用正則提取器

jmeter 如何將上一個請求的結果作為下一個請求的引數——使用正則提取器

jmeter迴圈控制器和結果的正則提取

正則提取參數關聯

php正則提取html圖片(img)src地址與任意屬性

js正則提取數字小數,提取中文,提取英文

Jmeter使用JSON Path Extractor/正則提取器進行提取引數

shell正則提取字串中的數字並儲存到變數

python之正則匹配檔案內容

正則提取中間的內容

相關推薦