出現特殊分隔符無法分隔解決方案
阿新 • • 發佈:2018-12-30
今天處理文字資料時候遇到這種文字用空格和tab正則匹配沒有作用,後來問了同事發現可以用“\\uf8f5”去匹配。
待處理文字:
A abbr.安 A-10IInone.美空軍主力近距離空中支援攻擊機,無愧為“坦克殺手”。 A-12none.夭折的美海軍第一種隱形艦載攻擊機。 A-4 none.54年服役的單座輕型艦載攻擊機,現仍被多國使用。 A-6none.雙座重型全天候艦載攻擊機,主要用於低空突防,可進行核打擊。 A-7IInone.離開沙場的單座亞音速攻擊機,曾是美海空軍主力。 A-OKnone.極好, 妙極, 完美的 A-Znone.無所不包的 A-boilern.原子反應器加熱用的鍋爐 A-bombn.原子彈 A-certificatenone.兒童不宜n.A級 A-controln.原子能管制 A-energyn.原子能 A-framen.金字塔形建築物 A-lovelnone.英語學校裡某一課程結束時舉行的高深考試, 高深級考試及格 A-oneadj.第一等的, 第一流的 A-roadnone.A級公路, 主車道 A-siden.A面 A-testn.原子爆炸試驗 A-weaponn.原子武器
分隔處理:
public static void main(String[] args) throws Exception { String dic = util.Directory.GetAppPath("steamData") + "dic.txt.bak"; BufferedReader br = util.MyFileTool.GetBufferReader(dic); while(br.ready()) { String line = br.readLine(); String[] words = line.split("\\uf8f5"); System.out.println("size: " + words.length); System.out.println(words[0]); } br.close(); }