1. 程式人生 > >日文字元匹配

日文字元匹配

以前程式用的EUC編碼,在頁面輸入做檢查時,使用的都是EUC的字元編碼範圍。主要是匹配全形カタカナ (?:\xA5[\xA1-\xF6]|\xA1[\xA6\xBC\xB3\xB4]) 和全形空格 (?:\xA1\xA1)。

現在程式改為UTF-8的了,再用上面的方式會很麻煩,需要把輸入轉成EUC再做。perl的正則表示式支援Unicode的屬性,看上去用起來比直接寫編碼範圍要清楚多了。全形カタカナ可以用 \p{Katakana}。而空格可以用 \p{IsSpace},它包括\n,\t等,如果只是匹配空白可以用 \p{IsZs}。