java 優先順序以特殊字元、數字、英文、漢字（且漢字部分以漢字首字母）順序排序

阿新 • • 發佈：2019-01-09

1，當我使用如下程式碼對其中的list進行排序時：優先順序以特殊字元、數字、英文、漢字（且漢字部分以漢字首字母）順序排序

    @Test
    public void sortList(){
        List<String>list=Lists.newArrayList();
        list.add("好好");
        list.add("最好");
        list.add("啊");
        list.add("##");
        list.add("嗯嗯");
        list.add("--");
        list.add("*");
        list.add("--");
        list.add("可以");
        list.add("56");
        list.add("");
        list.add(" ");
        list.add("bbbb");
        list.add("acc");
        list.add("52");
        list.add("aaaa");

        Comparator<Object> CHINA_COMPARE = Collator.getInstance(java.util.Locale.CHINA);
        list.sort((o1, o2) -> ((Collator) CHINA_COMPARE).compare(o1, o2));

        System.out.println(list.toString());
    }

輸出結果為：

[,  , --, --, *, ##, 52, 56, aaaa, acc, bbbb, 啊, 好好, 可以, 最好, 嗯嗯]

總體上看，好像是達到了目的，細分析，發現了其中“嗯嗯”竟然排在了“最好“的後臺，這就不符合按照漢字首字母進行排序的規則了，所以”嗯“的排序出現了異常。且不知道還有多少未知的漢字也會出現這樣的排序異常，所以可以初步斷定，

Comparator<Object> CHINA_COMPARE = Collator.getInstance(java.util.Locale.CHINA);

比較器，並不能很好的讓漢字按照首字母拼音進行排序，但是對特殊字元、數字、英文進行排序初步斷定是沒問題的。

2，解決方案：

經過1中問題的分析，可以考慮將列表分成兩個部分：非漢字部分和漢字部分，然後分別進行排序，最後將兩部分合並。

非漢字部分排序可以使用上面的方法。下面重點就是解決漢字部分的排序，可以先將漢字轉為拼音，然後再進行比較排序。

但是注意：不能和非漢字部分和漢字部分一起都轉成拼音排序：1是先不說殊死字元無法轉換成拼音的問題；2其次也因為將漢字轉成拼音後，和原來本身就是英文的部分混合一起進行比較，就無法保證英文部分能夠排在漢字的前面了。

3，程式碼示例：

執行下面程式碼，最後輸出結果為：

[,  , --, --, *, ##, 52, 56, aaaa, acc, bbbb, 啊, 好好, 可以, 嗯嗯, 最好]

import com.google.common.collect.Lists;
import com.netease.ai.ar.dongjian.util.Pinyin4jUtil;
import org.apache.commons.lang3.StringUtils;
import org.junit.Test;
import org.junit.runner.RunWith;
import org.springframework.boot.test.context.SpringBootTest;
import org.springframework.test.context.junit4.SpringRunner;

import java.text.Collator;
import java.util.Comparator;
import java.util.List;

/**
 * Created with IntelliJ IDEA.
 *
 * @Author: Weichang Zhong
 * @Date: 2018/10/18
 * @Time: 16:22
 * @Description:
 */
@RunWith(SpringRunner.class)
@SpringBootTest
public class testBug {

    @Test
    public void sortList(){
        List<String> list = Lists.newArrayList();
        list.add("好好");
        list.add("最好");
        list.add("啊");
        list.add("##");
        list.add("嗯嗯");
        list.add("--");
        list.add("*");
        list.add("--");
        list.add("可以");
        list.add("56");
        list.add("");
        list.add(" ");
        list.add("bbbb");
        list.add("acc");
        list.add("52");
        list.add("aaaa");

        // 將list集合分成只包含以漢字開頭元素的集合和不包含以漢字開頭元素的集合
        List<String> chineseCharacters = Lists.newArrayList();
        List<String> notChineseCharacters = Lists.newArrayList();
        for(String str: list) {
            if(StringUtils.isNotEmpty(str) && String.valueOf(str.charAt(0)).matches("[\u4e00-\u9fa5]")) {
                // 如果開頭為漢字，則加入漢字列表中
                chineseCharacters.add(str);
            }else {
                notChineseCharacters.add(str);
            }
        }

        Comparator<Object> com = Collator.getInstance(java.util.Locale.CHINA);
        // 先對非漢字開頭內容進行排序
        notChineseCharacters.sort((o1, o2) -> ((Collator) com).compare(o1, o2));
        //　以漢字開頭的，先將漢字轉成拼音，然後進行排序
        Pinyin4jUtil pinyin4jUtil = new Pinyin4jUtil();
        chineseCharacters.sort((o1, o2) -> ((Collator) com).compare(pinyin4jUtil.getStringPinYin(o1), pinyin4jUtil.getStringPinYin(o2)));
        notChineseCharacters.addAll(chineseCharacters);
        System.out.println(notChineseCharacters.toString());
    }
}

其中Pinyin4jUtil.java

import net.sourceforge.pinyin4j.PinyinHelper;
import net.sourceforge.pinyin4j.format.HanyuPinyinOutputFormat;
import net.sourceforge.pinyin4j.format.HanyuPinyinToneType;
import net.sourceforge.pinyin4j.format.exception.BadHanyuPinyinOutputFormatCombination;

/**
 * Created with IntelliJ IDEA.
 *
 * @Author: Weichang Zhong
 * @Date: 2018/12/7
 * @Time: 9:25
 * @Description:
 */
public class Pinyin4jUtil {


    /** pinyin4j格式類 **/
    private HanyuPinyinOutputFormat format = null;
    /** 拼音字串陣列 **/
    private String[]pinyin;

    /** 通過構造方法進行初始化 **/
    public Pinyin4jUtil(){

        format = new HanyuPinyinOutputFormat();
        /*
         * 設定需要轉換的拼音格式
         * 以天為例
         * HanyuPinyinToneType.WITHOUT_TONE 轉換為tian
         * HanyuPinyinToneType.WITH_TONE_MARK 轉換為tian1
         * HanyuPinyinVCharType.WITH_U_UNICODE 轉換為tiān
         *
         */
        format.setToneType(HanyuPinyinToneType.WITHOUT_TONE);
        pinyin = null;
    }

    /**
     * 對單個字進行轉換
     * @param pinYinStr 需轉換的漢字字串
     * @return 拼音字串陣列
     */
    public String getCharPinYin(char pinYinStr){

        try
        {
            //執行轉換
            pinyin = PinyinHelper.toHanyuPinyinStringArray(pinYinStr, format);

        } catch (BadHanyuPinyinOutputFormatCombination e)
        {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }

        //pinyin4j規則，當轉換的符串不是漢字，就返回null
        if(pinyin == null){
            return null;
        }

        //多音字會返回一個多音字拼音的陣列，pinyiin4j並不能有效判斷該字的讀音
        return pinyin[0];
    }

    /**
     * 對單個字進行轉換
     * @param pinYinStr
     * @return
     */
    public String getStringPinYin(String pinYinStr) {
        StringBuffer sb = new StringBuffer();
        String tempStr = null;
        //迴圈字串
        for (int i = 0; i < pinYinStr.length(); i++) {

            tempStr = this.getCharPinYin(pinYinStr.charAt(i));
            if (tempStr == null) {
                //非漢字直接拼接
                sb.append(pinYinStr.charAt(i));
            } else {
                sb.append(tempStr);
            }
        }
        return sb.toString();
    }

    public static void main(String[] args) {
        Pinyin4jUtil pinyin4jUtil = new Pinyin4jUtil();
        String str = "你在做什麼？what are you nong sa lie?";
        System.out.println(pinyin4jUtil.getStringPinYin(str));

        System.out.println(String.valueOf(str.charAt(0)).matches("[\u4e00-\u9fa5]"));

    }

}

pom 引入的maven jar包：

        <dependency>
            <groupId>net.sourceforge.pinyin4j</groupId>
            <artifactId>pinyin4j</artifactId>
            <version>2.5.0</version>
        </dependency>

java 優先順序以特殊字元、數字、英文、漢字（且漢字部分以漢字首字母）順序排序

java 優先順序以特殊字元、數字、英文、漢字（且漢字部分以漢字首字母）順序排序

JavaScript 數學運算子特殊字元純數字字串

JavaScript 邏輯運算子特殊字元純數字字串

濾波、訊號、數字與模擬、金字塔不懂才怪教程

java處理SQL特殊字元轉義防止sql注入

JS 和 Java 中URL特殊字元編碼方式

Java中的特殊字元的轉義問題

js正則表示式:密碼至少8位，要求必須字母、數字加英文符號

JAVA中清除特殊字元

Java 幾個特殊字元

關於Java Web使用Excel的兩種格式xls、xlsx的導如匯出（重點看方法體要理解好）

Java簡單轉義特殊字元

Java JSON格式特殊字元處理

java統計檔案中字元，數字，漢字，空格數目

Spring學習第一章、第二節：依賴注入（包括自動裝配，物件的注入）

面試題:一個字串包含英文和特殊字元，特殊字元不變，英文順序反過來，比如string str="[email

【pycharm】ubuntu 、window系統pycharm啟用碼（親測可用的長期有效方法）

co_routine.cpp/.h/inner.h（第三部分 : 協程的執行）—— libco原始碼分析、學習筆記

[Leetcode] 26、Remove Duplicates from Sorted Array（從有序陣列中刪除重複項）題解

PCI、PCIE配置空間的訪問（MCFG，Bus，Device，Funtion）

java 優先順序以特殊字元、數字、英文、漢字（且漢字部分以漢字首字母）順序排序

相關推薦