1. 程式人生 > >輸入法之核心詞典構建

輸入法之核心詞典構建

一定的 構建 article 復雜 mil 選擇 font mod rac



拼音輸入法輸出的候選分成兩個部分,系統詞以及短句(智能組詞),智能組詞是通過model以及解碼弄出來的,興許再說。

系統詞就是那些經常使用的詞(詞組)收錄到詞典中,用戶的輸入和詞典中的詞match時,直接吐出來,而不須要解碼獲得。
系統詞以及相應的rank(score)對輸入法的體驗非常大,畢竟大多數用戶還是繼續短詞輸入。
系統詞包括幾個部分: 1.基礎詞 2.高頻短串 3.細胞詞庫
當中基礎詞的比較復雜,也沒有統一的方法。

一般的做法是:

1.對訓練語料進行分詞,然後取top 20-50w的詞作為基礎詞,假設有知識庫等分類的詞典,能夠依照類別。比方電商等能夠引入一些詞 2.獲取第三方的核心詞典。將大家都有的,或者基於一定的規範。選擇出來。作為核心詞典。
這個非常重要,可是基本上高頻的都能被cover住,而中低頻的就看產品需求了。
針對高頻短串。比方“去哪裏”等等,沒有必要通過智能組詞來解決。智能組詞畢竟是有錯誤率的。 同一時候。加到核心詞庫裏面後。在展現上比較方便控制。

畢竟智能組詞一版智能選一個最好的。而系統詞能夠有多個。“去哪裏”去那裏“

輸入法之核心詞典構建