1. 程式人生 > >統計分詞

統計分詞

思想:

     把每個詞看成是各個字組成,如果相連的字在不同的文字中出現次數越多,相連的字很可能是一個詞

     利用字與字相鄰出現的頻率反映詞的可靠度

buzhou:

    建立統計語言模型

    對句子進行單詞劃分,然後對劃分結果進行概率計算,獲得最大概率的分詞方式

語言模型:

   長度為m的字串確定其概率分佈為P(w1,w2,.......wm)其中,w1,w2,wm依次表示文字中的各個詞語