中文分詞一席談之難點分析
阿新 • • 發佈:2019-01-02
什麼是分詞?
分詞就是利用計算機識別出文本中詞彙的過程。比如句子“內塔尼亞胡說的確實在理”
分詞作用
網際網路絕大多數應用都需要分詞,典型應用例項
漢字處理:拼音輸入法、手寫識別、簡繁轉換 …
資訊檢索:Google 、Baidu …
內容分析:機器翻譯、廣告推薦、內容監控 …
語音處理:語音識別、語音合成 …
…
分詞難點
歧義無處不在
交叉歧義(多種切分交織在一起)
內塔內亞胡說的/確實/在理
組合歧義(不同情況下切分不同)
這個人/手 上有痣
我們公司人手 真歧義(幾種切分都可以)
乒乓球拍/賣/完了
乒乓球/拍賣/完了
新詞層出不窮
人名、地名、機構名
劉德華 長阪坡 耀華路
網名
你是我的誰 旺仔小饅頭
公司名、產品名
摩托羅拉 谷歌 愛國者 騰訊 網易 新浪 諾基亞C5 尼康D700
普通詞與新詞互用
高明表演真好(演員)/他的表演很高明
汪洋(廣東省長)到深圳檢查工作/洞庭湖一片汪洋
普通詞與新詞交織在一起
克林頓對內 塔尼亞胡說
胡錦濤聽取龔學平等同志的彙報
需求多種多樣
切分速度:搜尋引擎VS單機版語音合成
結果呈現:
切分粒度要求不同:機器翻譯VS搜尋引擎
分詞重點要求不同:語音合成VS搜尋引擎
唯一結果VS多結果:語音合成VS搜尋引擎
新詞敏感度不同:語音合成VS搜尋引擎
處理物件:書面文字(規範/非規範)VS口語文字
硬體平臺:嵌入式VS單機版VS伺服器版
分詞就是利用計算機識別出文本中詞彙的過程。比如句子“內塔尼亞胡說的確實在理”
分詞作用
網際網路絕大多數應用都需要分詞,典型應用例項
漢字處理:拼音輸入法、手寫識別、簡繁轉換 …
資訊檢索:Google 、Baidu …
內容分析:機器翻譯、廣告推薦、內容監控 …
語音處理:語音識別、語音合成 …
…
分詞難點
歧義無處不在
交叉歧義(多種切分交織在一起)
內塔內亞胡說的/確實/在理
組合歧義(不同情況下切分不同)
這個人/手
我們公司人手 真歧義(幾種切分都可以)
乒乓球拍/賣/完了
乒乓球/拍賣/完了
新詞層出不窮
人名、地名、機構名
劉德華 長阪坡 耀華路
網名
你是我的誰 旺仔小饅頭
公司名、產品名
摩托羅拉 谷歌 愛國者 騰訊 網易 新浪 諾基亞C5 尼康D700
普通詞與新詞互用
高明表演真好(演員)/他的表演很高明
汪洋(廣東省長)到深圳檢查工作/洞庭湖一片汪洋
普通詞與新詞交織在一起
克林頓對內
胡錦濤聽取龔學平等同志的彙報
需求多種多樣
切分速度:搜尋引擎VS單機版語音合成
結果呈現:
切分粒度要求不同:機器翻譯VS搜尋引擎
分詞重點要求不同:語音合成VS搜尋引擎
唯一結果VS多結果:語音合成VS搜尋引擎
新詞敏感度不同:語音合成VS搜尋引擎
處理物件:書面文字(規範/非規範)VS口語文字
硬體平臺:嵌入式VS單機版VS伺服器版