1. 程式人生 > >靈玖Nlpir Parser智能挖掘漢語精準分詞

靈玖Nlpir Parser智能挖掘漢語精準分詞

不能 機構 應該 cond 自然語言理解 綜合 基本 文本 定義

  在中文自然語言處理中,詞是最小的能夠獨立活動的有意義的語言成分。漢語是以字為基本書寫單位,詞語之間沒有明顯的區分標記,因此進行中文自然語言處理通常是先將漢語文本中的字符串切分成合理的詞語序列,然後再在此基礎上進行其它分析處理。中文分詞是中文信息處理的一個基礎環節,已被廣泛應用於中文文本處理、信息提取、文本挖掘等應用中。分詞涉及許多方面的問題,主要包括:

  (1). 核心詞表問題:許多分詞算法都需要有一個核心的(通用、與領域無關的)詞表。凡在該詞表中的詞,分詞時就應該切分出來。但對於哪些詞應當收進核心詞表,目前尚無一個標準;

  (2). 詞的變形問題:漢語中的動詞和形容詞有些可以產生變形結構,如“打牌”、“開心”、“看見”、“相信”可能變形成“打打牌”、“開開心”、“看沒看見”、“相不相信”等。對這些變形結構的切分往往缺少可操作而又合理的規範;

  (3). 詞綴的問題:如語素“者”在現代漢語中單用是沒有意義的,因此“作者”、“成功者”、“開發者”內部不能切開,都會有人提出異議。

  (4). 漢語自動分詞規範須支持各種不同目標的應用,但不同目標的應用對詞的要求是不同甚至是矛盾的。

技術分享

  靈玖軟件Nlpir Parser智能挖掘平臺是網絡搜索、自然語言理解和文本挖掘的技術開發的基礎工具集,開發平臺由多個中間件組成,各個中間件API可以無縫地融合到客戶的各類復雜應用系統之中。

  Nlpir Parser智能挖掘平臺漢語詞法分析系統能對漢語語言進行拆分處理,是中文信息處理必備的核心部件。靈玖綜合了各家所長,采用條件隨機場(Conditional Random Field,簡稱CRF)模型,分詞準確率接近99%,具備準確率高、速度快、可適應性強等優勢;特色功能包括:切分粒度可調整,融合20余部行業專有詞典,支持用戶自定義詞典等。

人名、地名、機構名識別能夠自動挖掘出隱含在漢語中的人名、地名、機構名,所提煉出的詞語不需要在詞典庫中事先存在,是對語言規律的深入理解和預測。采用條件隨機場(Conditional Random Field,簡稱CRF)模型,識別準確率達到97%,速度達到10M/s,可在此基礎上搭建各種多樣化的統計和應用。

靈玖Nlpir Parser智能挖掘漢語精準分詞