1. 程式人生 > >現代自然語言系統簡介

現代自然語言系統簡介

自然語言系統的整體邏輯

  • 一個自然語言處理系統也應包含最少三個模組:語言的解析、語義的理解及語言的生成。
    在這裡插入圖片描述

自然語言處理的一般架構

在這裡插入圖片描述

  • 中文分詞 是漢語自然語言處理的第一步,是將漢字序列切分成一個個單獨的詞。
  • 詞性標註 又稱詞類標註,是指判斷出在一個句子中每個詞所扮演的語法角色。例如,表示 人、事物、地點或抽象概念的名稱就是名詞;表示動作或狀態變化的詞為動詞。
  • 句法解析 是根據給定的語法體系自動推匯出句子的語法結構,分析句子所包含的語法單元和這些語法單元之間的關係,將句子轉化為一棵結構化的語法樹。
  • 命名實體識別主要用來識別語料中專有名詞和未登入詞的成詞情況,如人名、地名、組織機構名稱等,也包括一些特別的專名。該圖中來自左側的箭頭表示命名實體識別受到中文分詞和詞性標註的影響。也就是說,準確的命名實體識別是以準確的分詞和詞性標註為前提的。
  • 語義組塊用來確定一個以上的詞彙構成的短語結構,即短語級別的標註,主要識別名詞性短語、動詞性短語、介詞短語等,以及其他型別的短語結構。語義組塊的自動識別來源於中文分詞、詞性標註和命名實體識別的共同資訊。
  • 語義角色標註是以句子中的謂語動詞為中心預測出句子中各個語法成分的語義特徵,是句子解析的最後一個環節。語義角色標註直接受到句法解析和語義組塊的影響。從中文分詞階段到語義角色標註階段大約經歷了4~5個依次串聯的模組,這導致語義角色標註的精度顯著降低。

參考資料:NLP漢語自然語言處理 原理與實踐