1. 程式人生 > >第1章 NLP基礎

第1章 NLP基礎

大綱

  • NLP基礎概念

  • NLP的發展與應用

  • NLP常用術語以及擴充套件介紹


1.1 什麼是NLP

  • 基本分類

NLP基本分類

  • 自然語言生成(Natural Language Generation,NLG)

    指從結構化資料中以讀取的方式自動生成文字,主要包括三個階段:

    • 文字規劃:完成結構化資料中的基礎內容規劃;
    • 語句規劃:從結構化資料中組合語句來表達資訊流;
    • 實現:產生語法通順的語句來表達文字;
  • 研究任務

    • 機器翻譯
    • 情感分析
    • 智慧問答
    • 文摘生成
    • 文字分類
    • 輿論分析
    • 知識圖譜

1.2 NLP的發展歷程

  • 萌芽期(1956年以前)

    貝葉斯方法、隱馬爾可夫、最大熵、支援向量機……,主流仍為基於規則的理性主義方法;

  • 快速發展期(1980~1999年)

    基於統計、基於例項和基於規則的語料庫技術在這一時期蓬勃發展;

  • 突飛猛進期(2000年至今)

    神經網路與深度學習;


1.3 NLP相關知識的構成

  • 基本術語

    • 分詞(segment)

    • 詞性標註(part-of-speech tagging)

    • 命名實體識別(NER,Named Entity Recognition)

      指從文字中識別具有特定類標的實體(常為名詞),如人名、地名、機構名、專有名詞等;

    • 句法分析(syntax parsing)

      目的是解析句子中各個成分的依賴關係;

    • 指代消解(anaphora resolution)

    • 情感識別(emotion recognition)

    • 糾錯(correction)

    • 問答系統(QA system)

  • 知識結構

    NLP是一門跨學科科學,體系化與特殊化並存,其知識體系如下:

    • 句法語義分析:針對目標句子,進行各種句法分析;
    • 關鍵詞抽取:抽取目標文字中的主要資訊;
    • 文字挖掘:主要包含對文字的聚類、分類、資訊抽取、摘要、情感分析及對挖掘的資訊和知識的視覺化、互動式的呈現介面;
    • 資訊檢索:對大規模的文件進行索引;
    • 機器翻譯:將輸入的源語言文字通過自動化翻譯轉化為另一種語言的文字;
    • 問答系統:針對某個自然語言表達的問題,由問答系統給出一個精確答案;
    • 對話系統:系統通過多回合對話,與使用者進行聊天、問答、完成某項任務;

知識結構圖示


1.4 語料庫


1.5 探究NLP的幾個層面

  • 第一層面:詞法分析

    • 分詞

    • 詞性標註

      目的是為每個詞賦予一個類別;

  • 第二層面:句法分析

    對輸入的文字以句子為單位,進行分析從而得到句子的句法結構的處理過程;

  • 第三層面:語義分析

    語義角色標註(semantic role labeling)是當前較為成熟的淺層語義分析