1. 程式人生 > >斯坦福大學自然語言處理第一課 “引言(introduction)”

斯坦福大學自然語言處理第一課 “引言(introduction)”

斯坦福大學自然語言處理第一課“引言(introduction)”

1.課程介紹

斯坦福大學於2012年3月在Coursera啟動了線上自然語言處理課程,由NLP領域大牛Dan Jurafsky 和 Chirs Manning教授授課:
https://class.coursera.org/nlp/

以下為個人的一些學習筆記或歸納。

2.自然語言處理(NLP)相關技術及應用

  • 自動問答(Question Answering,QA)
  • 資訊抽取(Information Extraction,IE)
  • 情感分析(Sentiment Analysis,SA)
  • 機器翻譯(Machine Translation,MT)

3.自然語言處理(NLP)的發展現狀

  • 基本解決(mostly solved):
    • 垃圾郵件檢測 spam detection
    • 詞性標註 Part-of-speech (POS) tagging
    • 命名實體標註 Named entity recognition (NER)
  • 取得長足進步(making good progress)

    • 情感分析 Sentiment analysis
    • 指代消解 Coreference resolution
    • 詞義消歧 Word sense disambiguation
    • 語法分析 Parsing
    • 機器翻譯 Machine translation (MT)
    • 資訊抽取 Information extraction (IE)
  • 尚需努力 (still really hard)

    • 自動問答 Question answering (QA)
    • 釋義 Paraphrase
    • 文摘 Summarization
    • 會話機器人 Dialog

    nlp現狀

4.自然語言難點

  • 最主要難點:歧義
  • 簡寫( see u…),口語等非標準化詞語 non-standard English
  • 分詞切詞問題 segmentation issues
  • 方言 idioms
  • 多樣的實體詞 tricky entity names
  • 。。。

    自然語言難點

5.本課關鍵理論及方法

主要運用概率模型(probabilistic model)或稱為統計模型(statistical model)進行建模,其基於大規模的真實預料庫

  • Viterbi
  • 貝葉斯和最大熵分類器 Naïve Bayes, Maxent classifiers
  • N-gram語言模型 N-gram language modeling
  • 統計分析 Statistical Parsing
  • Inverted index, tf-idf, vector models of meaning

用於解決資訊提取(Information extraction),資訊檢索(Information retrieval),拼寫矯正(Spelling correction),情感分析(Sentiment analysis)等問實際問題