斯坦福大學自然語言處理第一課 “引言(introduction)”
阿新 • • 發佈:2018-12-31
斯坦福大學自然語言處理第一課“引言(introduction)”
1.課程介紹
斯坦福大學於2012年3月在Coursera啟動了線上自然語言處理課程,由NLP領域大牛Dan Jurafsky 和 Chirs Manning教授授課:
https://class.coursera.org/nlp/
以下為個人的一些學習筆記或歸納。
2.自然語言處理(NLP)相關技術及應用
- 自動問答(Question Answering,QA)
- 資訊抽取(Information Extraction,IE)
- 情感分析(Sentiment Analysis,SA)
- 機器翻譯(Machine Translation,MT)
3.自然語言處理(NLP)的發展現狀
- 基本解決(mostly solved):
- 垃圾郵件檢測 spam detection
- 詞性標註 Part-of-speech (POS) tagging
- 命名實體標註 Named entity recognition (NER)
取得長足進步(making good progress)
- 情感分析 Sentiment analysis
- 指代消解 Coreference resolution
- 詞義消歧 Word sense disambiguation
- 語法分析 Parsing
- 機器翻譯 Machine translation (MT)
- 資訊抽取 Information extraction (IE)
尚需努力 (still really hard)
- 自動問答 Question answering (QA)
- 釋義 Paraphrase
- 文摘 Summarization
- 會話機器人 Dialog
4.自然語言難點
- 最主要難點:歧義
- 簡寫( see u…),口語等非標準化詞語 non-standard English
- 分詞切詞問題 segmentation issues
- 方言 idioms
- 多樣的實體詞 tricky entity names
。。。
5.本課關鍵理論及方法
主要運用概率模型(probabilistic model)或稱為統計模型(statistical model)進行建模,其基於大規模的真實預料庫
- Viterbi
- 貝葉斯和最大熵分類器 Naïve Bayes, Maxent classifiers
- N-gram語言模型 N-gram language modeling
- 統計分析 Statistical Parsing
- Inverted index, tf-idf, vector models of meaning
用於解決資訊提取(Information extraction),資訊檢索(Information retrieval),拼寫矯正(Spelling correction),情感分析(Sentiment analysis)等問實際問題