1. 程式人生 > 其它 >【NLP】Stanford - Speech and Language Processing 讀書記錄 1、Intro

【NLP】Stanford - Speech and Language Processing 讀書記錄 1、Intro

Stanford - Speech and Language Processing 讀書記錄 1、Intro

花了兩週時間,把Stanford的Speech and Language Processing(https://web.stanford.edu/~jurafsky/slp3/) 的一些章節快速看了一遍。

一部分是英語水平,一部分是知識的儲備不足,有不少知識點未能消化,也有不少的遺忘。

計劃在這個學期對閱讀過的章節(2 - 9, 15,17)進行一個回顧和總結,為以後的NLP學習打好基礎。

這個學期比較忙,總結和回顧不一定會定時, 但一定會堅持。

Chapter:

2: regular Expressions, Text Normalization, Edit Distance

3: N-gram Language Models

4: Naive Bayes and Sentiment Classification

5: Logistic Regression

6: Vector Semantics and embeddings

7: Neural Networks and Neural Language Models

8: Sequence Labeling for Parts of Speech and Named Entity

9: Deep Learning Architectures for Sequence Processing

15: Logical Representations of Sentence Meaning

17: Information Extraction

Brief Introduction

第二章介紹的正則表示式、文字規範化和編輯距離。正則表示式用於模式匹配; 文字規範化中介紹了詞標記化、詞規範化、分割句子;編輯距離中,一個詞通過字母的刪除、插入、替換操作轉換為另一個詞,通過對這些操作的計算,衡量兩個詞之間的相似程度,應用於文字糾錯等方面。編輯距離的計算運用到了動態規劃演算法。

第三章介紹n-gram模型,在語言模型中可以預測n個單詞之後出現某個單詞的概率,判斷一個句子後最有可能出現的單詞。常見的有bigram, 3-gram, 4-gram。

第四章介紹樸素貝葉斯,樸素貝葉斯是一種生成模型,通過貝葉斯定理以及獨立性假設,利用文字中的單詞對文字進行分類。廣泛應用於情感分析等領域。 應用樸素貝葉斯可以有多種優化的方法,如平滑方法、考慮否定詞、一個文字中多次出現的單詞僅記為一次、對特定任務利用相關的字典等。之後介紹了評估、驗證方法。

第五章介紹邏輯斯蒂模型, 邏輯斯蒂模型是一種判別模型, 可以通過對文字特徵的學習對文字進行分類。該模型的學習運用了交叉熵損失函式、梯度下降等技巧。最後介紹了正則化方法和多元邏輯斯蒂迴歸。

第六章介紹了語義向量和嵌入。介紹分為稀疏的語義向量和稠密的語義向量兩部分。第一部分中,介紹了單詞-文字矩陣和單詞-單詞矩陣,可以用來衡量文字之間、單詞之間的相似度,其中介紹了td-idf和PMI演算法,可以優化模型、解決可能的錯誤。考慮到稀疏矩陣/向量的一些問題,第二部分引入了嵌入(embeddings),介紹了word2vec方法。通過skip-gram演算法學習單詞向量,獲得單詞的嵌入向量。通過嵌入向量可以很好地完成文字分類等任務。

第七章介紹神經網路和神經網路語言模型,包括神經網路模型、學習演算法(反向傳播)、神經網路在語言模型的應用——可以將文字單詞的嵌入向量作為神經網路的輸入,可以應用於單詞的預測以及文字的分類。

第八章介紹線性標註及其在詞性判別和命名實體的應用。在對詞性判別和命名實體的應用背景做簡單說明後,著重介紹了馬爾科夫鏈和條件隨機場的模型和學習演算法。

第九章延續前幾章介紹了用於序列處理的深度學習架構。回顧之前的語言模型和提出前文遺忘問題後,介紹了迴圈神經網路(RNN),以及長短期記憶(LSTM),注意力機制(self-attention networks)

第十五章介紹了句意的邏輯表達。在語義模型框架下具體介紹了一階邏輯(First Order Logic),包括基本概念和事件、狀態、時態表示。最後介紹了描述邏輯。

第十六章介紹了資訊抽取,包括關係抽取、事件抽取、時態抽取等。