【NLP】Stanford - Speech and Language Processing 讀書記錄 1、Intro

阿新 • • 發佈：2021-10-24

Stanford - Speech and Language Processing 讀書記錄 1、Intro

花了兩週時間，把Stanford的Speech and Language Processing（https://web.stanford.edu/~jurafsky/slp3/）的一些章節快速看了一遍。

一部分是英語水平，一部分是知識的儲備不足，有不少知識點未能消化，也有不少的遺忘。

計劃在這個學期對閱讀過的章節（2 - 9， 15，17）進行一個回顧和總結，為以後的NLP學習打好基礎。

這個學期比較忙，總結和回顧不一定會定時，但一定會堅持。

Chapter:

2: regular Expressions, Text Normalization, Edit Distance

3: N-gram Language Models

4: Naive Bayes and Sentiment Classification

5: Logistic Regression

6: Vector Semantics and embeddings

7: Neural Networks and Neural Language Models

8: Sequence Labeling for Parts of Speech and Named Entity

9: Deep Learning Architectures for Sequence Processing

15: Logical Representations of Sentence Meaning

17: Information Extraction

Brief Introduction

第二章介紹的正則表示式、文字規範化和編輯距離。正則表示式用於模式匹配；文字規範化中介紹了詞標記化、詞規範化、分割句子；編輯距離中，一個詞通過字母的刪除、插入、替換操作轉換為另一個詞，通過對這些操作的計算，衡量兩個詞之間的相似程度，應用於文字糾錯等方面。編輯距離的計算運用到了動態規劃演算法。

第三章介紹n-gram模型，在語言模型中可以預測n個單詞之後出現某個單詞的概率，判斷一個句子後最有可能出現的單詞。常見的有bigram, 3-gram, 4-gram。

第四章介紹樸素貝葉斯，樸素貝葉斯是一種生成模型，通過貝葉斯定理以及獨立性假設，利用文字中的單詞對文字進行分類。廣泛應用於情感分析等領域。應用樸素貝葉斯可以有多種優化的方法，如平滑方法、考慮否定詞、一個文字中多次出現的單詞僅記為一次、對特定任務利用相關的字典等。之後介紹了評估、驗證方法。

第五章介紹邏輯斯蒂模型，邏輯斯蒂模型是一種判別模型，可以通過對文字特徵的學習對文字進行分類。該模型的學習運用了交叉熵損失函式、梯度下降等技巧。最後介紹了正則化方法和多元邏輯斯蒂迴歸。

第六章介紹了語義向量和嵌入。介紹分為稀疏的語義向量和稠密的語義向量兩部分。第一部分中，介紹了單詞-文字矩陣和單詞-單詞矩陣，可以用來衡量文字之間、單詞之間的相似度，其中介紹了td-idf和PMI演算法，可以優化模型、解決可能的錯誤。考慮到稀疏矩陣/向量的一些問題，第二部分引入了嵌入（embeddings），介紹了word2vec方法。通過skip-gram演算法學習單詞向量，獲得單詞的嵌入向量。通過嵌入向量可以很好地完成文字分類等任務。

第七章介紹神經網路和神經網路語言模型，包括神經網路模型、學習演算法（反向傳播）、神經網路在語言模型的應用——可以將文字單詞的嵌入向量作為神經網路的輸入，可以應用於單詞的預測以及文字的分類。

第八章介紹線性標註及其在詞性判別和命名實體的應用。在對詞性判別和命名實體的應用背景做簡單說明後，著重介紹了馬爾科夫鏈和條件隨機場的模型和學習演算法。

第九章延續前幾章介紹了用於序列處理的深度學習架構。回顧之前的語言模型和提出前文遺忘問題後，介紹了迴圈神經網路（RNN），以及長短期記憶（LSTM），注意力機制（self-attention networks）

第十五章介紹了句意的邏輯表達。在語義模型框架下具體介紹了一階邏輯（First Order Logic），包括基本概念和事件、狀態、時態表示。最後介紹了描述邏輯。

第十六章介紹了資訊抽取，包括關係抽取、事件抽取、時態抽取等。

【NLP】Stanford - Speech and Language Processing 讀書記錄 1、Intro

【NLP】Stanford - Speech and Language Processing 讀書記錄 1、Intro

【Stanford - Speech and Language Processing 讀書筆記】2、Regular Expression，Text Normalization，Edit distance

【Stanford - Speech and Language Processing 讀書筆記】3、N-gram Language Models

【CF611H】New Year and Forgotten Tree（網路流）

【題解】 CF762E Timofey and remoduling 構造剩餘系

【LeetCode】299. Bulls and Cows 猜數字遊戲（Medium）（JAVA）

【Lintcode】1449. Loud and Rich

【LeetCode】365. Water and Jug Problem 水壺問題（Medium）（JAVA）

【Leetcode】909. Snakes and Ladders

【Leetcode】535. Encode and Decode TinyURL

【題解】CF1372E Omkar and Last Floor

【題解】Codeforces1545D AquaMoon and Wrong Coordinate

【題解】CF432D - Prefixes and Suffixes

【題解】CF1559E Mocha and Stars

【題解】CF639F Bear and Chemistry

【題解】CF1393E2 Twilight and Ancient Scroll (harder version)

【題解】CF1455F String and Operations

【題解】CF1592F-Alice and Recoloring

【題解】CF1336D Yui and Mahjong Set

【數學】【定理】F. Anton and School

【NLP】Stanford - Speech and Language Processing 讀書記錄 1、Intro

相關推薦