小象學院自然語言處理第二期

阿新 • • 發佈：2018-12-20

2018年11月07日 21:23:36 hzxt00 閱讀數：5 標籤：資源共享個人分類：資源分享

2018年11月07日 21:23:36 hzxt00 閱讀數：5 標籤：資源共享

線性代數、統計學習、資料結構、英語。智慧就是通過語言來衡量--圖靈測試語音生成ASR 機器翻譯MT 語言轉語音TTS 數學：輸入與輸出之間的對映關係函式空間中的一組數向量向量之間的線性組合空間矩陣向量的向量張量向量的

3.分詞和標註下面的句子：They wind back the clock,while we chase after the wind.句子中包含哪些不同的發音和詞類？import nltks='They wind back the clock,while we chase

一、課程介紹斯坦福大學於2012年3月在Coursera啟動了線上自然語言處理課程，由NLP領域大牛Dan Jurafsky 和 Chirs Manning教授授課：https://class.coursera.org/nlp/ 以下是本課程的學習筆記，以課程PPT/

MIT自然語言處理第三講：概率語言模型（第四部分）自然語言處理：概率語言模型 Natural Language Processing: Probabilistic Language Modeling 作者：Regina Barzilay（MIT,EECS Dep

一、課程介紹斯坦福大學於2012年3月在Coursera啟動了線上自然語言處理課程，由NLP領域大牛Dan Jurafsky 和 Chirs Manning教授授課：https://class.coursera.org/nlp/ 以下是本課程的學習筆記，以課程PP

今天在我愛機器學習上正好看到這篇文章，和我們現在做的中文拼寫檢查關係密切，就轉過來了，需要細細地看一遍。一、課程介紹斯坦福大學於2012年3月在Coursera啟動了線上自然語言處理課程，由NLP領域大牛Dan Jurafsky 和 Chirs Manning教授

星級技術 ima lac 個數應該 ras 時有根據 2.1詞匯表征（1）使用one-hot方法表示詞匯有兩個主要的缺點，以10000個詞為例，每個單詞需要用10000維來表示，而且只有一個數是零，其他維度都是1，造成表示非常冗余，存儲量大；第二每個單詞表示的向量相

一、word2vec 1、回顧：skip-grams word2vec的主要步驟是遍歷整個語料庫，利用每個視窗的中心詞來預測上下文的單詞，然後對每個這樣的視窗利用SGD來進行引數的更新。對於每一個視窗而言，我們只有2m+1個單詞（其中m表示視窗的半徑），因此我們計算出來的梯度向量是

一、單詞含義與單詞關係回顧：詞目（lemma）與單詞形式（wordform）詞目：表示相同的詞根、詞性以及大致的語義單詞形式：表示在文件中出現的具體單詞形式一個詞目可能會含有很多含義（sense）。含義（sense）表示單

一、介紹之前我們的請求都是布林型別。對於那些明確知道自己的需求並且瞭解集合體情況的使用者而言，布林型別的請求是很有效的。但是對於大部分的其他使用者而言，布林請求的問題是：大部分使用者不熟悉布林請求；布林請求比較複雜；布林請求的結果不是太多就是太少。排序檢索應運而生。排序

一、介紹資訊檢索（information retrieval）是從海量集合體（一般是儲存在計算機中的文字）中找到滿足資訊需求（information need）的材料（一般是文件）資訊檢索的應用領域：網頁搜尋，郵件搜尋，電腦內部搜尋，法律資訊檢索等等資訊檢索的基

一、介紹 1、依存句法依存句法假設：句法結構包含相互之間是雙邊不對稱關係的詞典（lexical）元素，這種不對稱的關係成為依存（dependency），在圖中的表現是單向箭頭。箭頭通常還會打上這種語法關係的名字（主語，前置賓語等等）箭頭一邊連線中心詞head

一、介紹一個短語的中心詞（head word）可以很好地代表這個短語的結構和含義，在構建PCFG模型的時候，可以考慮將這部分資訊納入其中。如下圖所示加入單詞資訊可以幫助我們更好地選擇出合適的模型。二、Charniak模型 Charniak模型是詞彙化P

一、概率上下文無關文法（(Probabilistic) Context-Free Grammars） 1、上下文無關文法（Context-Free Grammars）我們也可以稱之為片語結構語法(Phrase structure grammars) 由四個成分構成G=

課程來源：Introduction to NLP by Chris Manning & Dan jurafsky 關於專用名詞和概念：剛接觸NLP領域，所以有些專有名詞的翻譯和專有概念可能會存在一定的偏誤，隨著學習的深入，我會隨時更新改正。一、關於句法結構的兩種看法

一、詞性（part-of-speech)介紹詞性：名詞（Nouns)，動詞（Verbs)，形容詞（Adjectives），副詞（Adverbs)等等就是我們想要研究的詞性我們可以把詞性分為開放類（open class）和閉合類（closed class）。

一、最大熵模型 1、模型介紹基本思想：我們希望資料是均勻分佈的，除非我們有其他的限制條件讓給我們相信資料不是均勻分佈的。均勻分佈代表高熵（high entropy）。所以，最大熵模型的基本思想就是我們要找的分佈是滿足我們限制條件下，同時熵最高的分佈。熵：表示分佈的不

一、簡介關係抽取就是從文件中抽取關係，例子如下：為什麼進行關係抽取建立新的關係型知識庫（knowledge bases）增強目前的知識庫（knowledge bases）支援問題回答（question answering）

一、介紹 1、資訊抽取（information extraction）資訊抽取（IE）系統找到並理解文字中的有限的相關性從很多的文件之中收集資訊產生一個相關資訊的結構化的表徵目的：進行資