1. 程式人生 > >自然語言處理深度學習的7個應用

自然語言處理深度學習的7個應用

摘要:在這篇文章中,作者詳細介紹了自然語言處理深度學習的7種應用,以下是譯文。

自然語言處理領域正在從統計方法轉變為神經網路方法。

自然語言中仍有許多具有挑戰性的問題需要解決。然而,深度學習方法在一些特定的語言問題上取得了最新的成果。這不僅僅是深度學習模型在基準問題上的表現,基準問題也是最有趣的;事實上,一個單一的模型可以學習詞義和執行語言任務,從而消除了對專業手工製作方法渠道的需要。

在這篇文章中,你會發現7個有趣的自然語言處理任務,也會了解深度學習方法取得的一些進展。

1、 文字分類

2、 語言建模

3、 語音識別

4、 字幕生成

5、 機器翻譯

6、 文件摘要

7、 問答(Q&A)

我試圖專注於你可能感興趣的各種型別的終端使用者問題,而不是更多的學術或語言的子問題,在有些方面深度學習已經做的很好,如詞性標註,程式分塊,命名實體識別,等等。

每個示例提供了一個問題描述,示例,對演示方法和結果的文件引用。大多數參考來自2015年的Goldberg’s 的優秀的NLP研究人員深度學習入門文獻

你有沒有一個深度學習中最受歡迎的NLP應用沒有被列出?請在下面的評論中告訴我。

1、 文字分類

給出一個文字例項,預測一個預定義的類標籤。

文字分類的目的是對文件的標題或主題進行分類。

一個流行的分類示例是情感分析,類標籤代表源文字的情感基調,比如“積極的”或“消極的”。

下面是另外三個例子:

  • 垃圾郵件過濾,將電子郵件文字分類為垃圾郵件或正常郵件。
  • 語言識別,對源文字的語言進行分類。
  • 體裁分類,對小說故事體裁進行分類。

此外,這個問題可以用某種方式加以解決,將多個類分配給一個文字,即所謂的多標籤分類。如給一個源tweet預測多個#標籤。

更多相關主題的內容,請參見:

下面是3個文字分類深度學習的論文例子:

  • 亞馬遜產品評價的情感分析,IMDB電影評論和新聞文章的主題分類。

  • 影評的情感分析,將句子分類為主觀的和客觀的,分類問題型別,產品評論的情感及更多。

2、 語言建模

語言建模真的是更有趣的自然語言問題的一個子任務,特別是那些在其它輸入條件下的語言模型。

…問題是根據給出的前一個詞來預測下一個詞。這項任務是語音或光學字元識別的基礎,也用於拼寫矯正,手寫識別和統計機器翻譯。

除了對語言建模的學術興趣外,它也是許多自然語言處理體系結構深度學習的一個重要組成部分。

一個語言模型學習詞與詞之間的概率關係,這樣以來,新的詞的序列可以生成與源文字統計學上一致的文字內容。

單獨地,語言模型可用於文字或語音生成;例如:

  • 生成新的文章標題。
  • 生成新的句子,段落,或檔案。
  • 生成一個句子的建議延續的句子。

有關語言建模的更多資訊,請參見:

下面是深度學習語言建模(僅有)的一個例子:

  • 英語課文、書籍和新聞文章的的語言模型。

3、 語音識別

語音識別是理解說了什麼的問題。

…語音識別的任務是將包含自然語言話語的語音對映成說話人想要表達的對應的詞。(傳統的語音識別模型是通過人工建立一張語音詞表,將相似發音的字母劃分為一類;並藉助一個分類模型實現語音到字母的轉譯。)

—458頁,深度學習,2016.

給定作為音訊資料的文字的發聲,該模型必須生成可讀的文字。

自動給出自然語言的處理,這個問題也可被稱為自動語音識別(ASR).

語言模型用於建立以音訊資料為條件的文字輸出。

包含的一些例子:

  • 錄製語音。
  • 為電影或電視節目建立文字字幕。
  • 開車的時候向無線電發出指令。

有關語音識別的更多資訊,請參見:

以下是用於語音識別深度學習的3個例子:

4、字幕生成

字幕生成是描述影象內容的問題。

給定一個數字影象,如一張圖片,生成關於這個影象內容的文字描述。

語言模型用於建立符合影象內容的字幕。

包含的一些例子:

  • 描述一個場景的內容。
  • 為照片建立標題。
  • 描述一個視訊。

這不僅僅是對聽障者的一個應用程式,還可以為影象和視訊資料生成可讀的文字,將來可以搜尋,比如在網上。

以下是字幕生成深度學習的3個例子:

5、機器翻譯

機器翻譯是把源文字從一種語言轉換成另外一種語言的問題。

…機器翻譯,文字或語音從一種語言到另外一種語言的自動翻譯,它是NLP最重要的應用。

考慮到深度神經網路的使用,該領域被稱為神經機器翻譯。

在一個機器翻譯任務中,輸入由一些語言中的一系列符號組成,計算機程式必須把它轉換成另一種語言中的符號序列。這通常用於自然語言,比如從英語到法語的翻譯。深度學習最近開始對這種任務產生重要影響。

—98頁,深度學習,2016.

語言模型用於輸出翻譯以後語言的目標文字,以源文字為基礎。

包含的一些例子:

  • 將一個文字檔案從法語翻譯成英語。
  • 將西班牙音訊翻譯成德語文字。
  • 將英語文字翻譯成義大利音訊。

更多關於神經機器翻譯,請參見:

下面是機器翻譯深度學習的3個例子:

6、文件摘要

文件摘要是對建立的文字文件進行簡短描述的任務。

如上所述,語言模型用於基於完整文件的摘要輸出。

一些文件摘要的例子:

  • 為一篇文件建立一個標題。
  • 為一篇文件建立一個摘要。

更多關於這個話題的資訊,請參見:

下面是文件摘要深度學習的3個例子:

7、 問答

回答問題就是給定一個主題,如文字檔案,回答關於這個主題的一個特定問題。

…問答系統嘗試回答使用者以問題形式表述的疑問,它返回適當的短語,如位置,人員,或者日期。例如,問題是總統肯尼迪為什麼被刺殺?可能回答的短語是:Oswald(“凶手”奧司華德)。

包含的一些例子:

更多關於問答的資訊,請參見:

  • 關於維基百科文章的問答

  • 關於新聞文章的問答

  • 關於醫療記錄的問答

下面是問答深度學習的3個例子:

擴充套件閱讀

如果你需要更深入的瞭解,本節提供更多用於NLP深度學習應用程式的資源。

2017年10月14日,SDCC 2017之大資料技術實戰線上峰會即將召開,邀請圈內頂尖的佈道師、技術專家和技術引領者,共話大資料平臺構建、優化提升大資料平臺的各項效能、Spark部署實踐、企業流平臺實踐、以及實現應用大資料支援業務創新發展等核心話題,七位大牛與你相聚狂歡,詳情檢視所有嘉賓和議題,以及註冊參會