1. 程式人生 > >NLP頂級專家Dan Roth :自然語言處理領域近期的任務和主要應用

NLP頂級專家Dan Roth :自然語言處理領域近期的任務和主要應用

記者 | 周翔

AI科技大本營1月28日訊息,《麻省理工科技評論》新興科技峰會EmTech China在北京召開,營長也受邀參加,會上有多位人工智慧領域的重磅大佬出沒,Dan Roth 就是其中一位。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

說起Dan Roth,他可是全球自然語言處理領域的頂級專家,賓夕法尼亞大學計算機和資訊科學系的講席教授。他致力於通過機器學習和推理的方法幫助機器理解自然語言。也是 AAAS、ACL、AAAI 和 ACM 的會士,曾在多個重要會議上擔任程式主席一職。2017 年,他因“在自然語言理解、機器學習和推理領域中做出重大的概念和理論創新”而獲得國際人工智慧聯合會議(IJCAI)頒發的約翰·麥卡錫獎。Dan Roth 在哈佛大學獲得博士學位,並曾在伊利諾伊大學擔任教授。他曾開發出 SNoW 等多種應用廣泛的自然語言處理工具。

今天Dan Roth教授為我們帶來了題為“利用非結構化資料——AI的崛起”的演講,為我們講解了自然語言處理領域近期的重要任務;為什麼非結構化的資料處理很難以及應對措施;自然語言處理領域現階段的主要應用及挑戰等內容。

以下為Dan Roth教授演講實錄,AI 科技大本營做了不改變原意的整理。

NLP領域近期的重要任務

當我們連線wifi的時候,或者當你在下載的時候,會出現一個提示框詢問你是否接受使用者協議。這是一份很長的文字,那麼你要接受嗎?可能你會回答,對,我要接受,哪怕這個時候,你還沒有讀完這份長長的文字。

但是這個文字中會涉及很多問題,比如,它會如何利用我的個人資訊?會不會侵害我的隱私?我們需要了解這些知識。這個文字能不能讓使用者清楚瞭解這些相關的保密內容呢?我們現在還沒有一種穩定的方法可以去了解整個文字的內容,這就是我們現在遇到的問題。這個問題不僅是一個科學上的問題,這些文字關乎我們個人資訊的安全性,這是每個人都要面對的問題。

我們接觸到的絕大多數資料是非結構性的。從科學領域,再到醫學、教育、商業、網際網路等等,包括我們的郵件都是非結構性資料。這背後的挑戰就是,我們如何去了解這些資料的結構,從而建立一個系統,可以去分析、利用它們,瞭解其背後的意義。這就是自然語言處理領域近期,尤其是近幾年的一個重要任務。

為什麼非結構化的資料處理很難?

今天,我來給大家解釋一下,為什麼非結構性的資料處理這麼難?以及我們要採取什麼樣的措施?

我們從一個簡單的故事開始。這是美國二年級學生的一道閱讀測試題。有三個名字:Kris  Robin、Kiris和Ms.  Robin,大家覺得他們是同一個人的名字嗎?我想大多數人都覺得不是。為什麼不是呢?因為通過閱讀理解,大家會覺得其中有一個可能是父親。雖然這篇文章中沒有明確指出這一點,但是大家可以推斷出來。這樣一道題,有人做對,有人做錯,有人可能做的很快,有人則可能會慢一點。那麼我們如何幫助計算機快速地做出選擇呢?

其實,這個故事中是有很多陷阱的,有的人會被誤導。文章中往往有很多的邏輯詞,有很多時間節點,比如說三年前五年前,還有一些定性和定量的詞語,讓我們可以分析和梳理人物之間的關係。哪怕是一個很簡單的問題,我們也需要通過邏輯來梳理。

對計算機而言,這是一個比較複雜的問題。為什麼呢?因為這背後有兩層邏輯。表層語言層和底層意義層。語言層具有模糊性,因此可能會產生歧義,所以我們需要去了解它的背景,推測它的言外之意來消除這樣的歧義。除此之外,語言層還具有多樣性。我們想要表達的每一點,都可以通過不同的方式表達出來。這兩個特點就使得語意理解非常困難。      

再給大家舉一個例子,這裡有三篇文字,都提到了芝加哥。

“我來自芝加哥。”

我這麼說,它可能沒有別的意思。但如果我提到芝加哥樂隊,或者芝加哥的足球隊,或者提到與它相關的專輯。有的文字中甚至不會直接出現芝加哥,但是這些不同的意義點都可以幫我們表達出芝加哥。

傳統的程式設計能力暫時沒辦法幫助我們解決語言的模糊性問題。所以我們就要利用最新的機器學習去減少文字中的模糊性,去連線語言中的邏輯,去解讀背景知識,去識別不同的詞彙,以最終地消解這種模糊性。

機器學習是解決語言中模糊性和多樣性一個必要的工具。在過去幾年我們也看到了這個領域的發展,我們有不同分類方法來解決文字分類問題,他們依據不同的規則,使用不同的方法。比如我們會通過打上一個標籤對文字進行標記,在標記的過程中對檔案進行分類。比如可以通過病例來判斷一個患者是否可以複診,這是一種巨集觀的分類方法。

人工智慧能夠幫助我們進行分類,在過去的幾年它也取得了長足的發展。這其中不僅有機器學習發展的功勞,還有其他的技術,包括計算能力的發展和儲存成本的下降,還有新的分類方法的誕生,都促進了機器學習領域的發展。

大家如果關注這個領域,就會發現現在機器學習分類還不是非常的有效。如果把這些方法比喻成一個魔盒的話,我們要了解這個魔盒中需要什麼樣的工具和內容。我想強調的就是,我們不僅需要找到方法,更應該瞭解推理的方法,包括瞭解原因、假設結果和測試方法。因為推理應該是分類之上的邏輯,讓同樣的類別在一起進行整合。我們要清楚,一個節點是否能推到下一個節點,這樣才能更好的解決問題、回答問題和進行優化。

自然語言處理的應用

自然語言處理現在有很多應用。比如,一個律所需要獲得所有人的名字,這些人名都包含在郵件中,有不同的分析郵件的方法,我們該如何確定這些人的名單呢?再比如,一個政界人士要研究氣候變化方面的問題,他也找到了很多相關的文字,但是該如何全面的梳理,得到大事件的時間表呢?包括教學系統,是否能夠幫助我們初中學生更好的解決幾何和數學問題?再比如比傳統病歷包含更多資訊的電子病歷,我們又該如何利用呢?

我們還沒有真正完全解決這些問題,還有許多其他挑戰,包括推理,適應性訓練,因為現在的模型大多不具有通用性。

以及最大的挑戰是——監督

那什麼是監督?或者說神經網路的監督?我們賦予神經網路一個任務,去模擬它,然後收集資料,設定一個模型。但現在我們發現我們的資料不夠,沒有辦法去適配所有的模型。那這種方法就無法升級和進行通用性的應用,它更大程度上是隻是一種偶然性的訓練。

我們也發現很多的零散訊號,我們如何收集這些零散的訊號,進行訓練模型?傳統的文字分類,需要用很多標誌性檔案去訓練一個經典的模型。所以,我們一般要收集一些關鍵的資料進行標記、進行分類。現在我們考慮的是如何不利用標記的資料,就可以進行快速地分類。但是現在我們不再需要標記資料了,因為我們有對標籤的最直接的瞭解。我們可以直接利用話題、文字進行標記性的重現,以實現對話題的理解。

我還有一個例子,我很喜歡喝咖啡,我想告訴一個機器人這個資訊,我就要和它溝通。我要告訴它,我需要什麼樣的咖啡,讓它去了解我的喜好。標準的機器學習的方法,就是為此提供一個有隱喻的文字和很多意義的標記,這樣做的成本非常地高昂。換句話說我們要像一個老師一樣,通過深入的溝通,為機器人提供資訊。這種方法是不可以進行復制的。

現在我們在想為它提供一些非直接性的訊號,去訓練這個機器人。把這樣的資訊傳遞出去,再看一下機器人能做什麼事情。如果它按照我的方法和指示做這個咖啡,說明我們的資訊傳遞是非常清晰的,相反的話說明我們的資訊傳遞的不太成功。

因此我們現在的挑戰就是能不能依賴於這種描述語言,實現資訊的傳達。我不會告訴你們怎麼做,但是我覺得這樣一種方式,能夠幫助我們進行下一級的技術革命,而且能夠完成一些複雜的任務。

總結來看,今天的自然語言處理依然是一個具有挑戰性的領域。機器學習和推理等都是科學工程以及商業進展的核心。儘管還有許多的問題有待解決,但是現在這個領域的現狀已經能夠幫助我們取得一定的商業成功了。

謝謝!

招聘

新一年,AI科技大本營的目標更加明確,有更多的想法需要落地,不過目前對於營長來說是“現實跟不上靈魂的腳步”,因為缺人~~

所以,AI科技大本營要壯大隊伍了,現招聘AI記者和資深編譯,有意者請將簡歷投至:[email protected],期待你的加入!

如果你暫時不能加入營長的隊伍,也歡迎與營長分享你的精彩文章,投稿郵箱:[email protected]

如果以上兩者你都參與不了,那就加入AI科技大本營的讀者群,成為營長的真愛粉兒吧!後臺回覆:讀者群,加入營長的大家庭,新增營長請備註自己的姓名,研究方向,營長邀請你入群。

熱文精選

640?wx_fmt=png

☟☟☟點選 | 閱讀原文 | 檢視更多精彩內容

相關推薦

NLP頂級專家Dan Roth 自然語言處理領域近期任務主要應用

記者 | 周翔AI科技大本營1月28日訊息,《麻省理工科技評論》新興科技峰會EmTech Chi

GitHub專案自然語言處理領域的相關乾貨整理

自然語言處理(NLP)是電腦科學,人工智慧,語言學關注計算機和人類(自然)語言之間的相互作用的領域。本文作者為NLP初學者整理了一份龐大的自然語言處理領域的概覽。選取的參考文獻與資料都側重於最新的深度學習研究成果。這些資源能為想要深入鑽研一個NLP任務的人們提供一個良好的開端

跳躍NLP曲線自然語言處理研究綜述(三)(翻譯)

3. 重疊NLP曲線 隨著網際網路時代的到來,文明經歷了深刻的影響,我們現在比以往任何時候都經歷的快很多。即使是適應、發展和創新技術,也會讓人感到恍惚,即淘汰就在眼前。特別是NLP研究在過去15年中並沒有像其它技術那樣發展。 雖然NLP研究在執行人工智慧行為

跳躍NLP曲線自然語言處理研究綜述(五)(翻譯)

6. 展望語義曲線 敘事理解和生成是推理,決策和“意識形成”的核心。除了作為人與人交流的關鍵部分之外,敘事也是構建現實和進行規劃的手段。解讀人類大腦如何生成和處理敘事可能最終導致我們真正理解和解釋人類的智慧和意識。計算機建模是研究敘事理解的有效方法。在知識表達

聊天機器人(chatbot)終極指南自然語言處理NLP深度機器學習(Deep Machine Learning)

為了這份愛 在過去的幾個月中,我一直在收集自然語言處理(NLP)以及如何將NLP和深度學習(Deep Learning)應用到聊天機器人(Chatbots)方面的最好的資料。 時不時地我會發現一個出色的資源,因此我很快就開始把這些資源編製成列表。 不久,我就

LDA詳解自然語言處理

----關注我,得永生------ ♀♀♀如果學習是做愛♀♀♀ ♂♂♂請你記住要深入♂♂♂ ----ME----聯絡方式------ 數學建模:虐雲建模網 機器學習Q群:249885734 PythonQ群:867300100

帶你深入AI(5)- 自然語言處理領域RNN LSTM GRU

系列文章,請多關注 Tensorflow原始碼解析1 – 核心架構和原始碼結構 自然語言處理1 – 分詞 帶你深入AI(1) - 深度學習模型訓練痛點及解決方法 帶你深入AI(2)- 深度學習啟用函式,準確率,優化方法等總結 帶你深入AI(3)- 物體分類領域:AlexNet VGG I

NLP】十分鐘快覽自然語言處理學習總結

作者:白寧超 2016年9月23日00:24:12 摘要:近來自然語言處理行業發展朝氣蓬勃,市場應用廣泛。筆者學習以來寫了不少文章,文章深度層次不一,今天因為某種需要,將文章全部看了一遍做個整理,也可以稱之為概述。關於這些問題,部落格裡面都有詳細的文章去介紹,本文只是對其各個部分高度概括梳理。

深度學習方法(八)自然語言處理中的Encoder-Decoder模型,基本Sequence to Sequence模型

歡迎轉載,轉載請註明:本文出自Bin的專欄blog.csdn.net/xbinworld。技術交流QQ群:433250724,歡迎對演算法、技術感興趣的同學加入。 Encoder-Decoder(編碼-解碼)是深度學習中非常常見的一個模型框架,比如無監督演

NLP】百度AI平臺自然語言處理API呼叫(情感分析案例)

首先先註冊登入百度AI平臺,自然語言處理是免費的,有5 QPS,夠用了,不夠用可以申請增加。 我申請增加至10 QPS,通過得很快。 相關配置準備 找到百度AI平臺的NLP入口: 看到自然語言處理 點選進入 進入之後跳轉到自然語言處理產品頁 點選

科普文自然語言處理到底是幹嘛的

 一、概念 自然語言處理(NLP,Natural Language Processing)、計算語言學(CL,Computational Linguistics)、人類語言技術(HLT,Human Language Technology),又或者“應用語言學”、“語言工

GitHub專案自然語言處理專案的相關乾貨整理

自然語言處理(NLP)是電腦科學,人工智慧,語言學關注計算機和人類(自然)語言之間的相互作用的領域。本文作者為自然語言處理NLP初學者整理了一份龐大的自然語言處理專案領域的概覽,包括了很多人工智慧應用程式。選取的參考文獻與資料都側重於最新的深度學習研究成果。這些自然語言處理專

自然語言處理領域重要論文&資源全索引

自然語言處理(NLP)是人工智慧研究中極具挑戰的一個分支。隨著深度學習等技術的引入,NLP 領域正在以前所未有的速度向前發展。但對於初學者來說,這一領域目前有哪些研究和資源是必讀的?最近,Kyubyong Park 為我們整理了一份完整列表。 GitHub 專案連結:https:/

自然語言處理領域,哪些企業的發展遙遙領先?(附報告)

後臺回覆關鍵詞“NLP”下載研究報告(含人才分佈圖)目錄第 1 章 自然語言處理概念篇第 2 章

自然語言處理深度學習的7個應用

摘要:在這篇文章中,作者詳細介紹了自然語言處理深度學習的7種應用,以下是譯文。自然語言處理領域正在從統計方法轉變為神經網路方法。自然語言中仍有許多具有挑戰性的問題需要解決。然而,深度學習方法在一些特定的語言問題上取得了最新的成果。這不僅僅是深度學習模型在基準問題

深度學習自然語言處理中的attentionmemory機制

Attention機制是最近深度學習的一個趨勢。在一次採訪中,OpenAI的研究總監Ilya Sutskever說attention機制是最令人興奮的進步之一,而且已經廣為使用。聽起來激動人心吧。但attention機制究竟是什麼呢?神經網路裡的attentio

迴圈神經網路RNN在自然語言處理領域應用

之前看的論文都是基於CNN在NLP上的應用,但其實深度學習與NLP結合的領域中應用最廣的應該是RNN,因為文字可以直觀地被表示為輸入序列,方便的被RNN處理,捕獲其Long-Term依賴等資訊,而且實際應用中也取得了很好的效果。之前雖然主要研究CNN,但同時也看

深度學習與自然語言處理(三)——深度學習運用到自然語言處理領域的成功案例

目錄 1.全連線前饋神經網路(MLP)的應用 大部分情況下,全連線前饋神經網路(MLP)能被用來替代線性學習器。這包括二分類或多分類問題,以及更復雜的結構化預測問題。網路的非線性以及易於整合預訓練詞嵌入的能力經常帶來更高的分類精度。一系列工作通過簡單地將句

初學者如何查閱自然語言處理領域學術資料?

曾經寫過一篇小文,初學者如何查閱自然語言處理(NLP)領域學術資料_zibuyu_新浪部落格,也許可以供你參考。昨天實驗室一位剛進組的同學發郵件來問我如何查詢學術論文,這讓我想起自己剛讀研究生時茫然四顧的情形:看著學長們高談闊論領域動態,卻不知如何入門。經過研究生幾年的耳濡目染,現在終於能自信地知道去哪兒瞭解

NLP自然語言處理例項預測天氣冷暖

NLP:自然語言處理(Natural Language Processing)是人工智慧和語言學領域的分支學科。主要包括自然語言理解和生成,自然語言理解系統把自然語言轉化為計算機程式更易於處理的形式即讓電腦懂人類的語言。自然語言生成系統把計算機資料轉化自然語言。 處理過程:形式化描述->數