1. 程式人生 > 資訊 >自然語言理解新突破:科學家讓 AI 不止看懂“字面意思”

自然語言理解新突破:科學家讓 AI 不止看懂“字面意思”

據外媒報道,近日,倫斯勒理工學院的兩位科學家撰寫了一本名為《人工智慧時代語言學(Linguistics for the Age of AI)》的書。

該書探討了目前的人工智慧學習方法在自然語言理解 (natural language understanding,NLU) 中的瓶頸,並嘗試探索未來發展智慧代理(intelligent agents)的途徑。

《人工智慧時代語言學》的作者 Marjorie McShane 和 Sergei Nirenburg 發現了一種突破人工智慧學習語言瓶頸的新方法,並稱為“語言賦能智慧體(Language endowed intelligent agents,LEIA)”。該方法能在減少訓練模型資料量的情況下,進一步提升人工智慧理解人類語言的準確性。

他們認為,人工智慧系統必須超越對詞語字面意思理解的範疇。他們在書中用案例顯示了,自然語言理解系統能夠幫助人工智慧理解世界、向人類解釋他們的知識並在探索世界的過程中學習。

▲ 《人工智慧時代語言學》

一、AI 學語言的兩種方法:被動告知 or 主動學習?

例如一個歧義語句的案例:“開刀的是她父親”。這句話有兩種理解方式,她的父親是醫生去操作開刀手術,或者她的父親是被醫生開刀的患者。

有些語句單獨看充滿了歧義,但人類能夠通過語境來解決這些歧義。我們通過說話者的語氣、語境和對話的一般邏輯以及生活基本常識的線索來構建上下文。當我們的直覺和知識未能幫助我們理解句子的時候,我們會提出疑問。對我們(人類)來說,確定上下文的過程是很容易的。但是讓計算機用程式思維來理解相同的過程並不簡單。

科學家提出了兩種方式來嘗試解決這個問題。

第一種方式是科學家在人工智慧發展的初期使用的。科學家通過知識庫(Knowledge-based)系統來確定句子中的每一個單詞的作用,並提取上下文的含義。但知識庫系統依賴大量的關於語言、情境和世界的特徵(features)。這些資訊可能有著各自的來源,並且(在計算機中)需要獨立的計算方式。

知識庫提供了可靠(reliable)和可解釋(explainable)的語言分析方法。但後來它們逐漸“失寵”了,因為它們需要太多的人力來設計特徵、建立詞彙結構(lexical structures)和本體(ontologies),以及開發將所有這些部分結合在一起的軟體系統。研究人員認為知識工程(knowledge engineering)的瓶頸是手動工作(manual effort,大量的人工操作且不能窮舉所有結果),他們嘗試尋求其他方法來進行語言處理(language processing)。

“公眾認為任何試圖克服這種所謂的知識瓶頸的努力都是徒勞的,這深刻影響了人工智慧的發展道路,特別是自然語言處理,使該領域遠離了理性主義、基於知識的方法,並促成了經驗主義的出現。”McShane 和 Nirenburg 在《人工智慧時代的語言學》中寫道。

近幾十年來,機器學習演算法(machine learning algorithms)已經成為神經語言程式學(Neuro-Linguistic Programming,NLP)和自然語言理解(Natural Language Understanding,NLU)的核心。

部分科學家逐漸開始使用第二種方式,利用知識學習系統(knowledge-lean systems)來訓練機器學習模型,使人工智慧通過統計關係來處理語境問題。在訓練過程中,機器學習模型需要處理大量的文字資料,並根據單詞與單詞相鄰位置的方式來調整其引數。在這些模型中,語境是由單詞序列之間的統計關係決定的,而不是單詞背後的含義。不過,資料集越大,例子越多樣化,這些數字引數就越能捕捉到單詞彼此之間的各種出現方式(能夠記錄單詞與單詞的排列引數)。

知識學習系統之所以得到普及,主要是因為大量的計算資源和大型資料集可以被用來訓練機器學習系統。通過維基百科等公共資料庫,科學家們已經能夠收集龐大的資料集,並針對翻譯、文字生成和問答等各種任務,設定機器學習的專項訓練。

二、機器記錄了資料並不意味“理解”了資料

今天,我們的深度學習模型可以生成文章長度的文字序列,回答科學考試問題,編寫軟體原始碼以及回答基本的客戶服務查詢。這些領域之所以能取得進展,是因為深度學習架構(LSTMs,Transformers)得到了改進。更重要的是,神經網路研究每年都有新的進展。

但是,雖然更大的深度神經網路可以在特定任務上逐步取得進展,但它們並不能解決“通用自然語言理解(general natural language understanding)”這一更寬泛的問題。這就是為什麼各種實驗表明,即使是最複雜的語言模型也無法回答有關世界是如何運作的簡單問題。

在 McShane 和 Nirenburg 的書中,他們把目前人工智慧系統解決的問題描述為“唾手可得的水果(low-hanging fruit)”任務。一些科學家認為,繼續沿著神經網路的道路前進,最終會解決機器學習正面的語言學問題。但 McShane 和 Nirenburg 認為,還有更根本的問題需要解決。

“當前的系統不像人類,它們不知道自己在做什麼以及為什麼這樣做。它們解決問題的方法也不像人類,而且它們不依賴於世界、語言或機構的互動。”他們寫道,“相反,它們在很大程度上依賴於將通用機器學習演算法應用於越來越大的資料集,並得到現代計算機驚人的速度和儲存容量的支援。”

▲ 人工智慧

三、真正瞭解學習意義的 AI 才真“智慧”

身為認知科學家和計算語言學家的 McShane 表示,機器學習必須克服幾個障礙,其中首先是意義的缺失(真正讓計算機瞭解學習的意義,而不是單純的背答案)。

“統計/機器學習(The statistical/machine learning,S-ML)方法並不試圖計算意義(compute meaning)(目前的計算機學習僅能進行資料處理,並不能真正理解資料的含義)。”McShane 說。“從業者(部分研究人員)認為單詞(在句子中)足夠代表它的含義,但事實並非如此。當涉及到完整的上下文意義時,一個句子中的單詞(意思)只是冰山一角。對人工智慧來說,混淆詞語的含義就像把船開向冰山一樣令人擔憂(人工智慧在不能完全正確理解語言指令含義的時候,會導致後續的一系列錯誤)。”

在大多數情況下,機器學習系統通過縮小任務範圍或擴大資料集來回避處理詞義的問題。但是,即使一個大型的神經網路能夠“創作”一段長文字並保持語義的連貫性,它仍然不能理解它所“寫”的詞句的含義。

“人們可以搭建一個看起來十分“智慧”的系統,但實際上它們(人工智慧)並不知道發生了什麼(例如,GPT-3)。”McShane 說。

▲ GPT-3

所有基於深度學習的語言模型,只要你問它們一系列瑣碎但相關的問題,它們就會開始崩潰,因為它們的引數無法捕捉日常生活中無限的複雜性。在這個問題上投入更多的資料並不能讓它們變得更加“智慧”。

四、賦能 AI 突破語言學習的瓶頸

在他們的書中,McShane 和 Nirenburg 提出了一種不需要求助於純機器學習(純機器學習需要大量資料),而且解決了自然語言理解的“知識瓶頸”的方法,它被稱為“語言賦能智慧體(LEIA)”。它有三個關鍵特徵:

1.LEIAs 能夠理解敏感語境下的語言含義,不至於造成歧義。

2.LEIAs 可以向人類解釋它們(AI)的思想、行動和決策

3.LEIAs 能夠在與“世界”互動中終身自主學習,減少人類對其擴充套件知識庫的需求。

LEIAs 對自然語言進行了六個階段的處理,從確定單詞在句子中的作用,到語義分析,最後到情景推理。這些階段使得 LEIA 能夠解決單詞和短語不同含義之間的衝突,並將句子整合到主體工作的更廣泛的環境中(將句子的表達方式調整的更像人類的語言)。

LEIA 為它們的語言表達設定了信心水平,並知道它們的技能(語言技巧)和知識在哪裡達到了它們的極限。在遇到理解力的極限的情況下,它們能與人類 (或其他高等智慧) 進行互動以解決語言歧義的問題。這些互動反過來使它們能夠學習新事物,擴大它們的知識儲備。

LEIA 將句子轉化為文字意義表述(text-meaning representations,TMR),即句子中每個詞的可解釋和可操作的定義。根據其(語句)背景和目標,LEIA 決定哪些語言需要跟進處理。例如,如果一個維修機器人與幾個人類技術人員處在同一個機器維修的車間,而人類在討論昨天的體育比賽結果,那麼人工智慧應該能夠區分與它的工作(機器維修)相關的句子和它可以忽略的句子(體育)。

LEIAs 主要使用 knowledge-based systems,但它們也在處理語言的過程中使用了機器學習模型,特別是在語言處理句子解析的初始階段。

五、AI 真的需要模擬人類大腦思維嗎?

LEIA 的主要特點之一是整合了知識庫(knowledge bases)、推理模組(reasoning modules)和感覺輸入(sensory input)。目前,計算機視覺(computer vision)和自然語言處理等領域的重疊很少。

正如 McShane 和 Nirenburg 在他們的書中所指出的,“語言理解不能脫離整體認知(overall agent cognition),因為語言理解有時也需要其他感知模式(如視覺)的輔助。

在現實世界中,人類利用豐富的感官體驗來填補語言表達的空白(例如,當有人告訴您“看那邊?”時,他們假設您可以看到他們的手指指向的位置,並補充資訊)。人類對話的思維邏輯能做出假設並省略語言中的細節。我們希望與我們互動的智慧代理(intelligent agent)都具有類似的功能。

“我們完全理解為什麼單獨處理的方式(silo approaches)是現在的常態,畢竟解決每一個問題都很困難,而且每個問題都需要單獨進行研究,”McShane 說。“然而,如果不進行整合,問題是無法從根源解決的(人工智慧語言學習的發展應該整合多個模式)。”

同時,實現類似人類的思考邏輯並不要求 LEIA 完全複製人類大腦。McShane 說:“至少在這個發展階段,神經科學(neuroscience)不能為我們的認知建模(cognitive modeling)提供任何語法上和內容上的幫助。”McShane 和 Nirenburg 認為,複製大腦並不能為人工智慧解釋目標(語句)所服務。

▲ 人工智慧 2

結語:讓 AI 像人一樣使用語言仍需時間

McShane 和 Nirenburg 提出了 LEIA 作為新的人工智慧學習方法,這不僅減少了訓練所需的資料量,而且解決了自然語言理解存在的“知識瓶頸”問題。

同時,他們也承認開發 LEIA 是一個持續的、長期的、範圍廣泛的工作計劃,有很多工作需要做。而最終的目標就是“使機器能夠像人類一樣熟練地使用語言”。