北大AI公開課第十一課--語言智慧的進展by微軟亞洲研究院周明
想做的事情很多,但是時間卻很有限。所以我們更應當在開始任何事情之前,做好足夠的計劃和準備,這樣才能在有限的時間裡做出最恰當的選擇,為自己真正值得做的事爭取出更多時間。之所以有這個感悟是因為最近太多事情要做,但是卻一團糟,所以突然發現,或許應當做一個更為嚴密的計劃!
第十一講,是來自微軟亞洲研究院首席研究員周明老師的分享,它主要是針對自然語言的一些技術、自然語言當前獲得的標誌性進展以及發展大趨勢等方面提出自己的一些看法,對於我們理解當前人工智慧大潮下智慧語言的理解具有很好的幫助,所以可以耐心地體會一下,也可以結合之前李航老師的分享進行一下理解,雖然二者都是關於自然語言處理、技術及趨勢的觀點,但是在看待的角度上還是很不一樣的。
一、課堂回顧
小冰爸爸——周明老師
周明,博士,現為微軟亞洲研究院主任研究員。主要從事機器翻譯和自然語言處理等方面的研究。在加入微軟研究院之前為清華大學電腦科學與技術系的副教授。曾經主持過多項自然科學基金、航天基金、博士後基金,並曾與日本、香港、韓國進行過多次合作。在國內和日本領導過三項商品化軟體的研發。周明老師於1999年加入微軟亞洲研究院,並主要負責自然語言研究組的工作,微軟輸入法、英庫詞典(必應詞典)、中英翻譯、微軟中國文化系列(微軟對聯、微軟字謎、微軟絕句)等重要產品和專案的研發,並對微軟Office、必應搜尋、Windows等產品中的自然語言技術做出了重要貢獻,並且周明老師也參與了小冰的研發,所以也可以說是小冰的爸爸了。
分享內容
1、自然語言技術概覽
從自然語言技術的發展取得了一些進步:
自然語言技術通過自然語言處理的過程,可以達到自動文摘、多文件摘要、單文件摘要,主要可以用於神經機器翻譯、聊天機器人、閱讀理解、創作、簡歷資訊的抽取等,還有一些可能的應用方向是寫對聯、寫詩、生成音樂等。從中可以看到,隨著智慧程度不斷提升,慢慢地會有越來越多更好玩的東西產生。
2、自然語言的一些常見應用場景
自然語言走向應用的過程中,遵循從簡單到複雜的規律,比如從翻譯-》聊天-》閱讀理解-》創作,目前比較常見的就是在翻譯中應用會比較多,而且效果也相當不錯;
神經機器翻譯:
(1)深度學習方法:主要就是編碼和解碼的過程,通過RNN+LSTM及注意力模型,輸入句子的編碼可以得到當前句子的語義表達,又因為每個句子的成分權重不一樣,所以對編碼的解碼引入注意力模型型進行解碼就知道句子的意思了。也就是說,在翻譯的時候,因為針對同一個編碼,有可能在不同的語境下表達的意思是不一樣的,這個時候就需要藉助注意力模型,找出句子的核心成分,使得解碼的句義更有針對性。其實經常使用谷歌翻譯的使用者就知道,現在翻譯的準確率比以前要好了挺多的,這也許也得益於深度學習這些神經網路方法的創新。
(2)transformer_based 翻譯:這也是一種基於編碼-解碼的方法,只不過它會直接在編碼和解碼之間建立注意力機制,獲得相關權重,減少句子、詞之間的傳播路徑,並且藉助矩陣乘法使得模型的計算並行化,優化了模型的計算效率。
(3)對偶學習:它和常見的神經網路翻譯的雙語訓練有所不同,一開始的時候只採用一種語言進行訓練,比如只用中文,然後中譯英,再英譯中,最後通過比對句子間的差距來調整神經網路的引數即可
(3)推敲網路:傳統的機器翻譯一般編碼之後只進行一次解碼,而在大多數語言使用的過程中,其實語言成型之後還需要經過多次潤色和修改,也就是有一個推敲的過程,所以推敲網路會對句子進行兩次解碼 ,第一次是解碼生成原始的句子序列,然後再經過對原始語句的推敲之後,獲得新的打磨好的語句。
(4)雙向一致性翻譯:對句子的翻譯過程,採用從右至左,從左至右,對比一致性,然後獲得新的損失函式,通過調整網路引數使得損失函式極值化即可。
(5)手語翻譯:手語的翻譯是一個交叉性的課題,因為不僅僅侷限於文字對文字,還涉及對手勢語言的識別和翻譯,所以難度上是加大了的。之前看到一篇報道中說,有兩個研究生的同學研發出了一款手語的智慧臂環,它通過在手環上安裝多個感測器,識別手語發出者的手部的力度、速度等訊號,與之前的訓練形成比對,從而識別出當前手語輸入的內容。這個手臂環的應用,可以實時把手語翻譯成語音,而語音又可以合成文字顯示在手臂環的螢幕上,這樣就達到了手語翻譯的效果。從這一點上,一個有心做產品的人,也應當是一個充滿慈悲心的人,因為善良,我們會想著那些折了翅膀的天使,想著那些仍然生活在黑暗中的人,如此我們的設計的產品可能會多出一份溫暖和愛意。
聊天機器人:
聊天機器人主要有兩種模式,第一種是基於檢索的方式,這種方式下會有一個龐大的庫存語對,經過分類,用於對話發生時的檢索。
第二種方式是端到端的,直接進行編碼和解碼,它需要的先驗知識是對話的主題以及背景的知識庫。
類似地還有新聞生成、智慧音箱、客服等,如敦煌公眾號客服系統。從這一個維度上,細心觀察的話,我們就會發現類似於淘寶、一些公眾號都採用了只能的客服,就是根據過往客服常見問題,整理好了相應的語對,並在檢測到這個問題的提問關鍵詞時,給出這個問題的答案,可以節省大量的人工。
閱讀理解:
閱讀理解主要是給出文章和問題,然後基本的演算法過程是先做 word-embeding ,然後進行編碼,解碼,最後鎖定問題答案所謂的邊界,最後給出答案。在這個過程中,其實和人的思考方式是基本相同的。還記得當年英語老師也是告訴我們,你們首先要讀懂題目問的問題是什麼,然後帶著問題回去讀文章,讀文章的過程中鎖定答案的區域,最後根據題意給出答案。
詩歌創作:
當機器語言的智慧到達一定程度之後,就可以按照人類輸入的規律和主題等,進行詩歌、對聯、音樂的創作,雖然目前看來,創作的水平還比較拙劣,甚至會讓人覺得有點可笑,但是這就像一個牙牙學語的孩子,假以時日,一定會慢慢地進步,不敢保證高超的審美藝術水平,但是對仗工整、符合押韻等創作規律是一定可以達到的。
3、nlp技術的5-10的趨勢
(1)口語機器翻譯完全普及:這個應用會植入我們的手機中,進行口語的實時接收和翻譯。到那時候,我們做很多事的語言障礙就會被克服,直觀的想象就是,你可以自由地環遊世界,假如你有錢,你還有時間,你還不怕累,儘管去;
(2)自然語言對話(聊天、問答、對話)達到實用。各種智慧助理,辦公、家庭服務、教育、導購等;
(3)智慧客服+人工客服:大大提高諮詢及售後的客服效率;
(4)自動寫詩、新聞、小說、流行歌曲等會開始流行起來;
(5)推動語音助手、物聯網、智慧硬體、智慧家居的普及;
(6)與其它一些智慧語音技術如視覺、視訊等結合,在金融、經濟、法律、服務等行業發揮更大作用
簡言之,如果人工智慧是這個時代的王者,那麼自然語言就是這頂王冠上的一顆明珠,因為一切都以自然語言的理解和表達為大前提。
7、對話
(1)Google IO,自然語言處理真的實用了嗎?
目前一些單輪對話的使用已經初見成效,而一些多輪對話的研究也在加緊中,無論是何種技術,都還存在比較大的提升空間。周老師也分享了一個觀點,之前很多老師也分享過,就是說,在研發產品的過程中,尤其是人工智慧類的產品,過於追求完美才上線是不合理的,因為人工智慧是一個尚未成熟的概念,一方面產品的研發沒有標準的規範和考量,另一方面,人工智慧產品的研發需要更多樣化、合理化、可落地的需求,這些需求無法停留在學術或是產品研發的空想,它們最直接也最靠譜的來源是使用者。所以,不用等到完美,達到可用,能幫助使用者解決一些問題即可先推出,獲取更多使用者反饋和評論之後結合新技術再進行迭代即可;
(2)視訊理解(視訊+nlp)
image captioing:圖片理解,輸入一張圖片,自動輸出演算法對圖片的描述,涉及到影象處理及自然語言處理,越來越受到關注;
vedio captioning:對視訊進行理解和描述,可實現拍照片、寫遊記、自動配音樂等一體化的服務;
視訊自動生成:視訊檢索、廣告、過濾(一些黃色資訊、違、侵權等)
在這一種應用上,其實最主要的問題還是說,圖片描述、視訊描述的訓練資料太少,有的都是一些國外的小規模的資料集,可獲得的訓練資料太少,所以演算法的準確率距離落地還有較大差距,而一旦,資料集的問題解決了之後,其實可落地的應用就會在短時間內被實現。
(3)方言語音庫太少
可以嘗試自己建庫,每種方言建一個語料庫,但其實小團隊或者是個人做這樣的事基本沒有什麼意義,效率會很低很低,真的很低。
(4)智慧機器和智慧機器之間的對話交流?
所有的機器智慧都是人工賦予的,所以如果有交流,也是在人類定義的空間內可控,如果有一天,機器實現了自動程式設計,而不再完全依靠於人類的程式輸入,可能就會生成機器智慧。這個問題很有意思,其實和機器是否會毀滅人類有異曲同工之妙。
後話:
對於每一款新產品或者是新功能的研發而言,使用者-場景-需求都是很重要的,而人工智慧作為時代的弄潮兒,在這三者上都有無限的可能。它可以為任何人、在許多場景下、滿足使用者的多種需求,所以靈活性比傳統的網際網路還要高許多,也是因為這樣,人工智慧產品的研發才需要更多大膽的創想,所以我們在思考產品的時候,思維應當更發散,更天馬星空,有的時候你覺得暫時不能實現好像也沒關係,因為在不斷地思考中,你會越來越清楚,將來我們會遇到一個什麼樣的世界,我們的使用者會需要什麼?又有哪些更新奇的場景,這些都是在不斷地思考和實踐中慢慢獲得的認識。
最後送自己一句話:無論是決定還是知識,都是自己的,除了自己,沒有人能給你!!!