1. 程式人生 > >頂級計算機語言學大會COLING 2016,亮點迭出一一呈現

頂級計算機語言學大會COLING 2016,亮點迭出一一呈現

計算語言學國際會議(International Conference on Computational Linguistics,COLING)是計算語言學領域的頂級國際會議,由國際計算語言學學會(International Committee on Computational Linguistics,ICCL)主辦,從1965年開始,除少數情況外每兩年召開一屆。

第26屆計算語言學國際會議(COLING 2016),由日本國立研究開發法人情報通訊研究機構(National Institute of Information and Communications Technology,NICT)承辦,於2016年12月11到16日在日本大阪召開。

本屆會議吸引了世界各地超過1000人蔘加,為歷屆會議的最大規模。會議內容包括學術研討會、學術熱點教程、主旨演講、論文口頭報告、海報展示和系統演示等。這次會議共收到1127篇論文,其中錄用口頭報告論文135篇,錄用率為12.0%,錄用海報展示論文202篇,錄用率為17.9%。其中,來自中國大陸研究人員的錄用論文共有76篇,數量居於世界第一。

本文基於作者參會的親身經歷,總結此次大會中計算語言學的研究熱點話題與前沿技術。

Keynotes:闡明計算語言學的發展方向

本次大會邀請了四位計算語言學領域著名學者發表主旨演講。其中,瑞典烏普薩拉大學的Jockim Nivre教授在演講中詳細介紹了針對跨語言的普適依存關係理論(Universal Dependencies,UD)。依存關係解析是計算語言學中最基礎的任務之一,利用計算機自動解析並分析句子語義,在智慧問答等人工智慧領域有廣泛的應用。由於各種語言在語法和語義方面的表達形式各不相同,不同語言的依存關係解析的標準各異。UD通過設計一種規範對多種語言進行統一的標註,從而整合多語言依存關係的標註標準。目前,Nivre教授的UD研究成果已經在超過50種語言的語料庫上得到應用,示例見圖1。

圖片描述

圖1 普適依存解析示例

日本理化學研究所腦科學研究中心的Reiko Mazuka博士的主旨演講內容涉及嬰兒學習語言的機理研究的兩個課題,揭示之前研究得出的錯誤結論。在第一個課題中,Mazuka博士對嬰兒學習日語母音的長音和短音的不同反應,發現先前嬰兒用一個簡單的分佈模型判別長短音的假設並不正確。第二個課題涉及一個最經典的假設:成人在對嬰兒說話時,他們說話的語速比對其他成人說話時更慢。然而,Mazuka博士對大量相關資料集的研究發現,成人在對嬰兒和對成人說話時語速幾乎相同。成人對嬰兒說話時看似比較慢,是因為成人對嬰兒說話時更傾向於使用以母音結尾的句子,而在其他詞彙語速上並無差別。這些研究改變了先前人們對語言學習機理的認知。

來自美國國家醫學圖書館的Dina Demner-Fushman博士利用自然語言處理(Natural Language Processing,NLP)技術來輔助醫學診斷和治療。NLP是計算語言學、人工智慧等學科的重要研究方向之一。Demner-Fushman博士的研究團隊利用這些技術研發出諸多醫學診療輔助系統。典型的應用包括InfoBOT(見圖2),它採用NLP技術解析並理解病人的電子病歷資料,包括診斷結果、病情描述等,自動挖掘病人的病症、使用的藥物、病人的反應的等一系列醫學事實,為進一步的診療和醫學研究提供資料基礎。美國國家醫學圖書館同時也研發了一整套從自然語言中自動識別醫學概念的工具MataMap 及其輕量版軟體包MetaMapLite,它使用語句切分、詞形歸一化、詞性標註、實體識別等NLP技術,完成對整個醫療文件的醫學概念識別。

圖片描述

圖2 InfoBOT系統

此外,劍橋大學的Simone Teufel博士關注NLP技術中的論據自動生成(Computational Argumentation),即給定一個論點,計算機搜尋支援或反對這一論點的證據,利用自然語言生成技術,自動生成一段對應的論據。Teufel博士認為,生成論據的過程與給海量文字進行自動摘要生成很相似,並且介紹了劍橋大學研究人員在摘要生成方面的研究工作,對論據自動生成的研究有啟發。

學術論文揭示計算語言學的前沿技術

本次COLING會議錄用的學術論文涉及到語法語義解析、文字分類、智慧問答、機器翻譯、語言生成、資訊檢索等多個方面,精彩紛呈。在這諸多研究問題中,深度學習相關技術繼續扮演著舉足輕重的作用。以下從COLING會議錄用論文出發,介紹計算語言學最前沿的技術,特別是深度學習的理論研究進展及其應用。 在語言生成方面,一個具有高度挑戰的問題是如何自動生成詩歌。百度研究團隊發表了論文“Chinese Poetry Generation with Planning based Neural Network”。它採用兩階段詩歌生成方法,首先解析使用者輸入的內容,利用詞彙聯想方式生成每句詩歌的主題,其次,設計了變體的迴圈神經網路(Recurrent Neural Network,RNN)來生成每句詩的具體內容。該方法的整體框架如圖3所示,它可以生成句尾押韻且主題與使用者輸入一致的五言或七言古詩。目前,這一技術已經應用在百度手機客戶端“為你寫詩”模組中。

圖片描述

圖3 詩歌生成框架

微軟亞洲研究院的周明研究員團隊與多個高校合作,發表論文“Detecting Context Dependent Messages in a Conversational Environment”,其目的是提升智慧問答系統中人機對話的準確度。在人機對話中,自動挖掘提問的上下文是計算機理解問題的關鍵。在這一研究工作中,作者採用了時間遞迴神經網路Long Short Term Memory(LSTM)來預測一個問題是否依賴於上下文,例如回答“今天天氣如何”不需要使用者的上下文,而回答“你為什麼這麼認為”需要。在這一工作中,作者同時結合了LSTM學習使用者問題在神經網路下的特徵表示和傳統神經網路進行預測,如圖4所示。目前這一方法正在進一步部署,以運用到微軟的聊天機器人中去。

圖片描述

圖4 LTSM模型預測框架

在機器翻譯方向,計算語言學的研究熱點不僅包括傳統的句子級機器翻譯,還包括對結構化知識的翻譯,例如對知識庫的翻譯。哈爾濱工業大學秦兵教授的團隊發表論文“English-Chinese Knowledge Base Translation with Neural Network”,旨在將英文知識庫Freebase中的知識翻譯成中文。由於語言具有高度的歧義性,直接利用現有機器翻譯技術進行翻譯誤差較大。例如在圖5中,英文知識庫中Una White(人名)的職業為Nurse(護士),如果不給定其他上下文直接進行機器翻譯,Una White可以翻譯成尤納•白色、尤納•蛋白、尤納•懷特等,Nurse可以翻譯成護士或保姆。為了解決上述問題,在這篇論文中,作者提出了一個神經網路模型,首先分別將英文和中文詞彙對映到不同的向量空間中,然後利用上述向量學習關係元組的向量表示。這一模型可以在語義層面解決跨語言的歧義性問題。上述研究工作是自動構建大規模知識庫研究的重要進展,機器翻譯出的高準確度知識具有潛在價值,例如對網路使用者行為建模、理解使用者查詢並自動推薦等。

圖片描述

圖5 知識圖譜的機器翻譯示例

文字分類是NLP領域經典的研究問題,目的是將無結構的文字分為兩個或多個指定的類別。例如在新聞媒體行業,採用NLP技術可以自動將新聞根據主題分為政治、娛樂、經濟、軍事等多個類別,從而實現了新聞從釋出到整理歸檔的全自動操作,同時也有利於使用者的快速檢索。在本次會議上,來自百度的四位研究者提出了“Latent Topic Embedding”,即隱性主題嵌入技術。這一技術的目的是利用深度學習,將主題表示為低維密集的向量,從而對文件有更好的建模。通過對主題和文件更準確的建模,提升文件分類的準確度。在這一研究工作中,作者巧妙地結合了主題模型隱性狄利克雷分配和詞嵌入模型,利用蒙特卡洛EM模型求解模型的引數。這一演算法簡潔高效,適用於部署於大規模商用系統中。

綜上所述,在COLING 2016會議中,來自五湖四海的研究人員在計算語言學的各個研究方向都有創新性的突破,尤其是在深度學習方面。這些技術的進步不但推動了科學研究的發展,而且促進了產業界實際應用的研發,例如由百度和微軟推出的多款智慧應用產品。

系統演示展現計算語言學的實際應用

與研究論文偏重於演算法和技術的創新型不同,系統演示更加側重於將計算語言學相關係統部署於實際系統應用中。

臺灣“中研院”研究團隊著重於對語言含義的分析,從而實現機器的自動推理。在他們的工作“A Meaning-based English Math Word Problem Solver with Understanding, Reasoning and Explanation”中,綜合利用了NLP和人工智慧技術實現了數學應用題的自動解答,其流程和示例如圖5所示。給定用自然語言描述的試題,系統先採用依存關係解析方法抽取對條件的結構化描述方法,然後採用邏輯推理的技術將試題轉化為邏輯表示式,從而完成解答。

圖片描述

圖6 機器自動解題示例

在智慧問答方面,計算語言學的應用往往與其應用領域密切結合。德國海德堡大學的Lawrence 和Riezler釋出了NLmaps系統 ,如圖6所示。這一系統和基於位置的服務結合,採用OpenStreetMap地理資訊資料庫。使用者輸入任何一個自然語言描述的查詢,如“巴黎的三星級酒店有哪些”,系統識別使用者輸入的限定條件“巴黎”,查詢目標“三星級酒店”等要素,並且轉化成機器理解的查詢語言,並使用OpenStreetMap查詢結果並返回給使用者。

除了利用專業的知識庫進行智慧問答,其他研究工作與資訊檢索技術相結合,從海量網路資料自動抽取使用者所需的答案。卡達HBKU大學ALT研究團隊首先採用搜索引擎技術根據使用者查詢獲取最相關的問答網頁,抽取其內容,其次利用NLP技術計算使用者查詢與網頁問答在語義上的相似度,給使用者返回最相關的結果。目前這一系統已經成為卡達知名論壇Qatar Living的一個模組(參見圖8)。

圖片描述

圖7 NLmaps系統演示

圖片描述

圖8 Qatar Living論壇問答系統演示

由於運用很多NLP技術往往需要很強的專業背景知識,沒有NLP基礎的相關人士需要NLP方面的分析時會遇到比較大的技術瓶頸。Xerox歐洲中央研究院在論文“DISCO: A System Leveraging Semantic Search in Document Review”中介紹了DISCO系統。DISCO整合了語義搜尋、文件分類、文件聚類、相似文件發現等一系列文件挖掘技術。它使用Tangible User Interface(TUI)作為使用者介面,支援多點觸控,使得使用者不需要接觸任何專業術語,通過手指在螢幕上點選就可以將文件聚類,分析文件的關鍵詞等,從而能很容易地在海量文件中搜索所需要的資訊。圖9顯示了使用者使用該系統在文件中檢索“Java”相關資訊的介面。

圖片描述

圖9 DISCO系統演示

此外,COLING 2016會議還收錄了其他各個研究方向的系統演示,如機器翻譯、文件摘要等,以及會議贊助商研發的原型系統。例如在圖10中,日本Nanasai公司展示了Samurai(武士)機器人,可以實現人機互動,吸引眾多參會者駐足。

圖片描述

圖10 Samurai機器人

會議活動亮點迭出、精彩紛呈

除了學術報告和研討會外,COLING會議還為參會者提供了精彩豐富的社交活動,為全世界各地的研究者提供輕鬆愉快的氛圍探討學術問題,交流研究心得。本次會議會場大阪國際會議中心為參會者提供了極具日本文化特色的參會條件,會場照片見圖11。此外,為了使參會者在繁忙的學術報告之餘充分感受日本的風土人情,組織了奈良半日會議旅行,參觀日本世界文化遺產興福寺和東大寺,會議旅行照片見圖12。

圖片描述

圖11 會議現場照片

圖片描述

圖片描述

圖12 會議旅行照片

作者的參會經歷表明,COLING從會議規模、影響力和學術水平上說均不愧於世界計算語言學領域頂級會議的讚譽。此次COLING 2016會議,作為歷史上規模最大的COLING 2016給來自世界各地的參會者無與倫比的體驗,並且有力地推動計算語言學在大資料和人工智慧時代的發展。

說明:除會議照片外,其他文中圖片均出自相關作者論文。