1. 程式人生 > >AAAI 2020論文分享:通過識別和翻譯互動打造更優的語音翻譯模型

AAAI 2020論文分享:通過識別和翻譯互動打造更優的語音翻譯模型

2月初,AAAI 2020在美國紐約拉開了帷幕。本屆大會百度共有28篇論文被收錄。本文將對其中的機器翻譯領域入選論文《Synchronous Speech Recognition and Speech-to-Text Translation with Interactive Decoding》進行解讀。 https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvruP97grEpmCwA5Sms2kHtrFBcDK0lRcsAuchFicRtP9iaGkOBPqHkb6upw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1 一、研究背景 語音翻譯技術是指利用計算機實現從一種語言的語音到另外一種語言的語音或文字的自動翻譯過程。該技術可以廣泛應用於會議演講、商業會談、跨境客服、出國旅遊等各個領域和場景,具有重要的研究價值和廣闊的應用前景。 近年來,隨著人工智慧技術在語音、翻譯等相關領域的蓬勃發展,語音翻譯技術逐漸成為學術界和企業界競相研究的熱點。當前的語音翻譯系統通常由語音識別、機器翻譯和語音合成等多個模組串聯組成,方法簡單,但面臨著噪聲容錯、斷句標點、時間延遲等一系列技術難題。 端到端的語音翻譯模型在理論上可以緩解級聯絡統的缺陷,它通過直接建立源語言語音到目標語言文字的對映關係,一步實現跨模態跨語言的翻譯,一旦技術成熟,理論上可以讓語音翻譯更準更快,極大地提升模型的效能。論文作者發現語音識別和語音翻譯兩個任務是相輔相成的。 https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvruPHfqQfyFIroppGLJNN75w5IXNtRWKLzqzRS3VoeoJoeibd63iaEFiaTXA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1 圖1 如圖1所示,語音識別和語音翻譯互動示例相比於直接將原始語音作為輸入,如果能夠動態獲取到識別出的文字資訊,語音翻譯將變得更加容易;而翻譯出的結果也有助於同音詞識別的消歧,使識別結果更加準確。 因此,論文作者們希望設計一種互動式的模型,讓語音識別與語音翻譯兩個任務可以動態互動學習,實現知識的共享和傳遞。 二、技術方案 針對上述問題,作者們在論文中提出了一種基於互動式解碼的同步語音識別與語音翻譯模型。 https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvruYiaB2EbwibZCnbZv6lBoSxhB1Nr3lVSKxMphHXQmtGMGdanyB9NG4icJA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1 圖2 基於互動式解碼的同步語音識別與語音翻譯 如圖2所示,論文作者使用基於自注意力機制的Transformer模型作為主框架,語音識別任務和語音翻譯解碼任務共享同一個編碼器,在解碼器中加入一個互動注意力機制層,實現兩個任務的知識互動和傳遞。 https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvruqkMSLKoqV7ABkunkKgHq79Ubdtb5udeADCZjgmw2YZwxdtDMJQPCKQ/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1 圖3 互動注意力機制層 如圖3所示,互動注意力機制層包含一個自注意力模組和一個跨任務注意力模組。其中前者用於提取當前任務輸出端的特徵表示,後者用於提取另一個任務輸出端的特徵表示,兩者通過一個線性插值函式融合得到包含兩個任務資訊的特徵表示。 在訓練階段,兩個任務同時優化;在解碼階段,兩個任務同步進行。如此,在預測下一個詞的過程中既可以用到當前任務的已生成的詞語,也可以利用到另一個任務上已生成的詞語。為了進一步提升語音翻譯的效能,論文作者採用了一種wait-k的方法,使得語音翻譯任務相比語音識別任務延遲k個詞語進行,以獲得更多更可靠的文字資訊作為輔助。 三、實驗結果 目前語音翻譯資料十分匱乏且質量不高,為此論文作者構建了一個新的語音翻譯資料集,資料來自TED網站視訊和字幕檔案,包含語音、識別文字、翻譯文字的對齊語料。這裡使用了英德、英法、英中、英日四種語言,前兩種屬於較為相似的語言對,後兩種是不相似的語言對。 語音識別和語音翻譯的結果分別使用詞錯誤率(WER)和BLEU進行衡量。論文作者與多個強基線模型進行了對比,包括由語音識別和機器翻譯模型串聯組成的級聯絡統(Pipeline),在語音識別語料上進行預訓練的端到端語音翻譯模型(E2E),語音識別和語音翻譯共享編碼器的多工模型(Multi-task),以及一個兩階段模型(Two-stage)(第一階段解碼器用於獲取識別文字的中間表示,第二階段解碼器基於編碼器的表示和第一階段解碼器的中間表示生成對應的翻譯)。 https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvrub3j3u113ub6MOzreY4ONP2hRwuvyziaa4REboCzXGIwYBibWyDLMkTEA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1 表1 不同模型在多個語言對上的實驗結果 表1給出了不同模型在英德、英法、英中、英日不同語言對上的識別和翻譯效果。可以看出在大多數情況下,基於互動式解碼的同步語言識別與語音翻譯模型的效能表現不管在語音識別任務還是語音翻譯任務上都要顯著高於預訓練的端到端模型、多工模型和兩階段模型。在相似的語言對上基於互動式解碼的模型可以超越級聯絡統,在不相似的語言對上也與級聯絡統可比。值得注意的是之前端到端的語音翻譯模型幾乎都很難達到級聯絡統的效能。 https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvrumvXEW2QwXY0N4RBR67xcTqX3HjZud1tdfvNq5fGVgicGnyRQxwMzEtg/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1 表2 wait-k對翻譯效能的影響 為了進一步提升語音翻譯的效能,論文作者讓語音翻譯任務相比語音識別任務延遲k個詞語進行,以獲得更多的文字資訊作為輔助。表2給出了在開發集和測試集上不同的延遲詞語數對於模型效能的影響。可以看出,雖然延遲詞語會輕微影響識別任務的表現,但是語音翻譯任務的效能可以得到提升。 https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvruiamx2ST7iatL3Z3PTp9DsLXW8icWbpVicialLGnMfcQRMfyVhG2WCD1bMlg/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1 表3 模型引數、訓練速度和解碼速度 論文中也對比了不同模型的引數量、訓練和解碼速率。表3給出了模型的引數量大小、每秒的訓練步數和每秒的解碼句子數。可以看出,論文中的模型較好地平衡了引數量和解碼速率,相比級聯絡統,引數量獲得的大幅降低;訓練和解碼速率顯著低於兩階段模型;雖然解碼速率略低於預訓練端到端模型和多工模型,但是論文中的方法可以實現兩個任務的同步解碼。 這篇論文也是百度翻譯團隊在端到端語音翻譯領域的持續性研究成果,相比於之前在Interspeech2019發表的《End-to-End Speech Translation with Knowledge Distillation》,此次提出的新模型進一步提升了端到端語音翻譯的效能,給學術界和企業界帶來了新的思路。 論文地址:https://arxiv.org/abs/1912.07240 至此,《Synchronous Speech Recognition and Speech-to-Text Translation with Interactive Decoding》論文的分享到此結束,我們將繼續對AAAI 2020中百度入選的其餘3篇NLP領域論文進行詳細解讀,敬請關注! 百度自然語言處理(Natural Language Processing,NLP)以『理解語言,擁有智慧,改變世界』為使命,研發自然語言處理核心技術,打造領先的技術平臺和創新產品,服務全球使用者,讓複雜的世界更