1. 程式人生 > 資訊 >位元組跳動研發“並行翻譯”技術,可將翻譯速度提升數十倍

位元組跳動研發“並行翻譯”技術,可將翻譯速度提升數十倍

7 月 16 日訊息,在 WMT2021 國際機器翻譯大賽上,位元組跳動火山翻譯團隊以“並行翻譯”系統參賽,獲得德語到英語方向機器翻譯比賽自動評估第一名。“並行翻譯”在國際大賽首次亮相,就成功擊敗了從左向右逐詞翻譯的“自迴歸模型”技術,打破後者在機器翻譯領域的絕對統治地位。

據悉,WMT2021 是由國際計算語言學協會 ACL 舉辦的世界頂級機器翻譯比賽,德英語向是該賽事競爭最激烈的大語種專案之一。

火山翻譯團隊負責人介紹說,“自迴歸模型”更接近人類閱讀習慣,逐詞按順序生成翻譯,每一個輸出的詞都依賴於之前的詞,當輸出文字較長或者模型比較複雜時,機器翻譯的速度很慢;“並行翻譯”則是由機器同步輸出所有的詞

,可以充分利用平行計算,將翻譯速度提高數十倍。句子越長,速度提升越明顯。

“並行翻譯”的技術難點是如何組成連貫語句。對此,火山翻譯團隊採用了一項創新的漸進學習方式,由簡單到複雜、由片段到整句訓練“並行翻譯”模型。在保持極高翻譯速度的同時,“並行翻譯”的質量顯著提升。

火山翻譯團隊負責人坦言,在訓練資料量小的場景下,“並行翻譯”的質量相比傳統技術處於劣勢。但是當訓練資料規模變大後,“並行翻譯”會逐漸縮小差距,甚至反超傳統技術。目前“並行翻譯”技術已應用在火山翻譯產品中,用以支援位元組跳動的部分業務

在去年的 WMT2020 比賽中,火山翻譯獲得中英、德英、德法等 5 個語向翻譯冠軍,今年以全新技術奪魁更是一次重要的突破。據介紹,火山翻譯已支援 50 多個語種、近 3000 個語向的翻譯,不僅應用在飛書、今日頭條等位元組跳動旗下產品,也通過火山引擎向企業客戶提供技術服務。