1. 程式人生 > >阿裏雲發布黑科技:面對海量的文本翻譯任務,阿裏翻譯團隊是如何解決的

阿裏雲發布黑科技:面對海量的文本翻譯任務,阿裏翻譯團隊是如何解決的

圖像 發現 inf 情況 人工智 使用 局限 吞吐量 但是

摘要: 對國際化企業來說語言問題是亟待突破的重要關口。面對海量的文本翻譯任務,昂貴低效的人工翻譯顯然不能滿足需求,利用計算機自動進行文本翻譯的機器翻譯才是解決這個問題的關鍵。阿裏翻譯團隊在機器翻譯領域做了大量技術儲備,並針對我們所處的電子商務領域進行算法優化,進而打造阿裏巴巴自己的機器翻譯平臺。

對國際化企業來說語言問題是亟待突破的重要關口。面對海量的文本翻譯任務,昂貴低效的人工翻譯顯然不能滿足需求,利用計算機自動進行文本翻譯的機器翻譯才是解決這個問題的關鍵。阿裏翻譯團隊在機器翻譯領域做了大量技術儲備,並針對我們所處的電子商務領域進行算法優化,進而打造阿裏巴巴自己的機器翻譯平臺。

目前阿裏翻譯API已經正式上線阿裏雲平臺,讓所有的阿裏雲用戶可以申請使用阿裏翻譯的最新技術成果啦,今天就讓我們一起進入機翻黑科技時間-解密阿裏翻譯。

1、阿裏翻譯支持的業務場景

阿裏翻譯積極助力集團國際化、全球化業務,不僅在電商業務場景有著紮實的積累和優質的服務能力,同時也在不斷拓展創新業務場景,借助AI技術賦能產品和服務。
目前已為集團內十幾條業務線提供機器翻譯和本地化支持,覆蓋了Alibaba.com 、 AliExpress 、 Lazada 、釘釘、阿裏雲、優酷、支付寶、菜鳥、天貓精靈、高德、飛豬等眾多產品。
技術分享圖片

1.1跨境電商解決方案

阿裏機器翻譯深入剖析“網站/APP本地化”、“引流拉新”、“到站搜索”、“用戶轉化”、“支付物流”、“留存復購”等全鏈路環節,提供多類的翻譯和語言服務,積極提升業務價值。
技術分享圖片

以下是部分鏈路環節介紹:
1.1.1搜索翻譯

跨境電商中目前搜索引擎主要基於英文做索引,需要將本地用戶輸入的搜索詞進行語種識別然後再翻譯成英文,通過英文進行索引匹配,返回搜索結果,這是保障多語言流量轉化率的關鍵環節,直接影響多語言電商GMV。
除跨語言搜索翻譯外,目前阿裏翻譯在搜索自動化上支持完整的人工解決方案,能夠針對電商平臺高流量top search query快速提供人工語種識別&翻譯結果,幹預生效,同時挖掘搜索業務低轉化的badcase search query並快速人工修正翻譯結果的能力,快速提升轉化指標。

技術分享圖片

1.1.2商品翻譯

跨境電商中需要對全站商品信息進行多語言化,包括商品標題、商品詳情、商品評論等內容進行翻譯。其中商品標題是用戶獲取商品信息的重要途徑,在商品標題翻譯場景上,通過對源語言是中文或者英文的標題進行NER識別,並根據不同業務方的業務規則對識別後的標題根據成分進行重新改寫生成,改寫後再翻譯成目標語種。對商品的購買轉換率有非常重要的影響。

商品詳情是用戶閱讀商品信息的主要內容,包括商品屬性、商品描述等信息,商品屬性是商品的關鍵信息,機器翻譯系統會通過翻譯記憶將關鍵信息進行高質量存儲提高翻譯準確率,這部分內容能夠幫助用戶更好的了解商品各種規格材質,有效幫助用戶進行購買決策。

由於網站買家來自全球各地,所以用戶對商品的評價信息也是來自多國多語言,網站提供選項將多語言評論信息勾選統一翻譯成英文的功能,幫助買家更好了解其他買家對商品的評價反饋信息。

技術分享圖片

技術分享圖片

1.1.3溝通翻譯:
網站買賣家都是來自世界各地,所以對商品的基本信息,售前咨詢,售後服務都需要進行基本的語言溝通,這是翻譯最基本的應用場景,通過提供實時機器翻譯同時能夠對翻譯結果進行後編輯,提升翻譯後譯文的質量。可以幫助電商網站大大提升購買轉化和售後投訴等等問題。
技術分享圖片

1.2網站國際化解決方案

阿裏翻譯目前服務集團內數十個業務方的產品國際化及本地化需求,支持數十種語言的人工精翻,實現網站本地化的標準化、自動化、中臺化。

技術分享圖片

1.3 人機結合翻譯解決方案
目前現有機器翻譯質量還不完美的前提下,對於一些對質量要求極高的內容通過適當加入人工翻譯的力量可以快速達成業務目標,目前阿裏翻譯擁有上百家語言供應商和數十萬個人譯者的龐大翻譯資源,可以針對重點商品進行高效快速的低成本人工翻譯,對快速啟動新業務起到了不可或缺的作用。

技術分享圖片

1.4創新服務場景解決方案

阿裏翻譯沈澱了優質的跨境語料數據庫,充分利用先進的機器翻譯算法技術和海量的數據資源,深度打磨機器翻譯質量和產品體驗,並積極拓展機器翻譯業務的產品形態,將各項機器翻譯技術產品化,如語音翻譯、會場同傳、實時溝通等新產品和服務形態。
阿裏巴巴實時語音翻譯,於18年初隨阿裏AI軍團一同出征美國CES(國際消費電子展),在拉斯×××精彩亮相,成功吸引了國內外眾多媒體和觀眾的目光。

技術分享圖片

2、阿裏機器翻譯技術體系的特點

在線上快速發展以及隨著集團開始全面國際化的背景下,阿裏機器翻譯平臺經過多年的打磨逐漸形成自己的體系。

2.1高性能高並發服務能力

當前在線機器翻譯系統提供SMT和NMT兩種翻譯模型,近兩年來由於硬件計算能力的大幅提升和深度機器學習的廣泛使用,在翻譯質量上NMT翻譯質量已經遠超傳統的SMT模型,不過NMT在計算上的復雜使得NMT在速度上也遠慢於SMT。NMT解碼速度的提升是系統提供高吞吐,低延遲服務的關鍵。

2.1.1 分布式並行翻譯

當前機翻平臺承接的業務相當大的一部分翻譯需求為大本文和網頁,將這些請求按照對應的格式進行結構化的解析,然後通過分句模型把篇章級的請求分隔為句子級別,然後再分布式批量調用解碼服務,這樣不僅能大幅提高分布式緩存的命中率,環節性能壓力同時也能大幅降低長文本的翻譯延遲。

2.1.2 Inference優化

今年NMT已經成了翻譯行業的一個標配,隨著這種技術的普及也給系統性能帶來了新的挑戰。這一年多基於GPU的NMT優化極大的提高了系統的解碼速度,對系統的解碼速度有數倍的提升。

2.1.3 SMT和NMT混合解碼

根據實際業務場景,我們發現在處理商品頁的時候會出現大量短句,而且這些短句的NMT翻譯結果還不如SMT的翻譯結果,所以在調用decoder前通過一個策略模塊來決策調用SMT或者NMT,從而減少NMT的吞吐量,極大的減少了GPU資源的消耗同時也提升了翻譯質量。

2.2 服務全球化以及高可用的保障

2.2.1 全球多機房部署

阿裏集團的涉及到的多語言翻譯業務需求遍布全球,為了更好的支持不同地域的翻譯需求同時能盡量減小由於地域帶來的訪問延遲,翻譯平臺實現了全球中國、俄羅斯、美國、新加坡多機房部署。 不僅實現了單地域的多機房容災同時還支持跨地域全球容災。

2.2.2 多場景差異化支持

阿裏翻譯接入的場景比較多情況也比較復雜,不同的應用場景對系統的要求也不盡相同,所以針對不同的應用場景實現了同步和異步兩套處理機制,架構上實現兩種不同的對外接口,但是機翻引擎保持同一套代碼同一套服務,

同步:
接收到請求後實時的調用後端引擎,能夠做到實時返回,用於對rt要求高的場景,另外通過多級緩存進一步的提高吞吐量和降低rt。

異步:
大文本商品翻譯和離線翻譯場景。通過metaq消息隊列實現異步化,通過不同的消息隊列來對應用設置不同的優先級,使用信號量來控制不同隊列消費的線程數,動態的解決翻譯熱點時消息堆積問題。

2.3 Transformer 新型神經網絡結構

阿裏機器翻譯基於業界最新的Transformer結構進行了網絡結構的改進和對詞語位置信息的充分利用,全面改進了機器翻譯的性能。

技術分享圖片

2.4 多模態服務能力

現階段的機器翻譯已不僅僅局限於文字到文字的翻譯, 多模態的翻譯已成為發展趨勢。將多模態的信息如語音、圖像、類目等通過神經網絡進行融合,並利用Attention機制將信息加以聚焦,可以獲得良好的效果。阿裏翻譯實時語音翻譯demo在雲棲大會、CES展會上都有亮眼的表現。

3、阿裏雲機器翻譯API接入流程

介紹了技術能力和如此廣闊的應用場景,接下來詳細介紹下我們到底應該如何接入使用?

1、打開阿裏雲主頁(https://www.aliyun.com),在導航欄選擇產品-人工智能-機器翻譯,進入自然語言處理頁面選擇開通服務

技術分享圖片

2、勾選閱讀並同意協議,單擊立即開通
技術分享圖片

3、進入自然語言處理控制臺,選擇購買資源包

技術分享圖片

4、購買對應的資源包,購買量越大單價越便宜。

技術分享圖片

5、購買完成後就可以進行調用了。可在API調試界面進行調試
技術分享圖片

6、機器翻譯調用說明文檔
技術分享圖片

7、代碼調用示例
技術分享圖片

8、代碼調用失敗示例,查看錯誤信息
技術分享圖片

4、未來展望
為了更好地迎接國際化帶來的挑戰, 阿裏翻譯團隊在未來還有著很大的想象空間,在翻譯模型上會向“統一化,多任務化,多模態化”方向發展,產品形態上除了目前基於文本的翻譯外,會擴展跟多模態的翻譯產品,例如語音翻譯、圖像翻譯等領域,同時還是針對具體應用場景例如搜索、實時溝通、旅遊推出相關接口服務,在服務部署上也會針對客戶需求推出定制化私有化部署的能力,助力企業解決國際化過程中的語言問題。

原文鏈接
本文為雲棲社區原創內容,未經允許不得轉載。

阿裏雲發布黑科技:面對海量的文本翻譯任務,阿裏翻譯團隊是如何解決的