1. 程式人生 > 資訊 >英偉達 Jarvis 1.0 工具詳解:開發速度提升 10 倍,延時不到 300 毫秒

英偉達 Jarvis 1.0 工具詳解:開發速度提升 10 倍,延時不到 300 毫秒

2 月 27 日報道,憑藉聽、讀、譯三大功能,對話式人工智慧(AI)正逐漸深入人們的生活,成為解放雙手和提高生產力的關鍵工具。

當你說話時,對話式 AI 能實時將你說的話記錄成文字,甚至可以實時翻譯成其他語言。

當你聽不懂、記不住醫生叮囑的藥物或治療方案時,接受過海量醫學文字訓練的對話式 AI,能幫你準確地記下全部醫囑。

當你因為開車等原因不方便看手機時,對話式 AI 能將螢幕上的文字讀給你聽。

它既能做穩定的速記員,也能勝任專業的翻譯官,越來越多企業採用對話式 AI 來改善工作效率與優化客戶支援。

不過,要開發出一款優質的對話式 AI,並不是一件容易的事。如果只追求最快的響應速度,難免犧牲語音識別、語言理解、語音生成的質量,而如果過於重視質量,可能會響應的不夠及時。

怎樣能快速開發出高質量的對話式 AI,滿足專業的轉錄和編譯需求?知名矽谷晶片巨頭 NVIDIA 剛剛推出了一個相當有用的工具。

一、降低實時對話式 AI 開發門檻的神器

2020 年初突然爆發的新冠肺炎疫情正刺激企業 AI 的應用,從遠端教育、遠端辦公、客戶服務到醫療健康,眾多行業加速出現對 AI 的需求。

知名市場調研機構 IDC 的資料顯示,2019 年全球對話式 AI 的支出約為 58 億美元,這一數字有望到 2023 年攀升至 138 億美元。其中,中國對話式 AI 市場規模有望從 2019 年的 5.761 億美元增至 2023 年的 18.593 億美元,年均複合增長率(CAGR)為 34.0%。

▲2019-2023 年中國對話式 AI 市場預測(來源:IDC)

什麼是對話式 AI?簡單理解,就是一種能自動理解人類語言的系統,使得人與機器的交流像人與人之間的交流那樣輕鬆、自然而高效。

想想我們的日常溝通過程,我們不會向對方發出固定的指令,而是用自然的語言進行交流。

而要讓機器更加自然、擬人化的與人類互動,需要先讓機器理解你所說的話,即時瞭解上下文和語言,判斷話的意圖和隱藏含義,並以最自然的對話方式做出迴應。

▲基於 NVIDIA Jarvis 實現的語音助手示例

在疫情刺激下,英國高效能語音識別服務供應商 Intelligent Voice 發展勢頭相當迅猛,幾個月內即推出了新產品 Myna,能連線到虛擬會議工具,自動記錄、將錄音轉換成文字併發送文字記錄。

Myna 得以快速實現的祕密武器,即是 NVIDIA 去年 5 月首次公佈的實時對話式 AI 模型工具 Jarvis。

Jarvis 是一個基於 NVIDIA GPU 提供實時效能的靈活、多模態對話式 AI 服務應用框架。

“Jarvis 採用多模態的方法,將自動語音識別的關鍵元素與實體和意圖匹配相融合,滿足需要高吞吐量和低延遲的新用例的需求。Jarvis API 不但易於使用,還能整合和自定義客戶的工作流程,實現效能優化。”Intelligent Voice 首席技術官 Nigel Cannings 說。

另一家建立阿拉伯語虛擬助手的公司 InstaDeep 同樣是 Jarvis 的早期採用者。通過 Jarvis 中的 NeMo 工具包,這家公司對阿拉伯語語音–文字模型進行微調,將單詞錯誤率降低至 7.84%。

通過早期採用者的反饋與優化,Jarvis 逐漸實現了更高的吞吐量和更低的延遲。在打磨成熟後,NVIDIA 於昨日正式推出 GPU 加速的 Jarvis 1. 0 公測版。

二、延時小於 300 毫秒,開發速度提升高達 10 倍

Jarvis 1. 0 公測版中包含用於構建和部署實時對話式 AI 應用程式的端到端工作流程,使開發者能輕鬆實現實時語音識別、轉錄、翻譯、封閉式字幕、虛擬助手和聊天機器人等功能。

它對於改善企業服務非常友好。如果從頭開始構建對話式 AI 服務,必然需要深厚的 AI 專業知識、海量資料和充足的計算資源,而由 NVIDIA GPU 加速的 Jarvis 框架使開發者無需為這些成本而煩憂。

Jarvis 的一大能力是定製解決方案。基於 NVIDIA Jarvis,企業開發者能很容易地用專有的視訊和語音資料,對最新模型進行微調,從而更深入地理解特定上下文,並對推理進行優化,從而構建針對其自身行業、產品和客戶特徵而量身定製的高質量、端到端實時對話式 AI 服務。

這些服務執行時間不到 300 毫秒,在 GPU 上的吞吐量比 CPU 高 7 倍。

▲對話式 AI 工作流程

如圖是對話式 AI 的工作流程。首先是自動語音識別(ASR),整個系統需要先輸入音訊、提取特徵,用聲學模型嘗試找出特定聲音生成相應的等效詞,從而識別語音音訊並生成對應文字;然後藉助 Jarvis,可以實現機器翻譯、搜尋、意圖識別、語言分析、問答系統等自然語言理解(NLU)服務;最後從這些服務獲得文字作為輸出,通過語音合成(TTS)技術和語音編碼模組生成像人類聲音的對應語音。

此次釋出的 Jarvis 提供有多個新型對話式 AI 預訓練模型,包括基於數千小時語音資料訓練的 ASR、NLU 和 TTS 模型,提供使用一行程式碼部署服務的端到端工作流程和工具,並支援遷移學習工具包(TLT),方便企業根據自己的具體用例和領域調整應用。

其遷移學習工具包是一個拖放介面,不需要任何先驗編碼經驗,即可採用自定義資料通過零編碼的方法,快速重新訓練模型。

開發者可以再訓練 TLT,也可以探索用於構建和訓練 GPU 加速的對話式 AI 模型的 Python 工具包 NeMo,然後用 Jarvis 整合使用最先進的 AI 語言模型進行語音識別、語音合成、語義理解的虛擬助手,未來 Jarvis 還將支援計算機視覺服務。

▲NVIDIA Jarvis 公測版

通過 Jarvis,企業可以獲得各種先進的模型、通過 TLT 遷移學習將開發速度提升高達 10 倍,以及全面優化的 GPU 加速流程,從而建立能理解每家公司獨特專業術語的實時智慧語言型應用。

其全面加速的深度學習流程經過優化,可作為可擴充套件服務執行。

即日起,NVIDIA Jarvis 和 TLT 可供 NVIDIA 開發者計劃成員免費下載。

三、對話式 AI 正改變各行業服務體驗

NVIDIA Jarvis 服務現有的三大功能分別是語音識別、語音合成、自然語言理解。

其語音識別服務有不同的模式選擇,可以使用不同取樣率,可用於語音識別的英語語音資料已經被訓練了 7000 個小時,並提供有 Jasper、Quartznet 等不同聲學模型,全流程端到端優化。

其語音合成有流模式和批處理模式,支援 22kHz 取樣率,提供 acoTron2、Waveglow 等模型和完全端到端優化的流程。

如果要識別特定領域的實體,Jarvis 的自然語言理解模型即可提供幫助,該服務提供高階 NLP API 和低階 API,能滿足命名實體識別、領域分類、分別標籤等需要。

例如,在醫療健康領域,眼科醫生進行遠端診療時,自然語言理解服務能識別醫學文字的實體,在對話過程中能檢測出哪些醫療實體,輔助終端系統為患者進行診斷。

除了醫療健康外,NVIDIA Jarvis 也正為政務、金融、消費者服務等更多行業帶來新的機遇。

企業和政府機構每天都要記錄數以千萬計的通話,但通過搜尋提取這些通話中的關鍵資訊幾乎難以實現。而通過 Jarvis 把錄音轉換成文字,就可以利用 AI 工具快速搜尋並分析這些資料。

在金融領域,以用 AI 顛覆金融分析行業而聞名的英國公司 Kensho 用 NVIDIA 對話式 AI 開發了金融和商業語音識別解決方案 Scribe,該方案據稱在財報電話和財務音訊方面的準確率比同類其他商業解決方案高出約 20%。

得益於在推薦引擎 Merlin、對話式 AI Jarvis 等關鍵框架的押注,NVIDIA 正不斷強化其資料中心業務的軟體優勢。

本週 NVIDIA 剛剛公佈的最新財報顯示,其資料中心業務在截至 2021 年 1 月 31 日的第四季度創下 19 億美元收入新紀錄,同比增長 97%,全年收入創下 67.0 億美元的紀錄,同比增長 124%。

結語:加速對話式 AI 落地普及

通過虛擬助手、實時轉錄、聊天機器人等形態,對話式 AI 正帶給企業客戶更多沉浸式的體驗。

隨著越來越多企業及消費者擁抱數字化,更多中小型機構也開始在其聯絡中心部署更具個性化的對話式 AI 功能,而開發部署的成本與複雜性,往往是制約這一趨勢的核心難題之一。

而 NVIDIA Jarvis 1. 0 公測版的推出,降低了實時對話式 AI 開發的准入門檻,有望推動未來對話式 AI 在更多行業的普及落地。