1. 程式人生 > >搜狗AI事業部張博:不只翻譯機,半年內將推數款智慧硬體產品

搜狗AI事業部張博:不只翻譯機,半年內將推數款智慧硬體產品

作者 | Just

毫無疑問,搜狗的大部分 AI 技術已嵌入到搜尋和輸入法這兩大“拳頭”產品 。

語音技術最大的一個落地產品當屬搜狗輸入法,它集成了搜狗的語音輸入功能、語音翻譯功能。而在搜尋上,主打搜尋直達功能背後的智慧匹配技術可以讓在使用者提出問題後在首條就可直接給出最為匹配的答案,而不再單純給出多種結果。

除了在雙引擎上落地 AI 技術,他們現在發力 B 端政企領域,打造相應的 AI 解決方案,比如他們已為一些行業提供了定製的輸入法以及智慧客服產品。

當然,與其他諸多網際網路巨頭一樣,搜狗也開始發力 AI 硬體。比如搜狗的翻譯機,其中結合了語音識別功能、拍照翻譯功能。翻譯機只是個開始,搜狗 AI 事業部總經理張博告訴 AI科技大本營,搜狗接下來會推出幾款不同的智慧硬體,這些智慧硬體都是搜狗 AI 技術的大整合、大載體,並且也會著力在 AI 硬體上做一些拓展,爭取讓硬體成為搜狗接下來收入的一個重要來源。

9 月初,在浪潮集團承辦的 2018 人工智慧計算大會(AICC )上,張博接受了 AI科技大本營的採訪,講述了搜狗在翻譯機等 AI 硬體上的技術、產品認知和發展戰略,以下為對話內容:

翻譯機是做 AI 硬體的起點

提問:無論是翻譯機還是會務翻譯系統的離線翻譯效果都不太好,與線上翻譯相比存在著一些技術挑戰主要是有哪些?

張博:離線翻譯確實不好做,它在沒有網路的情況下,不能呼叫雲端的 API 推理介面,只能在終端實現所有計算。

我們知道,翻譯機使用的其實是跟手機類似的 SoC 晶片,而在手機端上要實現一套完整的語音識別、語音合成、機器翻譯和 OCR 這套流程,計算量是非常大的,這種情況下效果一定是比線上要差,因為資料、演算法都會有一些裁減,包括本身的算力也會低一些。

有了專用 AI 晶片後,離線的翻譯技術是不是更好?其實不是這樣的,目前國內外主流的 AI 晶片公司第一步做的是與影象相關的 AI 加速,但沒有去做跟語音和 NLP 相關的加速。語音這塊其實是有一些坑的,比如所有 AI 晶片廠商目前都久攻不下 CNN。

那離線情況下怎樣實現更好的結果?比如一代搜狗翻譯機的手段是專注於旅行這個場景,其實就是我們把資料裁減成(與旅行相關的)資料集,就可以得到比較好的結果。

接下來其實就是拼演算法能力,相當於在更小的空間複雜度和時間複雜度裡去做更好的效果,這就看演算法工程師的能力了,我們也可以做產學研的道路,跟學校做聯合研發和攻關把這件事做好。

提問:現在做翻譯機的企業都強調說自己的神經網路翻譯技術多麼好,支援的語音翻譯種類是最多、準確率最好。但這套說辭太泛了,關於具體實現條件和使用環境都好像沒有一個比較統一的標準?

張博:這個問題問的很專業。目前大部分人工智慧技術都沒有一個標準的評測規範和手段,可能像人臉檢測這種安防領域公安部做了一些標準,比如在一個什麼樣的條件下,輸入多少張圖片,這些圖片中有多少男、女,多少戴眼鏡。但以語音技術為核心的領域,目前國內沒有什麼權威的評測的機構。這個問題正在得到一步一步解決,中國人工智慧產業發展聯盟也在推動這種標準的建立,標準的建立有利於整個行業發展。  

提問:現在翻譯機功能有離線翻譯還有拍照翻譯,甚至嵌入了語音助手等功能,對這款硬體產品來說,以後的發展走向是更多功能集於一身,還是說根據細分應用場景做出適當的硬體產品?

張博:這跟整個社會、整個使用者的使用習慣有關係,我們知道移動網際網路之所以能打敗 PC 網際網路,跟智慧手機的普及有很大關係。在智慧手機普及之前,大家也沒有意識到手機竟然成了我們人生最關鍵的一部分。現在其實就已經有這樣的爭論,我們已經有手機了,為什麼還要再去做一個翻譯機。有翻譯機了為什麼還要加語音互動,你就會發現越做越大,越做越亂。

退一步想,如果拿一個翻譯硬體來解決所有互動方式是不是最合理的?我覺得不一定,所以搜狗也在致力於解決這個問題,接下來會推出一系列新的爆款的智慧硬體,很有可能就能解決互動的方便性,以及解決到底是再來一個翻譯機還是再來一個手機的問題,結果就是可能不同的場景有不同的硬體。

提問:一代翻譯機和翻譯筆銷量大概是多少?有道翻譯蛋說賣了 10 萬個。

張博:差不多也是這個數量,因為這個市場其實目前處於一個早期市場,大家的宣傳還沒有完全開啟。

比智慧音箱體驗要好的智慧硬體?

提問:剛剛您提到我們會做其他一些智慧硬體,為什麼在其他網際網路企業推出智慧音箱後搜狗到現在都沒入坑?

張博:搜狗在某些方面有特立獨行的點,我們既然要發展智慧硬體,肯定會做一些比智慧音箱體驗還要好的產品,因為智慧音箱從根源上來講畢竟還是跟風因素更多一些,大家可能看那個智慧音箱很火,目前國內不說幾十家也有上百家智慧音箱產品了。但現在智慧音箱的發展情況大家看起來不是那麼樂觀,太亂了。

提問:我們認為的不樂觀具體指的是什麼?

張博:主要是這個產品感覺上用起來其實不一定那麼自然、那麼爽,它的使用場景有侷限。因為畢竟這裡面涉及到遠場互動、方言這些東西並不一定能得到很好的解決,包括個人隱私也都存在一些問題。

提問:可以介紹一下新的智慧硬體?

張博:這個不方便透露,但肯定是跟搜狗核心語音相關,其次它會大幅提升互動的方便性和自然性,翻譯機提升的不夠大,還可以更大。

提問:大概什麼時候會發布?

張博:不超過半年時間。 ---------------------  作者:AI科技大本營  來源:CSDN  原文:https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/83345009  版權宣告:本文為博主原創文章,轉載請附上博文連結!