面向視頻的全新AI架構 —— 阿裏雲智能視覺技術全解
市場上的AI服務非常多,但是在視覺領域,通用的AI服務主要是基於圖像的架構來做的,視頻時代已經到來,基於圖像的AI架構是否還能被廣泛應用?阿裏雲視頻雲團隊專註於視頻領域,所以在針對視頻的AI處理方面也有獨特的思考和實踐。3月27日下午,第51期阿裏雲產品發布會-智能視覺產品隆重發布,阿裏雲高級計算專場周源針對圖像和視頻的AI處理有什麽不同?團隊是如何基於視頻構建全新的AI架構?針對AI大量的數據、訓練效果不夠好、時間與成本消耗大等痛點,他們如何解決等以上問題做了悉數解答。
一、市場上通用的圖像架構是怎樣的?
市場上大部分AI的服務,輸入的都是圖像,也就是圖片文件,是基於圖片進行處理。在業界,圖像的算法比較成熟,數量也較多,從大類來看有圖像分類、檢測、識別、分割等等。大部分AI服務的架構也是基本類似,一般包含圖像算法層、引擎框架層、資源管理層、硬件基礎層,之後基於各自的業務領域知識,構建一個面向特定領域的AI推理服務,然後通過API提供對外的訪問。
二、挑戰:視頻與圖像的不同
隨著現在視頻(直播、點播、短視頻)的越來越廣泛應用,內容從原先的圖像分析升級到視頻分析。因為復用已有的技術以及架構的改造成本等等因素,一般的AI服務一般會保持現有的框架,不同是把視頻轉換成圖像來進行處理。一般做法是按照固定的時間間隔采樣截取視頻的圖像信息,這樣整個服務架構不需要做任何改動,只是在最上面一層增加了視頻幀截取和結果匯聚的服務。
當然,這個架構在視頻時代就會存在很多問題:
-
時效性差
因為增加了視頻截幀和結果匯聚這樣的中間操作,所以處理時間長;視頻下載下來,處理後圖片再上傳,網絡傳輸也會導致時效性變差;舉個例子,在相同畫質下,使用一張張圖片組成的視頻,和H.264編碼的視頻,大小的比是10:1,圖片是10倍於視頻的存儲量。 -
穩定性
視頻截幀一般會采用開源的FFmpeg,如果遇到問題需要解決,比較依賴於開源社區。比如格式和編碼的兼容性、直播、點播中遇到數據異常、時間戳不準、定制協議、分辨率切換、卡死等。 -
復雜性高
把視頻轉換成批量的圖片,就需要對這些臨時的圖片進行管理,另外還涉及順序處理、異步操作、網絡抖動等問題,需要關註的非核心業務功能就要求非常多,導致業務系統整體的復雜性變高。 - 信息丟失
截幀是一種采樣,會引起信息丟失,丟失的信息中很有可能包含了關鍵圖像。另外,截幀的處理是對沒有時間信息的圖像結果的簡單累加,效果也不理想。
既然有這麽多問題,基於視頻的AI計算該怎麽做呢?
三、阿裏雲解決方案:面向視頻的新架構
周源所在的阿裏雲視頻雲團隊,具有多年音視頻編解碼、媒體處理相關技術經驗,他們推出的面向視頻的新架構是:把視頻作為第一類對象(First-Class Object)來看待。把視頻解碼、時間域分析、智能匯聚、音頻處理等引入到系統裏面來,把視頻處理和AI計算有機結合,以面向視頻的方式,在視頻處理的同時完成AI計算,精簡的流程能夠大幅度縮短處理時間,從時間維度提升分析效果,並能簡化業務架構,讓用戶聚焦在核心業務的發展上。為用戶提供高效穩定、簡單易用、功能豐富的視頻AI服務。
新架構具有以下幾個特點:
-
時效性高
相較於之前多余的截幀、上傳等一系列操作,新方案不產生臨時圖片,同時能減輕存儲的帶寬和空間需求。能充分利用視頻的並行分片機制,大幅度縮短整體處理時間。 -
復雜性低
面向視頻的架構,視頻處理和AI計算集成在一起,簡化了對圖片的處理過程,進而簡化整個處理邏輯,降低復雜度。 -
穩定性高
阿裏雲視頻雲團隊是具有10多年豐富視頻處理經驗的專業團隊,兼容性、運維各種問題都不需要用戶考慮。 - 效果更佳
對離散的圖像結果按照時間的關系進行更合理的匯聚,獲得更優的效果。
四、AI應用的痛點和解法
周源團隊自研的新架構很好的解決了圖像AI架構時效性差、穩定性差、復雜度高、效果不佳的問題。然而在AI的應用上,開發者也會關註到一些其他問題,比如:
目前,分類算法有ResNet、Inception、VGG等等,識別算法有FasterRCNN、SSD、YOLO等等,物體檢測、人臉識別算法也有很多,那麽如何選擇最適合自己的呢?
針對自身業務標註數據,需要大量人力投入,同時真實數據少,采集十分困難,通常需要花費非常多的視覺才能夠收集足夠多的數據,怎麽辦?
每次模型訓練時間長、反饋慢,訓練好的模型更是需要復雜的上線流程,整體業務反饋太慢,怎麽辦?
智能視覺產品針對關鍵的數據和時間問題,給出了如下解法:
-
選擇最合適的算法
基於阿裏巴巴在視頻和AI領域的長期積累,已經幫大家選擇好了算法,現在推出的是分類和識別,之後將推出更多算法。 - 遷移學習——少量數據快速訓練
遷移學習的基本原理是,根據自然圖像中的基礎邊緣、色塊、紋理的規律來歸納物體特征,並且通過在淺層網絡中復用這些基礎特征,來減少標註數據,能以更快的時間、更高的質量生成業務場景相關數據,大幅度減少數據需求,進一步減少計算量,達到縮短新模型訓練時間的效果,使業務叠代更快。
- 數據增廣——少量數據更優效果
在深度學習層面,在其他條件相同的情況下,數據越多訓練效果是越好的。這就產生了一個問題,更好的效果一定需要更多的數據,這需要花費大量的人力去標註。
智能視覺采用數據增廣策略,增加數據的多樣性,加強模型泛化能力,對圖像進行旋轉、斜切、仿射變換、對比度調整、色度變化、水平鏡像等變換,增加數據量的同時保持增廣數據的真實性,實現了少量數據情況下效果增強10-15%的訓練效果,同時有效降低標註數據的人力和時間成本。
智能視覺可以幫助零算法基礎的用戶,快速訓練自己領域的定制化模型,僅需要少量標註數據,完成快速的模型生成、增強的場景效果,並將訓練模型轉換成高可用、彈性可擴展的視頻AI服務,讓用戶能夠以最低的成本實現AI技術的落地。
面向視頻的全新AI架構 —— 阿裏雲智能視覺技術全解