1. 程式人生 > >騰訊優圖吳永堅:邁向深度學習,我們面臨模型訓練與推薦的雙重考驗

騰訊優圖吳永堅:邁向深度學習,我們面臨模型訓練與推薦的雙重考驗

整理 | 琥珀

出品 | AI 科技大本營

 

對騰訊優圖的發展歷程,吳永堅表示,優圖是非常幸運的,幸運的同時也知道優圖選對了方向,只要堅持,還是會有收穫的。

 

12 月 15 日,以"新趨勢、新技術、新應用"為主題的首屆騰訊雲+社群開發者大會上,騰訊優圖實驗室總監吳永堅分享了《計算機視覺在產業中的應用實踐和前沿思考》。目前,騰訊優圖在計算機視覺技術方面的產業研究和應用,涵蓋了零售、安防、金融等領域的實際應用案例和經驗。

 

640?wx_fmt=jpeg


以下為演講整理,文章略有刪減:

 

什麼是計算機視覺?計算機視覺到底是一個什麼樣的問題?簡言之,計算機視覺是一門研究如何讓機器“看”的學問,涉及的重要一點是影象理解的技術。

 

大家也許會問為什麼計算機視覺在近五年來發展特別快,同時也誕生了很多的創業公司?就本質來講,計算機視覺能夠將線上線下的東西關聯,關聯人、關聯物,這是它能發展起來的一個重要原因。

 

簡單介紹下,騰訊優圖是騰訊旗下的一個頂尖 AI 實驗室,主要專注於人臉、人體、交通、醫療、影像、自動駕駛等有關計算機視覺領域的前沿研究和落地應用,曾有過多次重新整理的實驗記錄。

 

有幾個數字需要了解:騰訊優圖實驗室可提供 12 個行業解決方案,接入超過 70 多個騰訊明星產業的產品,擁有超過 700 多個全球專利。

 

作為一個技術人員來說,我覺得這一組資料都是非常值得驕傲的。同時,實驗室每年都會重新整理一些新的世界紀錄,在今年 10 月,騰訊優圖推出了DSFD 人臉檢測演算法,在兩個關於人臉檢測的權威資料庫 WIDERFACE 和 FDDB 上再次重新整理世界紀錄。

 

通過展示騰訊優圖相關技術棧,可以看到騰訊優圖聚焦計算機視覺,輸出整體技術能力,希望覆蓋到包括社交娛樂、安防、零售在內的各行各業。

 

嘗試——從QQ空間到“天天P圖”

 

在騰訊內部,我們最先落地的是社交娛樂,這也是我們這幾年來一直去做的事情。優圖團隊在 2012 年成立,當時正處於 PC 網際網路和移動網際網路時代,我們需要不斷將技術輸入到 PC 端的相關應用中。而人臉技術在當時對騰訊甚至整個行業都很新。那我們為什麼選擇這個行業?選擇人臉技術這個比較新的領域進行研究?

 

當時,我們發現 QQ 空間上有很多使用者上傳的圖片素材,而很多使用者公開的圖片中有一半以上是和人的臉部資訊相關的,比如自拍、合照等。我們認為這是下一個風口,需要提前佈局。

 

雖然我們很早運用了人臉檢測的技術,在 QQ 空間或 PC 端進行嘗試,但怎麼做都沒有產生很大的價值。我們對選擇的技術方向曾經有過糾結,但我們想既然使用者上傳這麼多圖片都有人臉,一定是我們沒研究透徹,不等於它沒有將來。

 

很幸運,我們等到了另一個移動端的爆款產品“天天P圖”。隨著 2015 年《武媚娘》電視劇火了起來,我們的技術如人臉美妝、人臉檢測有了用武之地。可以說我們是非常幸運的,幸運的同時也知道我們賭對了方向,只要堅持,還是會有亮點的。

 

“天天P圖”去年還做的一款變臉 H5 “我的軍裝照”,更成為現象級刷屏事件,訪問量超過 10 億次,作為創新方面的案例被人民日報重點收錄。

 

延伸——從消費場景到產業端

 

從消費網際網路到產業網際網路,從基於消費場景的不斷積累到探索產業場景的應用和落地,這成為騰訊多年發展歷程裡所經歷的一個必然階段。騰訊優圖也開始嘗試在產業網際網路領域的落地,我們首先瞄準的是安防行業。2017 年,騰訊優圖推出了面向治安管理場景的優圖天眼智慧安防平臺,以及面向交通監督場景的智慧交通平臺。

 

以優圖天眼智慧安防平臺為例,它支援上億張人臉照的搜尋,只要使用者上傳一張人臉照,就可以跟系統庫進行核對反饋,毫秒級別識別速度,比如說對失蹤老人和失蹤兒童問題有很大的社會價值。我們在今年首屆中國國際進口博覽會上,以及深圳市人臉核審統一認證平臺專案等等,得到了很多客戶的認可。

 

除了安防外,我們還在零售領域進行了嘗試。

 

這個賽道里最重要的一點就是如何連線好線上線下。如通過人臉檢測裝置,計算機視覺技術就可以做一個線上線下很好的關聯,所以視覺AI將零售自然而言地關聯了起來。

 

去年年底,我們跟騰訊雲聯合推出了“騰訊優Mall智慧零售系統”,可幫助企業使用者打造“知人知面更知心”的智慧門店,藉助計算機視覺能力為不同的顧客進行定製化推薦等。目前我們已與百麗國際旗下的滔博運動建立合作,今年 5 月,我們還聯合微信支付為家樂福上海天山店提供了刷臉支付系統。

 

此外,我們還有在金融行業的嘗試。

 

在金融領域最主要的應用是人臉核身的解決方案,它有效提升了銀行、保險、證券等行業的核身效率。什麼是核身技術?就是驗證線下這個人是否是與身份證呈現的是同一個人的技術。這種技術包括身份證 OCR 技術、活體檢測和人臉比對技術,綜合保障人臉核身的準確性與有效性。目前我們跟騰訊旗下的微眾銀行有了很好的落地合作。

 

深化——深度學習模型推斷與訓練研究

 

剛才說了很多案例,接下來我介紹下騰訊優圖在深度學習這股技術浪潮中對計算機視覺的研究與思考。

 

首先來看看影象在社交領域的探索。

 

短視訊這一年非常火,如何進行實時裝飾是一個非常大的技術挑戰:

 

  • 第一點,需要有很高的計算精度,因為將裝飾物投影到人臉上,看得到的人臉畫素要非常穩,就是說從這一幀到下一幀,人臉位置儘量不能浮動,需要很高的精度;

  • 第二點是計算的速度,因為它覆蓋了很多計算機型,需要一秒能夠處理 100 幀以上;

  • 對模型的大小要求也非常高,因為現在前端的很多處理是放在手機端的,其容量及安裝更新都有很大的限制,這就要求我們的大小隻能控制在 5 兆以內。

  • 最後,就是需要特別廣的平臺支援,除了支援如蘋果等高階機型以外,我們還要支援其他中低端的機型,至少實現90% 以上的機型覆蓋。因為不同的機型計算晶片也不一樣,對 CPU、GPU 都要有很好的相容。

 

我們的首要訴求是,在面對移動端上的實時計算時,對人臉配置需要實時、相容性好的深度學習前向推斷框架。

 

同樣在安防和商超場景的模型裡,對人臉識別模型的需求也非常大。

 

  • 通過圖中展示的學術里程碑,從 2012 年開始,深度學習的訓練模型層數在不斷加深,訓練的能力也越來越強。從最開始的AlexNet/VGGNet模型,到最近的 DPN 結構,模型已經達到了上千層,並且有了更復雜的網路子模型。

  • 從優圖的角度來看,業務持續落地帶來更多的業務資料,2014 年我們訓練的只有百萬級別的資料,而現在已是 10 億級別甚至更高,如果還是使用單機訓練的話需要超過半年時間。

  • 在具體的場景裡,如安防、娛樂、商超等,每個場景略有不同。如果對每個場景訓練獨立模型,週期太長,無法滿足業務快速迭代的需求;此外百萬級搜尋引數規模已高達 4GB,頻寬成為嚴重的通訊瓶頸。

  • 面對計算、頻寬瓶頸和大量定製化的訓練需求,這需要我們要有一個大規模叢集化平臺統一訓練和解決。

 

總結來講,在傳統機器學習邁向深度學習的過程中,我們始終面臨模型訓練與模型推斷的挑戰。現有的深度學習開源框架,面對這兩方面的挑戰,無法提供合適的解決方案。

 

實際上,我們內部研發了兩個系統:

 

一個是高效能分散式訓練平臺RadpidFlow,可支援多機多卡訓練,提供完整的定點量化解決方案。“定點量化”即意味著從原來的 32 位能夠降到 8 位甚至更低,只有 8 位的訓練模型才能更快的在前端跑起來,對頻寬能夠進行充分的利用。

 

另一個是跨平臺的框架RadpidNet,能夠針對不同的晶片異構裝置進行深度定製和優化,資源佔用少,計算速度快。

 

值得一提的是,去年,騰訊優圖推出了一款移動端開源神經推斷網路庫 NCNN(RadpidNet的前身)。目前它不僅在業界所有開源深度前向推斷框架中排名第一,而且已經被很多公司所應用,在今年被邀請加入了 Facebook ONNX 社群。當然,在我們看來NCNN還是有很多不能滿足業務需求的,所以我們後來基於NCNN做了很多研發創新,形成了現在我們使用的RapidNet。

 

演進——效能不斷提升,功耗持續優化

 

另外再說一下當前晶片的發展趨勢。

 

大家經常會聽到 CPU、GPU、AI 晶片,它們到底是什麼關係?我簡單總結一下晶片的發展趨勢。

 

就晶片本身來講,因面積有限,最開始 CPU 為保證通用處理效能會佔用很多的控制單元,而這部分不是用來計算的,算力比較弱;到了 GPU 時代,也就是 NVIDIA 發展起來的一個重要時期,它能夠把原來圖形處理的設計單元與深度學習進行適配,算力強,但功耗比較高;再往後的專用 AI 晶片,專用卷積加速模組,為 AI 加速設計,包括很多的大公司或創業公司都在做這類的 AI 晶片。

 

通過騰訊優圖過去幾年嘗試的真實場景中所積累的經驗,可以發現兩個很明顯的發展趨勢:

 

首先是價效比會越來越高,同樣的價格,同一晶片所能提供的算力越來越強,這符合摩爾定律;但如果打通這些晶片橫向對比,我們還發現一個規律,單位功耗所買到的算力也越來越高,也就是說,單位算力輸出的情況下,功耗越來越低,這就引入了所謂“雲+端”的概念。

 

這導致的另一個趨勢是,計算力開始從雲向端上走。如從前段時間的英偉達的GPU到現在的英特爾Movidus晶片和國內的華為海思晶片都在進行這方面的嘗試,騰訊優圖深度學習平臺的研究方向也從原來的 CPU、GPU 往 AI 晶片的方向上走。

 

在 11 月初的騰訊全球合作伙伴大會上,騰訊優圖推出了一系列智慧硬體產品,其中包括優圖人臉識別一體機、優圖盒子及騰訊優圖 AI 攝影機。通過軟硬體協同,騰訊優圖以更低成本、更佳效能和更優體驗打造一體化的行業解決方案。

 

圖中展現了我們當前在商超裡面部署的三款硬體產品,可以看到:優圖人臉識別一體機,可實現便利店無人值守自助進店、員工考勤簽到等功能;優圖盒子,通過攝像機進行前端人臉檢測與識別,解決的是存量的問題;騰訊優圖 AI 攝影機,解決的則是增量的問題,既可進行人臉檢測,也可輸出區域熱力圖。這是比較完整的軟硬一體化的、“雲+端”的商超場景下的解決方案。

 

目前,優圖人臉識別一體機已經率先在上海佘山世茂洲際深坑酒店落地,使用者只需“刷臉”就可完成會員註冊與繫結、酒店用餐、結賬免密支付等操作。

 

總結一下,騰訊優圖以計算機視覺技術為核心,通過騰訊雲以及騰訊 AI 開放平臺將自身的 AI 技術能力輸出給更多的開發者和企業,從最底層的計算平臺,到中間的演算法能力,再到安防、金融、零售、工業、教育等多個行業解決方案的能力輸出。

 

最後打個廣告,騰訊優圖,你身邊的視覺AI專家。

 

謝謝大家。