深度學習功能使影象識別洞察力更快速
僅在社交網路上,每天就有超過20億張圖片被分享。研究表明,一個人要花十年的時間才能看完Snapchat(色拉布)上所有的照片。這是一項相當乏味的任務,而且遠遠超過了人類的能力。媒體購買者和提供者在安排相關內容時遇到困難,分析影象/視訊的組成部分,並以有效的方式生成內容定義投資回報。快速、準確、自動地獲取多媒體的洞察力(也就是元資料、組成、類別、顏色)一直是一個挑戰。NVIDIA有許多客戶和生態系統合作伙伴解決這個問題,使用NVIDIA DGX作為深度學習(DL)驅動影象識別的首選平臺。Imagga是該生態系統中有名氣的品牌之一,它是提供深度學習驅動的影象識別和影象處理解決方案的先驅,該解決方案構建於世界上第一臺個人人工智慧超級計算機NVIDIA DGX Station。
與影象識別相關的重要術語
機器學習(Machine learning,ML)是一種人工智慧的手動實現方法,允許使用近似智慧的演算法和我們每天都能聽到的常用語。ML使用演算法來分析資料,從中學習並幫助預測結果。
深度學習(Deep learning,DL)是ML的一個子集,或者說是一種實現ML的技術,隨著開發人員利用神經網路的能力來發現洞察力,正在迅速取代工業,在沒有人工手動編碼功能的情況下自動檢測模式是新的聖盃。
計算機視覺(Computer vision,CV)通過使用感測器和影象處理器來匹配人眼的能力,使計算機能夠識別影象,ML和CV之間略有重疊。隨著CV有助於處理每天產生數量驚人的視覺影象變得很重要。
影象處理(Image processing)是對影象執行某些操作(增強或壓縮)以提取有用資訊的一種方法。ML可用於計算機視覺和影象處理。
影象識別(Image recognition)是另一個術語,用於描述識別和檢測影象或視訊中的物件或特徵的過程。有些人認為計算機視覺與影象識別相同,但計算機視覺更廣泛,包括物件識別、字元識別和文字/情感分析。將影象識別與面部檢測聯絡在一起是很常見的,但它還有更多的含義。
Imagga主要功能
分類/場景分類:自動將圖片進行分類。例如,將照片按照山,海灘,寵物等進行分類。Imagga更強大的功能之一,是為特定用例和垂直方向訓練特定分類器,從個人照片到植物識別到垃圾分類。
識別主要物件:識別影象中的主要物件。
自動標籤照片:用不同的關鍵詞來標註多個物件來幫助照片的排序、獲取進行統計。
提取顏色:識別影象中的代表色,包括對所需要的前景和背景顏色進行單獨識別。
分析構圖:自動檢測照片中最具視覺趣味性的區域,並最終實現對這些感興趣區域的智慧裁剪。
面部識別人臉:識別人臉並將其聚集到虛擬人物中,便於組織機構更好的對個人照片和社交媒體進行監控。
視覺相似性搜尋:在一個集合中提取影象的特徵,在一個集合中提取影象的特徵,並允許其基於視覺、語義相似度進行搜尋,以及類似的照片/產品建議。