1. 程式人生 > 其它 >影象質量評估IQAtriq和hyperIQA個人理解

影象質量評估IQAtriq和hyperIQA個人理解

影象質量評估IQAtriq和hyperIQA個人理解

  1. triq

Junyong You1, Jari Korhonen2

作者單位:1. 挪威研究中心; 2. 中國深圳深圳大學

  • 方法

解決問題:transformer或者Vit不可以輸入不同尺度的影象問題。

解決方式:Feature projection, max-pooling

總體上也就是嘗試了transformer用於IQA的可能性和效果,結果效果很好。

根據ViT設計了一個可以在一定尺度大小內的影象輸入transformer的模型。主要貢獻是對影象進行預處理使影象做為影象塊輸、入transformer模型中,模型輸出的是5個分級的分佈值,最後將五個分數加權求和得到最終的預測分數。

優點:效果最好。transformer最近比較火,也許可以有些優化。比如MAE,不過理論上使用MAE會提升速度,可能降低準確度。

缺點:模型對於解析度大的模型需要重新設計,並且推理時間較長。

  1. hyperIQA(西北工業大學)

  • 方法

主要解決問題:

  • 失真多樣性和內容變化

失真多樣性:主要是說其他模型只是關注模型的全域性特徵,也就是深層特徵,但是淺層的區域性特徵也是很重要的,比如如果圖片有一部分的質量相當差,其他部分都好,人眼會覺得分數很低,但是模型會預測的分數還不錯。

解決方式就是引入底層特徵。

首先,當前的深度模型只學習用於分類的全域性特徵。然而,對於真實的 IQA 來說,扭曲在很多方面都是多種多樣的,其中大部分存在於區域性地區。忽略區域性模式可能會導致預測質量與人類視覺感知之間的不一致,因為當影象的其餘部分表現出相當好的質量時,人類視覺系統 (HVS) 對區域性失真很敏感。

內容變化:對於人類視角來說,不同內容的圖片應該會賦予不同的美學評價觀念,比如對人臉和景色的美學評價不應該相同(景色那必是比人臉分高的)所以圖片內容模型的引數自適應調整。比如,人類檢查員會認為晴朗的藍天影象是高質量的,而大多數 IQA 方法將其誤認為是由於影象包含大的扁平區域而導致的模糊影象。

解決方式就是先做內容識別,也就是影象語義理解,再預測分數。

優點:速度快比triq快。

缺點:效果比triq差一點點,並且需要將多輸入的224*224影象做resize或者其他處理,理論上可能會對結果有影響,目前實驗測試影響可以忽略。

隨心隨我