1. 程式人生 > 其它 >ICLR2021 | The Intrinsic Dimension of Images and Its Impact on Learning

ICLR2021 | The Intrinsic Dimension of Images and Its Impact on Learning

1. 長話短說

這篇論文主要是通過設計一系列實驗得到不同實驗集的ID(Intrinsic Dimension),然後給出觀察到的現象。這些現象也是比較符合直覺的,總結起來有這麼幾點:

  1. 資料集的ID越大,訓練模型就需要越多的資料
  2. 資料集的extrinsic dimension對模型的訓練影響不是很大,比如ImageNet影象縮放到32x32後,訓練模型所需要的資料量並不會就因此減少,更多是由它本身的ID值決定的

2. Related Work

有這麼一個假設,就是說子自然影象位於或者靠近 低維流行 (low-dimensional manifold)。 有兩點現象能支援這個假設:

  1. 自然影象是locally connected,即每張圖片周圍都是與他本身高度相似的影象,差別可能就是亮度,對比度等特徵。

  2. 自然影象位於 低維結構(low-dimensional structure) 上,因為影象的概率分佈是高度集中的(即相似的紋理),如果我們只是對畫素做均勻取樣,很難得到一個有意義的影象。比如一張白色狗狗的照片,身體部位的畫素絕大部分都是分佈在白色區間,舌頭則是高度集中在紅色畫素。

後續也有很多工作嘗試去證明上面提到的假設。有的工作則是去嘗試理解為什麼深度模型能從訓練集泛化到從未見過的測試集。有一類工作是從 loss landscape的角度來解釋,有的則是認為 低維資料不包含外在維度(extrinsic dimension)的屬性 表徵了分類問題的泛化難度:

  • [1] 發現神經網路的特徵是 low-dimensional 的
  • [2] 發現神經網路不同層的特徵的intrinsic dimension存在先增後降的特點

3. Intrinsic Dimension (ID) Estimation

3.1 本論文使用的ID估計方法: MLE

假設我們有一組資料點 \(\mathcal{P}\subset \mathbb{R}^N\),這些點位於或靠近低維流形 \(\mathcal{M}\subseteq \mathbb{R}^N\), 其中 \(dim( \mathcal{M} )=d<<N\)。現在的問題就是我們如何求出(或估計出) d 的大小。

一個常見的ID估計方法是找出每個樣本點的 top-k 最近鄰居,然後對鄰居之間的距離進行建模。文獻[3]中基於泊松過程使用了最大似然估計 (MLE) ,公式如下:

\[\hat{m}_{k}(x)=\left[\frac{1}{k-1} \sum_{j=1}^{k-1} \log \frac{T_{k}(x)}{T_{j}(x)}\right]^{-1} \tag{1} \]

其中\(T_j(x)\)表示 取樣點 \(x\) 到 它第j個最近鄰居的歐氏距離 (norm2)。不過公式(1)是某一個樣本點的結果,所有後面有演算法[4]做出了修正,即取多個 (n) 樣本點ID估計值的均值

\[\bar{m}_{k}=\left[\frac{1}{n} \sum_{i=1}^{n} \hat{m}_{k}\left(x_{i}\right)^{-1}\right]^{-1}=\left[\frac{1}{n(k-1)} \sum_{i=1}^{n} \sum_{j=1}^{k-1} \log \frac{T_{k}\left(x_{i}\right)}{T_{j}\left(x_{i}\right)}\right]^{-1} \tag{2} \]

基於MLE估計得到ID值有兩個需要注意的問題:

  1. 如公式(2)所示,估計值依賴於 k 的取值
  2. 除了區域性均勻性假設外,MLE還假設資料產生於一連串的獨立隨機變數,這些變數可以寫成具有平滑密度的連續和足夠平滑的隨機變數的函式,但是對於自然影象資料集來說,這個假設我們很難判斷真假。

3.2 一些其他ID估計的方法

  • [5] GeoMLE 利用基於不同大小鄰居數量 (即 k) 的近鄰距離 對 標準MLE進行多項式迴歸 來說明密度的非均勻性和流形的非線性。問題在於它的ID值是 多個樣本 \(\hat{m}_{k}(x)\) 的平均,而公式(2) 中是對 \(\hat{m}_{k}(x)^{-1}\) 求平均後,再取倒數得到最終的估計值。文章也明確說[5] 的估計值非常不準。下圖是GeoMLE在 d-dimensional Hypercube data上的表現結果。
  • [6] 提出了 TwoNN 演算法來估計ID值,簡單說就是他基於兩個鄰居之間的距離 (即 k=2 )來估計ID。 文獻[2]就是基於這個演算法的。

  • 這篇文章不同鄰居之間的距離是使用 norm2 的歐氏距離計算的,而 [7] 中使用的是 geodesic distance,記為 kNN graph distance

上面3個圖可以看到GeoMLE和TwoNN的估計值一般會比真實值要打,即overestimate。而KNN graph則是略微地underestimate。不同估計方法對不同資料集的ID估計結果如下。TwoNN對MNIST的ID估計值比CIFAR-10還高,這可能多少和直覺相違背。另外前三個資料集對CIFAR10的ID估計值都要比CIFAR100高,這個感覺也有點反直覺。

4. 在合成數據上驗證 Intrinsic Dimension

4.1 直觀感受ID對影象分類的影響

作者用BigGAN做了個實驗。BigGAN有 128個latent entries,輸出大小為128x128x3的影象。作者將128個latent entries大多數設定為0,只留下 \(\bar{d}\) 個free entries,即視為intrinsic dimension。然後給出了不同 \(\bar{d}\) 設定下一個類別(即 basenji)生成的影象的對比,如下圖示。可以看到 ID值越小,生成的圖片背景越簡單,當 \(\bar{d}=128\) 時,背景複雜了很多。其實換個角度想,當資料的ID越小的時候則表示該資料越容易被區分。文獻[2]的實驗對比了resent18/50/152等就發現網路最後一層的ID值越低,模型最終的acc也相對高一些。

作者還在 \(\bar{d}=10\) 的情況下比較了不同 k 的取值對最終ID估計的影響,結果如下。我們可以看到如下幾個現象:

  • 縱座標10代表ground truth,當k=4的時候得到的ID估計值非常接近真實值。
  • 原本的latent維度是128,雖然其他k值有一定誤差,但是整體上偏差不是很大,他們都很接近10
  • ID的估計比較robust,可以看到即使把取樣點數量從125增加到2000後,不同k得到的ID的預測值都是相對穩定的。這表明我們可以只使用一部分資料就能很好地得到ID估計值。

4.2 兩個假設

作者還進一步在合成數據集上設計了實驗來驗證兩個假設:

  1. ID低的資料的sample complexity要小於 ID高的資料

為了驗證這個,作者選擇了basenji和beagle這兩類影象來用BigGAN來生成4組不同的資料集,主要區別是intrinsic dimension的不同,具體設定如下:

  • intrinsic dimension是指latent size,四個資料集對應的大小分別是16,32,64,128
  • extrinsic dimension是指最終生成的影象大小,四個資料集都是一樣的,即 3x32x32

資料集生成好後,作者使用ResNet-18 在這4個數據集上去訓練,實驗結果如下。可以看到ID (即latent size)越小的資料集,訓練ResNet-18所需的訓練樣本數量也就越少。實驗結果證明了假設。

  1. extrinsic dimension和sample complexity沒有關係

為了驗證第二個假設,作者這次固定intrinsic,改變extrinsic dimension,也生成了4個不同的資料集,具體設定如下:

  • intrinsic dimension: latent size都固定位128
  • extrinsic dimension:生成影象的大小分別是16, 32, 64, 128, 256

實驗結果如下圖,可以看到此時4個數據集在使用2000個訓練樣本後基本就能達到相似的分類準確率了。實驗結果表明extrinsic dimension對sample complexity的影響很小。

5. 在真實資料集上驗證 Intrinsic Dimension

前面都是在GAN生成的資料集上做的實驗,作者還在像MNIST,CIFAR-10等真實資料集上也做了驗證試驗。下圖是在原始資料集上使用MLE得到的在不同 k 大小下的 ID 估計值。可以看到估計的結果符合預期,即資料集越難,ID值越大。

因為每個資料集的圖形大小不一樣,所以不同資料集的影象大小都縮放到 32x32 以保證extrinsic dimension都一樣。實驗設定和上面的合成數據集的設定類似,比如在ImageNet上隨機選取兩個類別的資料構造成一個二分類資料子集,然後計算出 ID 值。Table 2是基於兩個類別得到的ID值,Table 1是基於原始資料集得到的ID值,可以看到二者雖然具體的ID值不同牡丹石整體呈現的趨勢是類似的,即資料集越難,ID值越大。

下圖是在4個真實資料集上的結果,每個資料集跑了5次,每次選取不同的兩個類別組成subnet。可以看到在真實資料集上的結果和Figure 4的結果類似,intrinsic dimension大的資料集(如ImageNet)需要取樣更多的訓練樣本。

作者還做了一個比較有意思的實驗,就是給資料集加上噪聲。其實像ImageNet本身真實的ID我們是不知道的,但是噪聲資料的ID我們是可以控制的,所以假如我們構造一個ID為 \(\underline{d}\) 的噪聲並把它加到原影象上去,那麼得到的新的影象的ID肯定是大於或等於\(\underline{d}\)的。Table 3 給出了加上不同ID噪聲後,CIFAR-10資料集的ID估計值的變化情況。可以看到加上噪聲後資料集的ID似乎並沒有達到噪聲的ID值,這很可能是因為資料點太少導致的。不過可以看到的是加入噪聲的ID值越大,得到的新的資料集自身的ID值也是隨之增加的。

基於加入噪聲後的資料集,作者也做了sample complexity實驗的比較,實驗現象和前面的類似。

Reference

[1] Sixue Gong, Vishnu Naresh Boddeti, and Anil K Jain. On the intrinsic dimensionality of image representations. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 3987–3996, 2019.
[2] Alessio Ansuini, Alessandro Laio, Jakob H Macke, and Davide Zoccolan. Intrinsic dimension of data representations in deep neural networks. In Advances in Neural Information Processing Systems, pp. 6111–6122, 2019.
[3] Elizaveta Levina and Peter J Bickel. Maximum likelihood estimation of intrinsic dimension. In Advances in neural information processing systems, pp. 777–784, 2005.
[4] David J.C. MacKay and Zoubin Ghahramani. Comments on ‘Maximum Likelihood Estimation of Intrinsic Dimension’ by E. Levina and P. Bickel (2004), 2005. URL http://www.inference.org.uk/mackay/dimension/.
[5] Marina Gomtsyan, Nikita Mokrov, Maxim Panov, and Yury Yanovich. Geometry-aware maximum likelihood estimation of intrinsic dimension. In Asian Conference on Machine Learning, pp. 1126–1141, 2019.
[6] Elena Facco, Maria d’Errico, Alex Rodriguez, and Alessandro Laio. Estimating the intrinsic dimension of datasets by a minimal neighborhood information. Scientific Reports, 7(1):12140, 2017.
[7] Daniele Granata and Vincenzo Carnevale. Accurate estimation of the intrinsic dimension using graph distances: Unraveling the geometric complexity of datasets. Scientific reports, 6:31377, 2016.


微信公眾號:AutoML機器學習
MARSGGBO原創
如有意合作或學術討論歡迎私戳聯絡~
郵箱:[email protected]

2021-12-09 16:04:58