ICLR2021 | The Intrinsic Dimension of Images and Its Impact on Learning

阿新 • • 發佈：2021-12-09

1. 長話短說

這篇論文主要是通過設計一系列實驗得到不同實驗集的ID（Intrinsic Dimension），然後給出觀察到的現象。這些現象也是比較符合直覺的，總結起來有這麼幾點：

資料集的ID越大，訓練模型就需要越多的資料
資料集的extrinsic dimension對模型的訓練影響不是很大，比如ImageNet影象縮放到32x32後，訓練模型所需要的資料量並不會就因此減少，更多是由它本身的ID值決定的

有這麼一個假設，就是說子自然影象位於或者靠近 低維流行 (low-dimensional manifold)。 有兩點現象能支援這個假設：

自然影象是locally connected，即每張圖片周圍都是與他本身高度相似的影象，差別可能就是亮度，對比度等特徵。
自然影象位於 低維結構（low-dimensional structure） 上，因為影象的概率分佈是高度集中的（即相似的紋理），如果我們只是對畫素做均勻取樣，很難得到一個有意義的影象。比如一張白色狗狗的照片，身體部位的畫素絕大部分都是分佈在白色區間，舌頭則是高度集中在紅色畫素。

後續也有很多工作嘗試去證明上面提到的假設。有的工作則是去嘗試理解為什麼深度模型能從訓練集泛化到從未見過的測試集。有一類工作是從 loss landscape的角度來解釋，有的則是認為 低維資料 與 不包含外在維度（extrinsic dimension）的屬性 表徵了分類問題的泛化難度：

[1] 發現神經網路的特徵是 low-dimensional 的

[2] 發現神經網路不同層的特徵的intrinsic dimension存在先增後降的特點

3. Intrinsic Dimension (ID) Estimation

3.1 本論文使用的ID估計方法： MLE

假設我們有一組資料點 \(\mathcal{P}\subset \mathbb{R}^N\)，這些點位於或靠近低維流形 \(\mathcal{M}\subseteq \mathbb{R}^N\), 其中 \(dim( \mathcal{M} )=d<<N\)。現在的問題就是我們如何求出（或估計出） d 的大小。

一個常見的ID估計方法是找出每個樣本點的 top-k 最近鄰居，然後對鄰居之間的距離進行建模。文獻[3]中基於泊松過程使用了最大似然估計 (MLE) ，公式如下：

\[\hat{m}_{k}(x)=\left[\frac{1}{k-1} \sum_{j=1}^{k-1} \log \frac{T_{k}(x)}{T_{j}(x)}\right]^{-1} \tag{1} \]

其中\(T_j(x)\)表示取樣點 \(x\) 到它第j個最近鄰居的歐氏距離 (norm2)。不過公式(1)是某一個樣本點的結果，所有後面有演算法[4]做出了修正，即取多個 (n) 樣本點ID估計值的均值

\[\bar{m}_{k}=\left[\frac{1}{n} \sum_{i=1}^{n} \hat{m}_{k}\left(x_{i}\right)^{-1}\right]^{-1}=\left[\frac{1}{n(k-1)} \sum_{i=1}^{n} \sum_{j=1}^{k-1} \log \frac{T_{k}\left(x_{i}\right)}{T_{j}\left(x_{i}\right)}\right]^{-1} \tag{2} \]

基於MLE估計得到ID值有兩個需要注意的問題：

如公式(2)所示，估計值依賴於 k 的取值
除了區域性均勻性假設外，MLE還假設資料產生於一連串的獨立隨機變數，這些變數可以寫成具有平滑密度的連續和足夠平滑的隨機變數的函式，但是對於自然影象資料集來說，這個假設我們很難判斷真假。

3.2 一些其他ID估計的方法

[5] GeoMLE 利用基於不同大小鄰居數量 (即 k) 的近鄰距離對標準MLE進行多項式迴歸來說明密度的非均勻性和流形的非線性。問題在於它的ID值是多個樣本 \(\hat{m}_{k}(x)\) 的平均，而公式(2) 中是對 \(\hat{m}_{k}(x)^{-1}\) 求平均後，再取倒數得到最終的估計值。文章也明確說[5] 的估計值非常不準。下圖是GeoMLE在 d-dimensional Hypercube data上的表現結果。

[6] 提出了 TwoNN 演算法來估計ID值，簡單說就是他基於兩個鄰居之間的距離（即 k=2 ）來估計ID。文獻[2]就是基於這個演算法的。
這篇文章不同鄰居之間的距離是使用 norm2 的歐氏距離計算的，而 [7] 中使用的是 geodesic distance，記為 kNN graph distance。

上面3個圖可以看到GeoMLE和TwoNN的估計值一般會比真實值要打，即overestimate。而KNN graph則是略微地underestimate。不同估計方法對不同資料集的ID估計結果如下。TwoNN對MNIST的ID估計值比CIFAR-10還高，這可能多少和直覺相違背。另外前三個資料集對CIFAR10的ID估計值都要比CIFAR100高，這個感覺也有點反直覺。

4. 在合成數據上驗證 Intrinsic Dimension

4.1 直觀感受ID對影象分類的影響

作者用BigGAN做了個實驗。BigGAN有 128個latent entries，輸出大小為128x128x3的影象。作者將128個latent entries大多數設定為0，只留下 \(\bar{d}\) 個free entries，即視為intrinsic dimension。然後給出了不同 \(\bar{d}\) 設定下一個類別（即 basenji）生成的影象的對比，如下圖示。可以看到 ID值越小，生成的圖片背景越簡單，當 \(\bar{d}=128\) 時，背景複雜了很多。其實換個角度想，當資料的ID越小的時候則表示該資料越容易被區分。文獻[2]的實驗對比了resent18/50/152等就發現網路最後一層的ID值越低，模型最終的acc也相對高一些。

作者還在 \(\bar{d}=10\) 的情況下比較了不同 k 的取值對最終ID估計的影響，結果如下。我們可以看到如下幾個現象：

縱座標10代表ground truth，當k=4的時候得到的ID估計值非常接近真實值。
原本的latent維度是128，雖然其他k值有一定誤差，但是整體上偏差不是很大，他們都很接近10
ID的估計比較robust，可以看到即使把取樣點數量從125增加到2000後，不同k得到的ID的預測值都是相對穩定的。這表明我們可以只使用一部分資料就能很好地得到ID估計值。

4.2 兩個假設

作者還進一步在合成數據集上設計了實驗來驗證兩個假設：

ID低的資料的sample complexity要小於 ID高的資料

為了驗證這個，作者選擇了basenji和beagle這兩類影象來用BigGAN來生成4組不同的資料集，主要區別是intrinsic dimension的不同，具體設定如下：

intrinsic dimension是指latent size，四個資料集對應的大小分別是16,32,64,128
extrinsic dimension是指最終生成的影象大小，四個資料集都是一樣的，即 3x32x32

資料集生成好後，作者使用ResNet-18 在這4個數據集上去訓練，實驗結果如下。可以看到ID （即latent size）越小的資料集，訓練ResNet-18所需的訓練樣本數量也就越少。實驗結果證明了假設。

extrinsic dimension和sample complexity沒有關係

為了驗證第二個假設，作者這次固定intrinsic，改變extrinsic dimension，也生成了4個不同的資料集，具體設定如下：

intrinsic dimension： latent size都固定位128
extrinsic dimension：生成影象的大小分別是16， 32， 64， 128， 256

實驗結果如下圖，可以看到此時4個數據集在使用2000個訓練樣本後基本就能達到相似的分類準確率了。實驗結果表明extrinsic dimension對sample complexity的影響很小。

5. 在真實資料集上驗證 Intrinsic Dimension

前面都是在GAN生成的資料集上做的實驗，作者還在像MNIST，CIFAR-10等真實資料集上也做了驗證試驗。下圖是在原始資料集上使用MLE得到的在不同 k 大小下的 ID 估計值。可以看到估計的結果符合預期，即資料集越難，ID值越大。

因為每個資料集的圖形大小不一樣，所以不同資料集的影象大小都縮放到 32x32 以保證extrinsic dimension都一樣。實驗設定和上面的合成數據集的設定類似，比如在ImageNet上隨機選取兩個類別的資料構造成一個二分類資料子集，然後計算出 ID 值。Table 2是基於兩個類別得到的ID值，Table 1是基於原始資料集得到的ID值，可以看到二者雖然具體的ID值不同牡丹石整體呈現的趨勢是類似的，即資料集越難，ID值越大。

下圖是在4個真實資料集上的結果，每個資料集跑了5次，每次選取不同的兩個類別組成subnet。可以看到在真實資料集上的結果和Figure 4的結果類似，intrinsic dimension大的資料集（如ImageNet）需要取樣更多的訓練樣本。

作者還做了一個比較有意思的實驗，就是給資料集加上噪聲。其實像ImageNet本身真實的ID我們是不知道的，但是噪聲資料的ID我們是可以控制的，所以假如我們構造一個ID為 \(\underline{d}\) 的噪聲並把它加到原影象上去，那麼得到的新的影象的ID肯定是大於或等於\(\underline{d}\)的。Table 3 給出了加上不同ID噪聲後，CIFAR-10資料集的ID估計值的變化情況。可以看到加上噪聲後資料集的ID似乎並沒有達到噪聲的ID值，這很可能是因為資料點太少導致的。不過可以看到的是加入噪聲的ID值越大，得到的新的資料集自身的ID值也是隨之增加的。

基於加入噪聲後的資料集，作者也做了sample complexity實驗的比較，實驗現象和前面的類似。

Reference

[1] Sixue Gong, Vishnu Naresh Boddeti, and Anil K Jain. On the intrinsic dimensionality of image representations. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 3987–3996, 2019.
[2] Alessio Ansuini, Alessandro Laio, Jakob H Macke, and Davide Zoccolan. Intrinsic dimension of data representations in deep neural networks. In Advances in Neural Information Processing Systems, pp. 6111–6122, 2019.
[3] Elizaveta Levina and Peter J Bickel. Maximum likelihood estimation of intrinsic dimension. In Advances in neural information processing systems, pp. 777–784, 2005.
[4] David J.C. MacKay and Zoubin Ghahramani. Comments on ‘Maximum Likelihood Estimation of Intrinsic Dimension’ by E. Levina and P. Bickel (2004), 2005. URL http://www.inference.org.uk/mackay/dimension/.
[5] Marina Gomtsyan, Nikita Mokrov, Maxim Panov, and Yury Yanovich. Geometry-aware maximum likelihood estimation of intrinsic dimension. In Asian Conference on Machine Learning, pp. 1126–1141, 2019.
[6] Elena Facco, Maria d’Errico, Alex Rodriguez, and Alessandro Laio. Estimating the intrinsic dimension of datasets by a minimal neighborhood information. Scientific Reports, 7(1):12140, 2017.
[7] Daniele Granata and Vincenzo Carnevale. Accurate estimation of the intrinsic dimension using graph distances: Unraveling the geometric complexity of datasets. Scientific reports, 6:31377, 2016.

ICLR2021 | The Intrinsic Dimension of Images and Its Impact on Learning

1. 長話短說這篇論文主要是通過設計一系列實驗得到不同實驗集的ID（Intrinsic Dimension），然後給出觀察到的現象。這些現象也是比較符合直覺的，總結起來有這麼幾點：

筆記：Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme

Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme 作者：Suncong Zheng et al., ACL 2017.

Java Tutorials(the traditional features of the Java, including variables, arrays, data types, operators and control flow)

Language Basics the traditional features of the Java, including variables, arrays, data types, operators and control flow

2019icpc徐州站 Cat 計蒜客 - 42540 && The Answer to the Ultimate Question of Life, The Universe, and Everything. 計蒜客 - 42545

VJ連結：https://vjudge.net/contest/412095#problem/A Cat計蒜客 - 42540 題意：給你一個區間[L,R]，給你現在擁有的錢S。你需要從[L,R]區間中選取一些連續的數，如果i^(i+1)^(i+2)^...^(j-1)^j<=s（L<=i<

Extraction of the Quad Layout of a Triangle Mesh Guided by Its Curve Skeleton 3.5小節精讀

簡介將粗四邊形對映到原網格 3.5 Coarse Quad Layout and Mapping 精讀 \\(Q\\) 表示粗四邊形網格

DEPRECATION: Python 2.7 reached the end of its life on January 1st, 2020.

技術標籤：pythonopencv 將mac預設的Python2.7改為Python3 鑑於mac預設的python環境為2.7，而pip在安裝的時候會提示Python 2.7 reached the end of its life on January 1st, 2020.，因此我們需要更改執行環

The senior management of a US company, a developer and marketer of online games

The senior management of a US company, a developer and marketer of online games, has decided to pursue international expansion opportunities in Asia. You are a business consultant of this company and

C# the comparison between FileStream.Write() and StreamWriter.Write()

原文:C# the comparison between FileStream.Write() and StreamWriter.Write() static void FileStreamSDemo()

CF613D Kingdom and its Cities 虛樹樹形dp 貪心

LINK：Kingdom and its Cities 發現是一個樹上關鍵點問題所以考慮虛樹剛好也有標誌\\(\\sum k\\leq 100000\\)即關鍵點總數的限制。

1414. Find the Minimum Number of Fibonacci Numbers Whose Sum Is K

問題：求Fibonacci數列中，最少多少個數之和為K 數列中元素可重複使用。 Example 1:

CF27E Number With The Given Amount Of Divisors 題解

CSDN同步原題連結簡要題意：求最小的有 \\(n\\) 個因數的數 \\(s\\)。\\(n \\leq 10^3\\) ,保證 \\(s \\leq 10^{18}\\).

CF613D Kingdom and its Cities（虛樹）

通過領悟題意，發現本題只與關鍵點和他們的lca有關，因此把只需要對他們建虛樹

2020牛客暑期多校訓練營（第六場 )C Combination of Physics and Maths(思維)

地址：https://ac.nowcoder.com/acm/contest/5671/C 題意：給出n*m的矩陣，求子矩陣的最大壓強：壓力F為子矩陣所有元素之和，受力面積為子矩陣最後一行的元素之和

2020牛客多校第六場C題Combination of Physics and Maths（基礎演算法DP）

題目連結https://ac.nowcoder.com/acm/contest/5671/C 題意：輸入一個n*m的矩陣，找一個值最大的（子矩陣的和/子矩陣最後一行的和），輸出

文獻閱讀 | Fine definition of the pedigree haplotypes of closely related rice cultivars by means of genome-wide discovery of single-nucleotide polymorphisms

Yamamoto, T., Nagasaki, H., Yonemaru, J. et al. Fine definition of the pedigree haplotypes of closely related rice cultivars by means of genome-wide discovery of single-nucleotide polymorphisms. BMC

ICLR2021 | The Intrinsic Dimension of Images and Its Impact on Learning

1. 長話短說

3. Intrinsic Dimension (ID) Estimation

3.1 本論文使用的ID估計方法： MLE

3.2 一些其他ID估計的方法

4. 在合成數據上驗證 Intrinsic Dimension

4.1 直觀感受ID對影象分類的影響

4.2 兩個假設

5. 在真實資料集上驗證 Intrinsic Dimension

Reference

ICLR2021 | The Intrinsic Dimension of Images and Its Impact on Learning

筆記：Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme

Java Tutorials(the traditional features of the Java, including variables, arrays, data types, operators and control flow)

2019icpc徐州站 Cat 計蒜客 - 42540 && The Answer to the Ultimate Question of Life, The Universe, and Everything. 計蒜客 - 42545

Extraction of the Quad Layout of a Triangle Mesh Guided by Its Curve Skeleton 3.5小節精讀

DEPRECATION: Python 2.7 reached the end of its life on January 1st, 2020.

The senior management of a US company, a developer and marketer of online games

C# the comparison between FileStream.Write() and StreamWriter.Write()

CF613D Kingdom and its Cities 虛樹樹形dp 貪心

1414. Find the Minimum Number of Fibonacci Numbers Whose Sum Is K

CF27E Number With The Given Amount Of Divisors 題解

CF613D Kingdom and its Cities（虛樹）

2020牛客暑期多校訓練營（第六場 )C Combination of Physics and Maths(思維)

2020牛客多校第六場C題Combination of Physics and Maths（基礎演算法DP）

文獻閱讀 | Fine definition of the pedigree haplotypes of closely related rice cultivars by means of genome-wide discovery of single-nucleotide polymorphisms

The Flee Plan of Groundhog

牛客2020 第九場 J-The Escape Plan of Groundhog（n3搞搞

思維 [2020牛客暑期多校訓練營（第九場） The Escape Plan of Groundhog]

The Escape Plan of Groundhog

牛客多校(2020第九場)K The Flee Plan of Groundhog

ICLR2021 | The Intrinsic Dimension of Images and Its Impact on Learning

1. 長話短說

2. Related Work

3. Intrinsic Dimension (ID) Estimation

3.1 本論文使用的ID估計方法： MLE

3.2 一些其他ID估計的方法

4. 在合成數據上驗證 Intrinsic Dimension

4.1 直觀感受ID對影象分類的影響

4.2 兩個假設

5. 在真實資料集上驗證 Intrinsic Dimension

Reference

相關推薦