CAN：藉助先驗分佈提升分類效能的簡單後處理技巧

阿新 • • 發佈：2021-11-13

顧名思義，本文將會介紹一種用於分類問題的後處理技巧——CAN（Classification with Alternating Normalization），出自論文《When in Doubt: Improving Classification Performance with Alternating Normalization》。經過筆者的實測，CAN確實多數情況下能提升多分類問題的效果，而且幾乎沒有增加預測成本，因為它僅僅是對預測結果的簡單重新歸一化操作。

有趣的是，其實CAN的思想是非常樸素的，樸素到每個人在生活中都應該用過同樣的思想。然而，CAN的論文卻沒有很好地說清楚這個思想，只是純粹形式化地介紹和實驗這個方法。本文的分享中，將會盡量將演算法思想介紹清楚。

思想例子#

假設有一個二分類問題，模型對於輸入 $a$

但是，假如我告訴你：1、類別必然是0或1其中之一；2、兩個類別的出現概率各為0.5。在這兩點先驗資訊之下，由於前一個樣本預測結果為1，那麼基於樸素的均勻思想，我們是否更傾向於將後一個樣本預測為0，以得到一個滿足第二點先驗的預測結果？

這樣的例子還有很多，比如做10道選擇題，前9道你都比較有信心，第10題完全不會只能瞎蒙，然後你一看發現前9題選A、B、C的都有就是沒有一個選D的，那麼第10題在蒙的時候你會不會更傾向於選D？

這些簡單例子的背後，有著跟CAN同樣的思想，它其實就是用先驗分佈來校正低置信度的預測結果，使得新的預測結果的分佈更接近先驗分佈。

不確定性#

準確來說，CAN是針對低置信度預測結果的後處理手段，所以我們首先要有一個衡量預測結果不確定性的指標。常見的度量是“熵”，對於 $p = [p_{1}, p_{2}, \dots, p_{m}]$

\begin{matrix} (1) & H (p) = - \sum_{i = 1}^{m} p_{i} \log p_{i} \end{matrix}

然而，雖然熵是一個常見選擇，但其實它得出的結果並不總是符合我們的直觀理解。比如對於 $p^{(a)} = [0.5, 0.25, 0.25]$

H(p(a))>H(p(b))H(p(a))>H(p(b))，但就我們的分類場景而言，顯然我們會認為

p^{(b)}

一個簡單的修正是隻用前top- $k$

\begin{matrix} (2) & H_{top- k} (p) = - \sum_{i = 1}^{k} {\tilde{p}}_{i} \log {\tilde{p}}_{i} \end{matrix}

$p^{(a)} = [0.5, 0.25, 0.25]$

演算法步驟#

現在假設我們有 $N$

\begin{matrix} (3) & \frac{1}{N} \sum_{i = 1}^{N} p^{(i)} = \tilde{p} \end{matrix}

$p^{(a)} = [0.5, 0.25, 0.25]$

具體來說，我們選定一個閾值 $τ$

具體來說，對於 $\forall j \in {n + 1, n + 2, \dots, N}$

\begin{matrix} (4) & p^{(k)} \leftarrow p^{(k)} / \bar{p} \times \tilde{p}, \bar{p} = \frac{1}{n + 1} (p^{(j)} + \sum_{i = 1}^{n} p^{(i)}) \end{matrix}

$p^{(a)} = [0.5, 0.25, 0.25]$

\begin{matrix} (5) & p^{(k)} \leftarrow \frac{p_{i}^{(k)}}{\sum_{i = 1}^{m} p_{i}^{(k)}} \end{matrix}

$p^{(a)} = [0.5, 0.25, 0.25]$

注意，這個過程需要我們遍歷每個低置信度結果 $j \in {n + 1, n + 2, \dots, N}$

參考實現#

這是筆者給出的參考實現程式碼：

# 預測結果，計算修正前準確率
y_pred = model.predict(
    valid_generator.fortest(), steps=len(valid_generator), verbose=True
)
y_true = np.array([d[1] for d in valid_data])
acc_original = np.mean([y_pred.argmax(1) == y_true])
print('original acc: %s' % acc_original)

# 評價每個預測結果的不確定性
k = 3
y_pred_topk = np.sort(y_pred, axis=1)[:, -k:]
y_pred_topk /= y_pred_topk.sum(axis=1, keepdims=True)
y_pred_uncertainty = -(y_pred_topk * np.log(y_pred_topk)).sum(1) / np.log(k)

# 選擇閾值，劃分高、低置信度兩部分
threshold = 0.9
y_pred_confident = y_pred[y_pred_uncertainty < threshold]
y_pred_unconfident = y_pred[y_pred_uncertainty >= threshold]
y_true_confident = y_true[y_pred_uncertainty < threshold]
y_true_unconfident = y_true[y_pred_uncertainty >= threshold]

# 顯示兩部分各自的準確率
# 一般而言，高置信度集準確率會遠高於低置信度的
acc_confident = (y_pred_confident.argmax(1) == y_true_confident).mean()
acc_unconfident = (y_pred_unconfident.argmax(1) == y_true_unconfident).mean()
print('confident acc: %s' % acc_confident)
print('unconfident acc: %s' % acc_unconfident)

# 從訓練集統計先驗分佈
prior = np.zeros(num_classes)
for d in train_data:
    prior[d[1]] += 1.

prior /= prior.sum()

# 逐個修改低置信度樣本，並重新評價準確率
right, alpha, iters = 0, 1, 1
for i, y in enumerate(y_pred_unconfident):
    Y = np.concatenate([y_pred_confident, y[None]], axis=0)
    for j in range(iters):
        Y = Y**alpha
        Y /= Y.mean(axis=0, keepdims=True)
        Y *= prior[None]
        Y /= Y.sum(axis=1, keepdims=True)
    y = Y[-1]
    if y.argmax() == y_true_unconfident[i]:
        right += 1

# 輸出修正後的準確率
acc_final = (acc_confident * len(y_pred_confident) + right) / len(y_pred)
print('new unconfident acc: %s' % (right / (i + 1.)))
print('final acc: %s' % acc_final)

實驗結果#

那麼，這樣的簡單後處理，究竟能帶來多大的提升呢？原論文給出的實驗結果是相當可觀的：

原論文的實驗結果之一

筆者也在CLUE上的兩個中文文字分類任務上做了實驗，顯示基本也有點提升，但沒那麼可觀（驗證集結果）：

\begin{array}{ccc} IFLYTEK(类别数:119) & TNEWS(类别数:15) \\ BERT & 60.06 % & 56.80 % \\ BERT + CAN & 60.52 % & 56.86 % \\ RoBERTa & 60.64 % & 58.06 % \\ RoBERTa + CAN & 60.95 % & 58.00 % \end{array}

大體上來說，類別數目越多，效果提升越明顯，如果類別數目比較少，那麼可能提升比較微弱甚至會下降（當然就算下降也是微弱的），所以這算是一個“幾乎免費的午餐”了。超引數選擇方面，上面給出的中文結果，只迭代了1次， $k$

還有的讀者可能想問前面說的“高置信度那部分結果更可靠”這個情況是否真的成立？至少在筆者的兩個中文實驗上它是明顯成立的，比如IFLYTEK任務，篩選出來的高置信度集準確率為0.63+，而低置信度集的準確率只有0.22+；TNEWS任務類似，高置信度集準確率為0.58+，而低置信度集的準確率只有0.23+。

個人評價

最後再來綜合地思考和評價一下CAN。

首先，一個很自然的疑問是為什麼不直接將所有低置信度結果跟高置信度結果拼在一起進行修正，而是要逐個進行修正？筆者不知道原論文作者有沒有對比過，但筆者確實實驗過這個想法，結果是批量修正有時跟逐個修正持平，但有時也會下降。其實也可以理解，CAN本意應該是藉助先驗分佈，結合高置信度結果來修正低置信度的，在這個過程中，如果摻入越多的低置信度結果，那麼最終的偏差可能就越大，因此理論上逐個修正會比批量修正更為可靠。

說到原論文，讀過CAN論文的讀者，應該能發現本文介紹與CAN原論文大致有三點不同：

1、不確定性指標的計算方法不同。按照原論文的描述，它最終的不確定性指標計算方式應該是

\begin{matrix} (6) & - \frac{1}{\log m} \sum_{i = 1}^{k} p_{i} \log p_{i} \end{matrix}

$p^{(a)} = [0.5, 0.25, 0.25]$

2、對CAN的介紹方式不同。原論文是純粹數學化、矩陣化地陳述CAN的演算法步驟，而且沒有介紹演算法的思想來源，這對理解CAN是相當不友好的。如果讀者沒有自行深入思考演算法原理，是很難理解為什麼這樣的後處理手段就能提升分類效果的，而在徹底弄懂之後則會有一種故弄玄虛之感。

3、CAN的演算法流程略有不同。原論文在迭代過程中還引入了引數 $α$

\begin{matrix} (7) & p^{(k)} \leftarrow [p^{(k)}]^{α} / \bar{p} \times \tilde{p}, \bar{p} = \frac{1}{n + 1} ([p^{(j)}]^{α} + \sum_{i = 1}^{n} [p^{(i)}]^{α}) \end{matrix}

$p^{(a)} = [0.5, 0.25, 0.25]$

文章小結#

本文介紹了一種名為CAN的簡單後處理技巧，它藉助先驗分佈來將預測結果重新歸一化，幾乎沒有增加多少計算成本就能提高分類效能。經過筆者的實驗，CAN確實能給分類效果帶來一定提升，並且通常來說類別數越多，效果越明顯。

CAN：藉助先驗分佈提升分類效能的簡單後處理技巧

思想例子#

不確定性#

演算法步驟#

參考實現#

實驗結果#

個人評價

文章小結#

CAN：藉助先驗分佈提升分類效能的簡單後處理技巧

改善圖形神經網路，提升GNN效能的三個技巧

三星 Galaxy Note 20 Ultra 更新：支援中國移動智慧簡訊，提升相機效能

外媒測試英特爾 Tiger Lake 處理器 AV1 效能：相比前代提升巨大

AMD 釋出銳龍 5000 系列桌上型電腦處理器：IPC 猛增 19%，遊戲效能大幅提升

蘋果釋出 Safari 121 技術預覽版：修復 bug，提升效能

英偉達 RTX 3050 筆記本顯示卡引數曝光：2048 流處理器，30% 效能提升

蘋果 iPhone 13 系列核心配置曝光：搭載全新 A15 晶片，效能全面提升

英特爾 Xe-HPG DG2 獨顯效能再曝光：128EU，頻率提升到 2.2GHz

V社確認：Steam Deck 遊戲掌機插入底座後效能不會有提升

macOS Monterey 測試版顯示：蘋果正開發“高功率”模式以提升 MacBook 效能

拓端tecdat|PYTHON貝葉斯推斷計算：用BETA先驗分佈推斷概率和視覺化案例

AMD Radeon 21.11.1 驅動釋出：為《極限競速：地平線 5》優化，效能可提升 23%

特斯拉 Model X 再升級：電池能量密度和引擎效能均獲提升

高通驍龍 8 Gen 1 旗艦處理器 PPT 曝光：採用 4nm 工藝，CPU 效能提升 20%，還將推出驍龍 G3x

拓端tecdat：R語言梯度提升機 GBM、支援向量機SVM、正則判別分析RDA模型訓練、引數調優化和效能比較視覺化分析聲納資料

全球最小輕薄本，GPD P2 Max 2022 釋出：搭載 10nm 奔騰 N6000，效能提升 50%

復旦博士開發類視網膜感測器：將無人車視覺感光效能提升 1 萬億倍，已被華為收編

IntelliJ IDEA 2022.1 正式版釋出：支援 Java 18，顯著提升 Kotlin 效能（附更新內容）

GaussDB(DWS) NOT IN優化技術解密：排他分析場景400倍效能提升

CAN：藉助先驗分佈提升分類效能的簡單後處理技巧

思想例子#

不確定性#

演算法步驟#

參考實現#

實驗結果#

個人評價

文章小結#

相關推薦