1. 程式人生 > 其它 >論文導讀:Universal Adversarial Training

論文導讀:Universal Adversarial Training

在這篇論文中,作者提出了一種優化的方法來找到給定模型的通用對抗樣本(首先在 Moosavi-Desfooli 等人 [1] 中引入)。作者還提出了一種低成本演算法來增強模型對此類擾動的魯棒性。

Universal Adversarial Perturbations (UAP) 很“便宜” - 單個噪聲可用於導致模型錯誤標記大量影象。(與基於每個影象生成擾動的通常攻擊不同。但這些更有效)。論文還發現 UAP 可以跨不同模型,因此它們也可以用於黑盒攻擊設定,因此研究它們很重要。

UAP vs Adversarial Perturbation:為了攻擊給定的模型,在一個常見的對抗性攻擊案例中,為每個影象找到一個唯一的增量,以便模型對其進行錯誤分類。在 UAP 案例中,目標是可以找到一個增量並將其用於所有影象。

[1] 中的 UAP 計算:UAP 在 [1] 中首次引入。這是一種簡單的技術,但是沒有收斂保證。作者通過遍歷影象並不斷更新 delta,直到 ξ% 的影象被錯誤分類。並且每次迭代中的更新都是使用 DeepFool [2] 計算的。攻擊公式和演算法如下所示。

對抗性訓練:為了使模型對對抗性攻擊具有魯棒性,Madry 等人提出了對抗性訓練,訓練過程涉及每次迭代,生成對抗性示例,然後計算它們的損失,更新該損失的權重。公式如下。(Z是擾動影象)

下面總結以下這篇論文的貢獻。

1、改進 UAP 計算:在論文中作者簡化了找到使損失最大化的增量的公式。這樣就可以使用優化器更新 δ。 由於上面的損失是無限的,作者提出了這種損失的剪輯版本。這個公式目標是尋找一種通用擾動,使訓練損失最大化,從而迫使影象進入錯誤的類別。

完整文章:

https://www.overfit.cn/post/7b83e0319aef413cbe4c46fa5151896a