1. 程式人生 > 資訊 >一張 “紙條”騙過 OpenAI 最先進視覺模型:“蘋果”變 “iPod”

一張 “紙條”騙過 OpenAI 最先進視覺模型:“蘋果”變 “iPod”

今年年初,OpenAI 推出了最新一款 AI 視覺模型 CLIP。

相信不少人對它還有些印象,經過龐大的資料集訓練,CLIP 在圖文識別和融合上展現了驚人的表現力。

例如,輸入文字 “震驚”,AI 能夠準確地通過 “瞪眼”這一關鍵特徵來呈現,並且再根據 Text、Face、Logo 等其他文字資訊,將其融合成一張新影象。

通過關鍵詞理解描繪出一張新影象對於人類來講可能不是什麼難事,但對於 AI 來講,則需要它具有極高的視覺識別和理解能力,包括文字識別和影象識別。因此,CLIP 模型可以說代表了現有計算機視覺研究的最高水平。

然而,正是這個兼具圖文雙重識別能力的 AI,卻在一張 “紙片”面前翻了車。

怎麼回事呢?

AI 上當,“蘋果”變 “iPod”

最近 OpenAI 研究團隊做了一項測試,他們發現 CLIP 能夠輕易被 “攻擊性影象”誤導。

測試是這樣的,研究人員給 CLIP 輸入瞭如下一張圖(左圖):

AI 不僅識別出了這是蘋果,甚至還顯示出了它的品種:Granny Smith。

然而,當研究人員給蘋果上貼上一張寫著 iPod 的紙片,結果 AI 真的被誤導了,如右圖所示,其 iPod 的識別率達到了 99.7%

研究團隊將此類攻擊稱為 “印刷攻擊”,他們在官方部落格中寫道:“通過利用模型強大的文字讀取能力,即使是手寫文字的照片也會欺騙模型。像‘對抗補丁’一樣,這種攻擊在野外場景也有效。”

可以看出,這種印刷攻擊實現起來很簡單,只需要筆和紙即可,而且影響顯著。我們再來看一組案例:

左圖中,AI 成功識別出了貴賓犬(識別率 39.3%)。

但右圖中在貴賓犬身上加上多個 “$$$”字元後,AI 就將其識別成了存錢罐(識別率 52.5%)。

至於為什麼會隱含這種攻擊方式,研究人員解釋說,關鍵在於 CLIP 的多模態神經元—能夠對以文字、符號或概念形式呈現的相同概念作出響應。

然而,這種多模態神經元是一把雙刃劍,一方面它可以實現對圖文的高度控制,另一方面遍及文字、影象的神經元也讓 AI 變得更易於攻擊。

“多模態神經元”是根源

那麼,CLIP 中的多模態神經元到底是什麼樣子呢?

此前,OpenAI 的研究人員發表了一篇新論文《Multimodal Neurons in Artificial Neural Networks》,描述了他們是如何開啟 CLIP 來觀察其效能的。

OpenAI 使用兩種工具來理解模型的啟用,分別是特徵視覺化(通過對輸入進行基於梯度的優化來最大化神經元啟用)、資料集示例(觀察資料集中神經元最大啟用影象的分佈)。

通過這些簡單的方法,OpenAI 發現 CLIP RN50x4(使用 EfficientNet 縮放規則將 ResNet-50 放大 4 倍)中的大多數神經元都可以得到解釋。這些神經元似乎是 “多面神經元”的極端示例——它們只在更高層次的抽象上對不同用例做出響應。

此外,它們不僅對物體的影象有反應,而且對草圖、卡通和相關文字也有反應。例如:

對於 CLIP 而言,它能識別蜘蛛俠的影象,從而其網路中存在特定的 “蜘蛛俠”神經元可以對蜘蛛俠的真實影象、漫畫影象作出響應,也可以對單詞 “Spider”(蜘蛛)作出響應。

OpenAI 團隊表明,人工智慧系統可能會像人類一樣將這些知識內部化。CLIP 模型意味著未來 AI 會形成更復雜的視覺系統,識別出更復雜目標。但這一切處於初級階段。現在任何人在蘋果上貼上帶有 “iPod”字樣的字條,CLIP 之類的模型都無法準確的識別。

如在案例中,CLIP 不僅迴應了存錢罐的圖片,也響應了一串串的美元符號。與上面的例子一樣,如果在電鋸上覆蓋 “ $$”字串,就可以欺騙 CLIP 將其識別為儲蓄罐。

值得注意的是,CLIP 的多模態神經元的關聯偏差,主要是從網際網路上獲取的資料中學到到。研究人員表示,儘管模型是在精選的網際網路資料子集上進行訓練的,但仍學習了其許多不受控制的關聯。其中許多關聯是良性的,但也有惡性的。

例如,恐怖主義和 “中東”神經元相關聯,拉丁美洲和 “移民”神經元相關聯。更糟糕的是,有一個神經元會和面板黝黑的人、大猩猩相關聯(這在美國又得引起種族歧視)。

無論是微調還是零樣本設定下,這些偏見和惡性關聯都可能會保留在系統中,並且在部署期間會以可見和幾乎不可見的方式表現出來。許多偏見行為可能很難先驗地預測,從而使其測量和校正變得困難。

未部署到商業產品中

機器視覺模型,旨在用計算機實現人的視覺功能,使計算機具備對客觀世界的三維場景進行感知、識別和理解的能力。不難想象,它在現實世界有著廣泛的應用場景,如自動駕駛、工業製造、安防、人臉識別等。

對於部分場景來說,它對機器視覺模型準確度有著極高的要求,尤其是自動駕駛領域。

例如,此前來自以色列本 · 古裡安大學和美國佐治亞理工學院的研究人員曾對特斯拉自動駕駛系統開展過一項測試。他們在路邊的廣告牌的視訊中添加了一張 “漢堡攻擊影象”,並將停留時間設定為了 0.42 秒。

在特斯拉汽車行駛至此時,雖然影象只是一閃而過,但還是特斯拉還是捕捉到了 “訊號”,並採取了緊急剎車。這項測試意味著,自動駕駛的視覺識別系統仍存在明顯的漏洞。

此外,還有研究人員表明,通過簡單地在路面上貼上某些標籤,也可以欺騙特斯拉的自動駕駛軟體,在沒有警告的情況下改變車道。

這些攻擊對從醫療到軍事的各種人工智慧應用都是一個嚴重的威脅。

但從目前來看,這種特定攻擊仍在可控範圍內,OpenAI 研究人員強調,CLIP 視覺模型尚未部署到任何商業產品中。