論文圖片誤用？AI：這條路已被我堵死了

阿新 • • 發佈：2021-12-22

現在的 AI 已經開始參與論文打假了！就像是這樣，經過旋轉、拉伸和縮放之後的圖片，人眼或許無法辨認，但 AI 能看到數百個相似的特徵：

△藍色線條表示相似特徵

即使通過高超的“影象處理手段”把一張完整影象中的區域性畫面挪到自己的影象裡，也能一眼分辨：

對於 AI 來說，這可能是秒認的活兒，甚至就算是一篇影象繁雜的完整論文，也不過花費一兩分鐘。但對於人眼可就沒那麼簡單了，比如知名學術打假人 Elisabeth Bik 為了尋找不同論文中使用相同圖片展示各自不同的實驗結果的例子，曾花費了整整 2 年時間。

而對於出版商們來說，刊登又撤稿中間的損失就更大了……

因此，最近幾年，AI 打假員愈發頻繁地被引入了論文審查，尤其是影象問題中。比如，自今年 1 月份開始，世界上最大、最古老的癌症研究專業協會，美國癌症協會（AACR）就已經開始使用 AI 軟體來評審旗下期刊文章裡的圖片造假或重複問題了。

官方網站上也已經寫明：提交手稿中的所有影象都需要通過 AI 軟體進行篩選。

不僅是 AACR，世界第五大出版商 SAGE、老牌經典醫學期刊 JCI、 JCI Insight 都已經用上了這種方法。

自動影象校對

這些期刊和出版商們所使用的是一個由以色列公司 Proofig 開發的同名軟體。

Proofig 軟體基於 AI 技術和影象處理技術，面向各種科學文稿中的影象，包括所有型別的顯微鏡照片（光學、電學、共聚焦）、載玻片、蛋白免疫印跡（Western blot）、生物體內和體外影象、植物影象等等。

軟體會從論文中識別影象，然後提取它們共同的特徵進行比較。這些“共同的特徵”包括對影象整體的縮放或旋轉、部分重複或重疊、還有一些方位上的不同。

除此之外，軟體也能額外檢測到一些問題，比如高解析度的原始資料被壓縮到更小的檔案中時，可能出現的壓縮失真或壓縮偽影（Compression artifact）情況。

一篇普通的論文通常在 2 分鐘以內可以檢查完畢，最多不超過 10 分鐘。

對於很多出版商來說，一篇已刊登的科學文稿裡如果出現影象剽竊這種學術不端的現象，那麼從調查、撤稿到後續的法律費用，平均每篇文章可能要損失百萬美元。因此，很多出版商都樂意引入價效比較高的 AI 來和人工審查組一起工作。

AACR 的一位期刊運營總監就表示：很多作者也很高興能在出版前注意到一些“無意中的”影象複製錯誤。而對於我們來說，嚴謹的資料是我們期刊的一個顯著的標誌，因此，這（Proofig）絕對是值得投入的時間和金錢。

出版商們聯合起來

其實，科學文稿中的影象重複或剽竊的現象已經是屢見不鮮了。

2016 年，Nature 上就有一篇文章對約 2 萬篇生物醫學論文進行人工分析後發現，其中 4% 的論文都可能包含上述問題。

而通常每年只有 1% 的文稿得到更正，因此撤回的文章就更少了。

因此，去年 5 月份，一些出版商聯合起來成立了一個為解決論文中影象問題的小組，其中包括荷蘭出版業巨頭愛思唯爾（Elsevier）、Wiley、Springer Nature 和 Taylor & Francis。

愛思唯爾表示，小組最終的目標是“創造一個能夠幫助我們自動識別影象變化的環境。”

還有很多出版商試圖自己解決問題，比如瑞士出版商 Frontiers 開發了自己的論文影象檢查軟體，作為自動檢查系統 AIRA 的一部分。

Frontiers 內部的一位發言人表示，軟體自 2020 年 8 月投入使用，標記的大多數論文都沒有問題，只有大約 10% 的論文需要人工檢查小組的跟蹤處理。

而有些尚未引入 AI 手段的出版商也展現出了對這種方法的懷疑：在可靠性上，AI 檢查還沒有大規模地投入使用。比如愛思唯爾的軟體目前的進度還是“正在測試中“，只對部分期刊開放使用。在成本上，AI 軟體偶爾的“誤殺”依舊需要人工參與，甚至會引起其他的糾紛。

不過有人從另一個角度提出了問題：如果所有的論文都是開放存取的，那麼影象誤用 / 重複問題將更容易得到審查，訓練 AI 也會更有效率。

論文圖片誤用？AI：這條路已被我堵死了

自動影象校對

出版商們聯合起來

論文圖片誤用？AI：這條路已被我堵死了

宮崎英高：自家遊戲極具挑戰性我也死了很多次

畢業四年，我當初是如何走上程式設計這條路的！

我為什麼選擇這條路？

在公司工作了3年的前端被裁老闆：這2個壞習慣我不能忍

沉默的 618：這屆年輕人怎麼都不買東西了

深夜支援一個億：這一次，騰訊們帶了好頭

sqlServer死鎖問題：事務(程序 ID xx)與另一個程序被死鎖在鎖資源上，並且已被選作死鎖犧牲品，請重新執行該事務。

如何獲取web視訊資料流的傳輸?小姐姐的視訊都被我爬下來了，這誰頂得住

微軟《極限競速：地平線 5》已被支援在 Linux 上執行：AMD 顯示卡最佳，英偉達版易閃退

廈大通報 4 篇學位論文“存在問題”，2 篇碩士論文來自電子通訊專業，院長導師已被約談

AI可以複製任何人類聲音：這對播客意味著什麼？

小白終是踏上了這條不歸路----小文的mysql學習筆記（20）--------變數

小白終是踏上了這條不歸路----小文的mysql學習筆記（21）---------儲存過程--儲存過程的建立、刪除和檢視

Beat the AI：Investigating Adversarial Human Annotation for Reading Comprehension論文閱讀筆記

全國鐵路今日實施新的列車執行圖：多條高鐵線路時間縮短，過年回家更快了

這條簡訊能救命！微信：“渝視救”視訊 120 系統將在重慶全市正式啟用

你玩的音遊可能真是 AI 生成的：Love Live! 工作室發了篇論文，用 AI 節省 50% 作譜時間

杭州今天很多人收到這條簡訊：“您的快件受到新冠病毒汙染風險！”

微服務架構學習與思考(09)：分散式鏈路追蹤系統-dapper論文學習

論文圖片誤用？AI：這條路已被我堵死了

自動影象校對

出版商們聯合起來

相關推薦