1. 程式人生 > 資訊 >AI 在新冠檢測種暴露短板,研究發現 647 種 AI 工具不適用於臨床

AI 在新冠檢測種暴露短板,研究發現 647 種 AI 工具不適用於臨床

自新冠疫情爆發以來,世界各地的研究團隊開發了各種 AI 工具來幫助檢測新冠病毒或者對新冠病毒的感染情況進行預測。

但是很不幸,來自荷蘭馬斯特裡赫特大學和英國劍橋大學的兩個研究團隊分別獨立對 232 種和 415 種 AI 工具進行測試,發現這一共 647 種工具沒有一個適合臨床使用,有些甚至還會有害

產生這個結果主要與訓練 AI 模型的資料質量有關。開發者採用的資料集裡面往往摻雜了一些無效資訊或錯誤資訊,導致 AI 工具學會了錯誤的判斷方法。而開發者往往不具備醫學的專業知識,這使他們很難發現其中的錯誤。

有專家認為,只有通過開發者與臨床醫生的通力合作才能儘可能的避免這種錯誤產生。另外,還有專家呼籲對於此類全球突發的衛生健康事件應該做好“資料共享”,以便各國能夠充分應對。

一、共 647 種 AI 工具被測試,均不適合臨床使用

2020 年 3 月,COVID-19 開始襲擊歐洲,但那時的人們人們對此知之甚少,這讓歐洲的醫院陷入了一場危機。荷蘭馬斯特裡赫特大學流行病學家 Laure Wynants 一直在研究流行病的預測工具,她說:“醫生真的不知道如何管理這些患者。”

專家們認為機器學習演算法能夠根據此前的資料進行訓練,並幫助醫生對患者做出診斷,那麼將會有大量生命被拯救。Laure Wynants 稱:“在這件事上 AI 可以證明其實用性,我對此抱有希望。”

世界各地的研究團隊加緊進行研究,尤其是 AI 社群緊急開了發各種軟體。許多人認為這些軟體可以讓醫院更快地診斷或分診患者,為抗擊疫情的前線提供支援。但是,數百種檢測工具被開發出來,卻沒有一個真正的產生作用。

今年 6 月,英國國家資料科學和人工智慧中心圖靈研究所釋出了一份報告,總結了其在 2020 年底舉辦的一系列研討會上討論的內容,這些研討會中達成的一項明確共識是:AI 工具在抗擊新冠疫情的戰鬥中幾乎沒有產生任何實質性的影響。兩個研究團隊圍繞著這些 AI 工具分別進行的兩項研究得到的結果支援了這個結論。

Laure Wynants 和她的同事研究了 232 種用來預測或診斷新冠肺炎患者的演算法,結果發現都不適合臨床使用,只有兩個演算法可能在未來會對臨床上的檢測有所幫助。這項研究結果以一篇評論文章的形式發表在英國醫學雜誌(British Medical Journal)上,到現在這篇文章仍在隨著新工具的釋出和研究者對現有工具的測試而進行更新。

對於這樣的結果 Laure Wynants 說道:“這十分令人震驚。我帶著這樣的擔憂開始了這項工作,但是這個結果超出了我的預想,讓我非常恐懼。”

▲ 荷蘭馬斯特裡赫特大學流行病學家 Laure Wynants

劍橋大學機器學習研究員 Derek Driggs 及其同事進行的另一項研究結果也得出了相同的結論。該團隊利用深度學習模型診斷新冠肺炎,並讓 AI 通過胸部 X 射線和 CT 掃描來預測患者的患病風險。他們研究了 415 種已經公開的 AI 工具,但是結果和 Laure Wynants 的發現一致,沒有一個工具適合臨床使用。

這項研究結果被髮表在 Nature Machine Intelligence 上,論文題目為《使用機器學習通過胸片和 CT 掃描檢測和預測 COVID-19 的常見缺陷和建議(Common pitfalls and recommendations for using machine learning to detect and prognosticate for COVID-19 using chest radiographs and CT scans)》。

Derek Driggs 正在研究一種機器學習工具,希望能夠在新冠疫情流行期間幫助醫生,他說:“這次的疫情是一次對 AI 和醫學的重大考驗,不過我認為我們沒有通過這個考驗。”

儘管結果如此,Laure Wynants 和 Derek Driggs 仍相信 AI 有潛力為醫生提供幫助,同時他們也擔心以錯誤的方式構建的 AI 工具不僅不會產生幫助甚至還會有害,因為這樣可能會使醫生做出錯誤的診斷或低估患者的病情。

Derek Driggs 稱,關於機器學習模型以及它的作用有很多炒作,人們對它們不切實際的期望促使這些工具被提前投入使用。Laure Wynants 和 Derek Driggs 研究的數百種 AI 工具中的一部分已經被一些醫院所使用,而有些正在被私人開發商四處兜售。“我擔心他們可能傷害了病人。”Laure Wynants 說。

新冠疫情讓很多研究人員清楚的看到他們需要改變 AI 工具的構建方式。Laure Wynants 談道:“新冠疫情的流行讓這個問題成為了人們關注的焦點。”

二、訓練 AI 的資料錯誤太多,讓 AI 學習結果出偏差

研究人員發現,這些 AI 工具出現的問題很多都與開發者用來開發工具的資料質量有關。在新冠疫情蔓延期間,通常是治療新冠肺炎的醫生收集和共享關於這一疾病的資訊,包括醫學掃描影象。而這些資訊和資料是工具開發者唯一可用的公共資料集,這意味著很多是使用錯誤標記的資料或未知來源的資料構建的。

Derek Driggs 強調了這個他稱作“Frankenstei”資料集的問題,這些資料集是從多個來源拼接在一起的,可能包含重複項。這意味著某些工具最終進行測試的資料可能與它們訓練時使用的資料相同,讓它們看起來比實際上更加準確。

開發者還有可能混淆了某些資料集的來源,這可能會錯過一些影響模型訓練結果的重要特徵。比如有些人在不知不覺中使用了一個數據集,其中包含沒有感染過新冠病毒的兒童的胸部掃描圖,並將這些作為非新冠病毒感染病例的示例。結果 AI 學會的是如何識別兒童,而不是識別新冠病毒。

Derek Driggs 的小組嘗試使用一個數據集來訓練自己的模型,該資料集中包含患者躺下和站起來時的混合掃描。由於躺下進行掃描的患者更有可能患有重病,因此 AI 錯誤地學會了從一個人的站立或躺下來預測患病嚴重程度。

還有一種情況,研究者發現一些 AI 會對某些醫院用來標記掃描結果的文字字型產生反應,結果來自接收重症患者醫院的字型成為了預測新冠肺炎患病風險的指標。

事後看來,這些錯誤似乎很容易被發現,如果開發者知道它們,也可以通過調整模型來進行修復。但是,許多工具要麼是由缺乏醫學專業知識的 AI 研究員開發的,他們很難從中發現數據缺陷;要麼是由缺乏數學技能的醫學研究人員開發的,他們很難用專業知識來彌補這些資料缺陷。

Derek Driggs 還提到了一個更微妙的錯誤,那就是合併偏差(incorporation bias),或者說是資料集被標註時引入的偏差。例如,許多醫學掃描是根據放射科醫生對於它們是否顯示出新冠病毒的判斷來標記的,但是這會將一些醫生的偏見嵌入或合併到資料集中。Derek Driggs 說,用 PCR 測試的結果來標記醫學掃描會比僅聽醫生的意見要好得多,但是在醫院裡往往沒那麼多時間去統計這些細節。

Laure Wynants 稱這些已知的錯誤並沒有阻止其中一些工具被匆忙投入臨床實踐,目前尚不清楚哪些正在被使用,也不知道它們被如何使用。醫院有時會說他們僅將工具用於研究目的,這讓研究者很難評估醫生對這些 AI 工具的依賴程度。

Laure Wynants 曾要求一家銷售深度學習演算法的公司分享有關其方法的資訊,但是並沒有得到迴應。後來她從與這家公司有關的研究人員那裡得到了幾個已經發表了的模型,不出任何意外,這些模型都有著很高的偏見風險。

“我們實際上並不知道這家公司都做了哪些工作。甚至一些醫院還與醫療 AI 的供應商簽了保密協議。”Laure Wynants 說。當她問醫生使用的什麼演算法或軟體時,會被告知醫院不允許醫生將這些說出去。

三、AI 開發者要與臨床醫生合作,專家呼籲“資料共享”

更加完善的資料可能會對解決這個問題有所幫助,但是在危機時期,這個要求很難做到。Derek Driggs 稱,更重要的是要充分利用已經擁有的資料集,應該讓 AI 開發團隊與臨床醫生進行更多合作。開發者要分享他們的模型,並公開他們是如何訓練這些模型的,以便其他人可以測試它們並以此為基礎來正確的使用。

“這是我們現在能夠做到的幾件事,它們可能會解決我們發現的 50% 的問題。”Derek Driggs 說。

總部位於倫敦的全球健康研究慈善機構 Wellcome Trust 的臨床技術團隊負責人 Bilal Mateen 說,如果格式標準化,獲取資料也更加容易。

Laure Wynants、Derek Driggs 和 Bilal Mateen 都發現的一個問題是,大多數開發者都急於開發自己的模型,而不是和他人合作或改進現有模型。這樣造成的結果是全世界的開發者集體努力創造出了數百種無用的工具,而不是共同創造出幾種經過訓練和測試的工具。

Laure Wynants 說:“這些模型非常相似,它們都使用了幾乎相同的技術,只是進行了稍微的調整,輸入幾乎相同的資料,並且犯了幾乎同樣的錯誤。”

“從某種意義上說這是研究領域的老毛病了。學術研究人員幾乎沒有任何動機去分享工作經驗或驗證現有結果。將技術從實驗室工作臺帶到病床邊的最後一英里是沒有回報的。”Bilal Mateen 說。

為了解決這個問題,世界衛生組織正在考慮簽訂一份緊急資料共享協議,該協議將在國際健康危機期間生效。這會讓研究人員更容易地跨境共享資料。在 6 月份英國舉行 G7 峰會之前,來自參與國的領先科學團體也呼籲“準備好資料”,為未來的突發衛生事件做好準備。

這樣的呼籲聽起來有點含糊不清,並且帶有著一絲一廂情願的想法。在新冠疫情爆發之前,這類共享資料的舉措已經停滯。

Bilal Mateen 認為,新冠疫情讓很多事情重新提上了議程。他說:“除非我們都認同在解決共享資料這一問題之前要先克服資料不能共享背後的難題,否則我們註定要重複同樣的錯誤。如果這樣的錯誤再次發生,將是不可接受的,忘記這次全球疫情的教訓是對逝者的不尊重。”

結語:AI 在抗疫大戰中暴露短板

新冠疫情是一場席捲全球的災難。抗擊新冠疫情不是某個人、某個團體或某個國家的責任,而是全人類都要參與的一場鬥爭。

這場鬥爭中,AI 被寄予了厚望,眾多研究團隊參與其中開發各種 AI 工具,希望能夠幫助醫生來檢測和診斷新冠。但是事實證明,這些 AI 工具並沒有起到真正有效的作用。不過,這並不能否定 AI 在疾病診斷方面的潛力

要讓 AI 實現對新冠病毒的檢測,一方面需要更加準確完善的資料集對它進行訓練,另一方面也需要 AI 工具的開發者與醫學領域的專家進行合作,以便能夠更加有效的發現其中存在的漏洞。

此外應對此類全球的健康危機還需要各國共同創造出一個開放的研究環境,讓各類相關的研究資料能夠更加自由的在各國的科研團體之間流動,這樣才能讓研究成果更加有效的用於對疾病的抗爭中。

只要訓練方式得當,AI 能夠更高效、更準確的對疾病做出診斷,但是很可惜一些被寄予厚望的 AI 工具在新冠疫情的鬥爭中並沒有表現出應有的能力。這次全球疫情帶來的教訓或許能讓 AI 開發者和相關組織機構認識到其中的不足,為下次全球可能出現的新危機做好準備。