資料量不足，MedicalNet 如何助力醫療影像 AI 突破瓶頸？

導讀 |近日，雲+社群技術沙龍“騰訊開源技術”圓滿落幕。本次沙龍邀請了多位騰訊技術專家，深度揭祕了騰訊開源專案TencentOS tiny、TubeMQ、Kona JDK、TARS以及MedicalNet。本文是陳思巨集老師關於致力於提供基於3D醫療影像大資料的預訓練模型MedicalNet的詳細介紹。

一、醫療影像AI概述

醫療影像 AI 實際上解決的是「患者看病難，醫生診斷累」的全球普遍問題。

由於培養投入大，週期長，醫護人員的數量在短時間內很難大幅度增加，而人工智慧技術可以輔助醫療工作，緩解當前醫護資源不足的狀況。

人工智慧對於醫療領域來說，主要有兩個作用，一個是進行人群基礎篩查，另一個是提升診斷質量。對於一些簡單的疾病，人工智慧能達到較高的診斷效能，用於人群疾病初篩的工作上，在一定程度上緩解缺乏醫護人員的問題。而一些治療難度較高的疾病，人工智慧可以為醫生診斷提供參考依據，起到提醒作用。

醫療影像包含豐富的診斷資訊，是醫療診斷中非常常見的手段。醫療影像AI的“製造”方法如下：收集標註資料，再通過這些資料來訓練人工智慧模型，最終實現在系統中輸入患者影像，獲得接近資深醫師的診斷結果。

二、MedicalNet與醫療影像AI發展的關係

近年來，影象與視訊識別軟體的發展，為醫療影像 AI 提供了很大幫助。但醫護人員資源有限，標註資料成為了困難，導致可用於訓練的同分布標註資料非常少，與資料驅動的深度學習形成矛盾，這就是目前醫療影像 AI 的發展瓶頸所在。

因此對於醫療影像 AI 的研究來說，亟需找到大規模資料集以及相應的模型，為大部分小資料醫療影像AI應用提供資訊支援，而這也正是開發 MedicalNet 的動機。儘管每個同分布的醫療3D公開資料集資料量小，但多個醫療場景的資料集集合起來能形成較大規模資料集，MedicalNet 開發團隊就將這些場景的資料集收集起來，用來訓練不同的預訓練模型，再開源相關預訓練模型。這樣一來，當有使用者需要訓練一個新模型時，就可以直接用 MedicalNet 模型進行遷移學習，即便新應用中資料量較小，使用者最終仍舊可以訓練出模型。

三、MedicalNet的技術實現

在 MedicalNet 的實現過程中，有不少難題需要通過技術來解決。其中包括畫素含義不一，範圍差異大，偽影頻繁，成像質量低，邊界模糊，對比度低；不同源資料，標註缺失；同一組織解析度不一致，不同組織尺度差異大等等問題。

MedicalNet 開發團隊主要通過兩個方案來解決這些難題。首先是資料集篩選方案，主要目的是找出具備共通知識的資料集。具體做法如下：從每種場景的資料集中挑選少量資料，形成迷你資料集代理，通過代理快速訓練成小網路，最後根據迷你資料集分割預測結果的好壞判斷哪些資料集能夠保留下來。

篩選完資料集之後，採用聯合訓練方案進行訓練。先對資料進行空間和畫素歸一化預處理。為了獲取更多標註資訊，MedicalNet全部採用分割資料集。MedicalNet由編碼和解碼部分組成，編碼部分為開源的模型。為了將更多的資訊集中在編碼部分，所以就把大部分引數都集中在了編碼中。為解決資料集與資料集之間標註不統一的問題，在解碼部分使用多工形式對多個場景的標註資料進行隔離。在訓練過程中，不同的skip-connection組合用於緩解梯度消失問題。訓練完成後，編碼部分可遷移到任意分割、分類以及檢測等多種任務的模型中。

最終的實驗結果證明，在3D醫療影像應用中，MedicalNet能幫助小資料場景的網路加快收斂速度，提升預測效能。

四、Q&A

Q：MedicalNet使用程式碼是否已開源？MedicalNet有無用到醫院的某個功能上？A：MedicalNet相關程式碼已開源，詳見https://github.com/Tencent/MedicalNet，MedicalNet目前也已經用於多個落地模組中。

講師介紹

陳思巨集，騰訊視覺演算法高階研究員，14年起著手醫療影像AI相關工作，在MICCAI、TMI等頂級會議期刊發表過論文。主要致力於深度學習在醫療視訊影像和3D影像的研發與應用。

資料量不足，MedicalNet 如何助力醫療影像 AI 突破瓶頸？

一、醫療影像AI概述

二、MedicalNet與醫療影像AI發展的關係

三、MedicalNet的技術實現

四、Q&A

講師介紹

資料量不足，MedicalNet 如何助力醫療影像 AI 突破瓶頸？

百億資料量下，掌握這些Redis技巧你大概就穩住了全場

轉：百億資料量下，掌握這些Redis技巧你大概就穩住了全場

mysql主從複製，資料量大，高併發時，出現數據不一致

vue + Echarts 填坑記（Echarts資料量大，導致瀏覽器卡頓）

ASP.NET MVC匯出excel（資料量大，非常耗時的，非同步匯出）

為什麼說Volley適合資料量小，通訊頻繁的網路操作

加入醫療影像AI公司的一些感受

醫療影像AI學習路線

資料獲取成本對醫療影像AI產業化的影響

GitChat·人工智慧 | 腫瘤醫療影像 AI 識別技術實踐

mysql innodb引擎長時間使用後，資料檔案遠大於實際資料量，導致空間不足。

o(1), o(n), o(logn), o(nlogn) 隨資料量的增大，耗時的增大-轉載

POI操作大資料量Excel時，new SXSSFWorkbook(1000)例項化失敗問題解決

Hadoop學習筆記—4.初識MapReduce 一、神馬是高大上的MapReduce 　　MapReduce是Google的一項重要技術，它首先是一個程式設計模型，用以進行大資料量的計算。對於大資料

php通過手機號查詢歸屬地，使用免費介面，資料量6W+以上

mysql去重，3億多資料量

主要是解決，作為一個數據共享的資料庫，存在的資料庫統計，然後將計算的資料量輸出到自己使用的資料庫，進行主頁面展示。

Volley---適合場景：適合資料量小、頻率高的請求，為什麼？

結合生成式與判別式方法，Petuum新研究助力醫療診斷

資料量不足，MedicalNet 如何助力醫療影像 AI 突破瓶頸？

一、醫療影像AI概述

二、MedicalNet與醫療影像AI發展的關係

三、MedicalNet的技術實現

四、Q&A

講師介紹

相關推薦