數據集:一文道盡醫學圖像數據集與競賽
數據集:一文道盡醫學圖像數據集與競賽
在AI與深度學習逐漸發展成熟的趨勢下,人工智能和大數據等技術開始進入了醫療領域,它們把現有的一些傳統流程進行優化,大幅度提高各種流程的效率、精度、用戶體驗,同時也緩解了醫療資源的壓力和精確度不夠的問題。
01醫學數據集
智能醫療有很多的發展方向,例如醫學影像處理、診斷預測、疾病控制、健康管理、康復機器人、語音識別病歷電子化等。當前人工智能技術新的發力點中的醫學圖像在疾病的預測和自動化診斷方面有非常大的意義,本篇即針對醫學影像中的病例分析,降噪,分割,檢索等領域來介紹一些常用的數據集。
1.1 病例分析數據集
1.1.1 ABIDE
數據集地址:
http://preprocessed-connectomes-project.org/abide/
發布於2013年,這是一個對自閉癥內在大腦結構的大規模評估數據集,包括539名患有ASD和573名正常個體的功能MRI圖像。
1.1.2 OASIS
數據集地址:http://www.oasis-brains.org/
OASIS,全稱為Open Access Series of Imaging Studies,已經發布了第3代版本,第一次發布於2007年,是一項旨在使科學界免費提供大腦核磁共振數據集的項目。它有兩個數據集可用,下面是第1版的主要內容。
(1) 橫截面數據集:年輕,中老年,非癡呆和癡呆老年人的橫斷面MRI數據。該組由416名年齡在18歲至96歲的受試者組成的橫截面數據庫組成。對於每位受試者,單獨獲得3或4個單獨的T1加權MRI掃描包括掃描會話。受試者都是右撇子,包括男性和女性。100名60歲以上的受試者已經臨床診斷為輕度至中度阿爾茨海默病。
(2) 縱向集數據集:非癡呆和癡呆老年人的縱向磁共振成像數據。該集合包括150名年齡在60至96歲的受試者的縱向集合。每位受試者在兩次或多次訪視中進行掃描,間隔至少一年,總共進行373次成像。對於每個受試者,包括在單次掃描期間獲得的3或4次單獨的T1加權MRI掃描。受試者都是右撇子,包括男性和女性。在整個研究中,72名受試者被描述為未被證實。包括的受試者中有64人在初次就診時表現為癡呆癥,並在隨後的掃描中仍然如此,其中包括51名輕度至中度阿爾茨海默病患者。另外14名受試者在初次就診時表現為未衰退,隨後在隨後的訪視中表現為癡呆癥。
1.1.3 DDSM
數據集地址:
http://marathon.csee.usf.edu/Mammography/Database.html
發布於2000年,這是一個用於篩選乳腺攝影的數字數據庫,是乳腺攝影圖像分析研究社區使用的資源。該項目的主要支持來自美國陸軍醫學研究和裝備司令部的乳腺癌研究計劃。DDSM項目是由馬薩諸塞州綜合醫院(D. Kopans,R. Moore),南佛羅裏達大學(K.Bowyer)和桑迪亞國家實驗室(P. Kegelmeyer)共同參與的合作項目。數據庫的主要目的是促進計算機算法開發方面的良好研究,以幫助篩選。數據庫的次要目的可能包括開發算法以幫助診斷和開發教學或培訓輔助工具。該數據庫包含約2,500項研究。每項研究包括每個乳房的兩幅圖像,以及一些相關的患者信息(研究時間,ACR乳房密度評分,異常微妙評級,異常ACR關鍵字描述)和圖像信息(掃描儀,空間分辨率等)。包含可疑區域的圖像具有關於可疑區域的位置和類型的像素級“地面真實”信息。
1.1.4 MIAS
數據集地址:
http://peipa.essex.ac.uk/pix/mias/all-mias.tar.gz
https://www.repository.cam.ac.uk/handle/1810/250394?show=full
MIAS全稱為MiniMammographic Database,是乳腺圖像數據庫。
乳腺MG數據(Breast Mammography)有個專門的database,可以查看很多數據集,鏈接地址為:
http://www.mammoimage.org/databases/
1.1.5 MURA
數據集地址:
https://stanfordmlgroup.github.io/competitions/mura/
發布於2018年2月,吳恩達團隊開源了 MURA 數據庫,MURA 是目前最大的 X 光片數據庫之一。該數據庫中包含了源自14982項病例的40895張肌肉骨骼X光片。1萬多項病例裏有9067例正常的上級肌肉骨骼和5915例上肢異常肌肉骨骼的X光片,部位包括肩部、肱骨、手肘、前臂、手腕、手掌和手指。每個病例包含一個或多個圖像,均由放射科醫師手動標記。全球有超過17億人都有肌肉骨骼性的疾病,因此訓練這個數據集,並基於深度學習檢測骨骼疾病,進行自動異常定位,通過組織器官的X光片來確定機體的健康狀況,進而對患者的病情進行診斷,可以幫助緩解放射科醫生的疲勞。
公開可用的醫學射線照相圖像數據集概述
參考2018年論文:MURA: Large Dataset for Abnormality Detection inMusculoskeletal Radiographs.
1.1.6 ChestX-ray14
數據集地址:
https://www.kaggle.com/nih-chest-xrays/data
https://nihcc.app.box.com/v/ChestXray-NIHCC
參考論文:
CheXNet: Radiologist-Level Pneumonia Detection on Chest X-Rays with DeepLearning
ChestX-ray14 是由NIH研究院提供的,其中包含了30,805名患者的112,120個單獨標註的14種不同肺部疾病(肺不張、變實、浸潤、氣胸、水腫、肺氣腫、纖維變性、積液、肺炎、胸膜增厚、心臟肥大、結節、腫塊和疝氣)的正面胸部 X 光片。研究人員對數據采用NLP方法對圖像進行標註。利用深度學習的技術早期發現並識別胸透照片中肺炎等疾病對增加患者恢復和生存的最佳機會至關重要。
1.1.7 LIDC-IDRI
數據集地址:
https://wiki.cancerimagingarchive.net/display/Public/LIDC-IDRI
LIDC-IDRI數據集是由美國國家癌癥研究所(National Cancer Institute)發起收集的,目的是為了研究高危人群早期肺結節檢測。該數據集中,共收錄了1018個研究實例。對於每個實例中的圖像,都由4位經驗豐富的胸部放射科醫師進行兩階段的診斷標註。該數據集由胸部醫學圖像文件(如CT、X光片)和對應的診斷結果病變標註組成。
1.1.8 LUNA16
數據集地址:
https://luna16.grand-challenge.org/Home/
發布於2016年,是肺部腫瘤檢測最常用的數據集之一,它包含888個CT圖像,1084個腫瘤,圖像質量和腫瘤大小的範圍比較理想。數據分為10個subsets,subset包含89/88個CT scan。
LUNA16的CT圖像取自LIDC/IDRI數據集,選取了三個以上放射科醫師意見一致的annotation,並且去掉了小於3mm的腫瘤,所以數據集裏不含有小於3mm的腫瘤,便於訓練。
1.1.9 NSCLC
數據集地址:
https://wiki.cancerimagingarchive.net/display/Public/NSCLC+Radiogenomics
發布於2018年,來自斯坦福大學。數據集來自211名受試者的非小細胞肺癌(NSCLC)隊列的獨特放射基因組數據集。該數據集包括計算機斷層掃描(CT),正電子發射斷層掃描(PET)/ CT圖像。創建該數據集是為了便於發現基因組和醫學圖像特征之間的基礎關系,以及預測醫學圖像生物標記的開發和評估。
1.1.10 DeepLesion
數據集地址:
https://nihcc.app.box.com/v/DeepLesion
DeepLesion由美國國立衛生研究院臨床中心(NIHCC)的團隊開發,是迄今規模最大的多類別、病竈級別標註臨床醫療CT圖像開放數據集。在該數據庫中圖像包括多種病變類型,目前包括4427個患者的32,735 張CT圖像及病變信息,同時也包括腎臟病變,骨病變,肺結節和淋巴結腫大。DeepLesion多類別病變數據集可以用來開發自動化放射診斷的CADx系統。
1.1.11 ADNI
數據集地址:
http : //adni.loni.usc.edu/data-samples/access-data/
ANDI涉及到的數據集包括如下幾部分Clinical Data(臨床數據)、MR Image Data(磁共振成像)、Standardized MRI Data Sets、PET Image Data(正電子發射計算機斷層掃描)、Gennetic Data(遺傳數據)、Biospecimen Data(生物樣本數據)。
1.2 醫學降噪數據集
1.2.1 BrainWeb數據集
數據集地址:
http://brainweb.bic.mni.mcgill.ca/brainweb/
發布於1997年,這是一個仿真數據集,用於醫學圖像降噪。研究者可以截取不同斷層的正常腦部仿真圖像,包括T1,T2,PD3種斷層,設置斷層的厚度,疊加高斯噪聲或者醫學圖像中常見的萊斯噪聲,最終會得到181×217大小的噪聲圖像。
1.3 醫學分割數據集
1.3.1 DRIVE數據集
數據集地址:
http://www.isi.uu.nl/Research/Databases/DRIVE/download.php
發布於2003年,這是一個用於血管分割的數字視網膜圖像數據集,它由40張照片組成,其中7張顯示出輕度早期糖尿病視網膜病變跡象。
1.3.2 SCR數據集
數據集地址:
http://www.isi.uu.nl/Research/Databases/SCR/
發布於2000年,胸部X光片的分割,胸部X光片中解剖結構的自動分割對於這些圖像中的計算機輔助診斷非常重要。SCR數據庫的建立是為了便於比較研究肺野,心臟和鎖骨在標準的後胸前X線片上的分割。
本著合作科學進步的精神,我們可以自由共享SCR數據庫,並致力於在這些分割任務上維護各種算法結果的公共存儲庫。在這些頁面上,可以在下載數據庫和上載結果時找到說明,並且可以檢查各種方法的基準結果。
1.3.3 醫學圖像分析benchmark
在網址https://grand-challenge.org/challenges/提供了時間跨度超過10年的醫學圖像資料。
1.3.4 Ardiac MRI
數據集地址:
http://www.cse.yorku.ca/~mridataset/
ardiac MRI 是心臟病患者心房醫療影像數據,以及其左心室的心內膜和外膜的圖像標註。包括33位患者案例,每個受試者的序列由沿著長的20幀和8-15個切片組成,共7980張圖像。
1.3.5 NIH
數據集地址:
https://www.kaggle.com/nih-chest-xrays
發布於2017年,這是一個胸部X射線數據集,包含30,805個患者,14個疾病圖像標簽(其中每個圖像可以具有多個標簽),112,820個正面X射線圖像,標簽是使用自然語言處理從相關的放射學報告中自動提取。十四種常見的胸部病變包括肺不張,鞏固,浸潤,氣胸,水腫,肺氣腫,纖維化,積液,肺炎,胸膜增厚,心臟擴大,結節,腫塊和疝。由於許多原因,原始放射學報告(與這些胸部X射線研究相關)並不是公開分享的。所以文本挖掘的疾病標簽預計準確度 > 90%,這個數據集適合做半監督的學習。
1.4 List of Open Access
在List of Open Access Medical Imaging Datasets網站上可以看到更多的相關方向的數據集。
數據集地址:
http://www.radrounds.com/profiles/blogs/list-of-open-access-medical-imaging-datasets
02醫學競賽
2.1 VISCERAL
地址鏈接:http://www.visceral.eu/
VISCERAL 是Visual Concept Extraction Challenge in Radiology的縮寫,是放射學中的視覺概念提取挑戰賽。他們提供幾種不同成像模式(例如CT和MR)的幾種解剖結構(例如腎,肺,膀胱等)的放射學數據以及一個雲計算實例。
2.2 Grand Challenges
地址鏈接:
https://grand-challenge.org/challenges/
提供了醫學圖像分析領域內所有挑戰的概述,下面舉的例子是2019年的醫學圖像方面將要舉辦的競賽。
2.3 Dream Challenges
地址鏈接:http : //dreamchallenges.org/
這個挑戰賽中包括有數字乳腺攝影夢想挑戰;ICGC-TCGA DREAM體細胞突變稱為RNA挑戰(SMC-RNA)等等。
03總結
最後提供給對醫學影像處理感興趣的童鞋一個超級贊的github鏈接如下:
https://github.com/beamandrew/medical-data
這是Github上哈佛 beamandrew機器學習和醫學影像研究者貢獻的數據集,包括了醫學影像數據、競賽數據、來自電子健康記錄的數據、醫療數據、UCI數據集、生物醫學文獻等。
數據集:一文道盡醫學圖像數據集與競賽