將自己的dcm資料製作成LUNA16資料集提供資料樣式。

阿新 • • 發佈：2018-12-29

1.先說下luna資料樣式。一個CT序列在LUNA16資料集主要是由一個mhd檔案一個raw檔案以及一個或多個csv檔案（以一個為例不做那麼多區分（3mm以下不做處理等））。以下為LUNA16資料集的csv格式：

seriesuid,coordX,coordY,coordZ,class
1.3.6.1.4.1.14519.5.2.1.6279.6001.100225287222365663678666836860,68.42,-74.48,-288.7,0

2.再說下我得到資料樣式。一個CT序列的所有dcm檔案以及對應的csv檔案。csv格式：

UID,FileName,StudyInstanceUID,SeriesInstanceUID,SOPInstanceUID,FractureType,RibPosition,Annotation,CoordX,CoordY
20181213115819943,0XeuArlv0F0u0FG20wTxArGp1ZCtyXlp0v4u0V4vyXlu0rOp1E4uyXCp1wG31Flp0wet0ret0FTu0Few0rlzArGw0wG50reuAr0v1wZpDl11ee==,0E4vyXT2yXO21FC30F0zyXOp1rcu1F03yXct0FTu0Fex0FKu1Fewee==,0E4wyXlvyXcp0Flt1v4zyXlp1o431FOz0E4w0ret0reuArlu0r0t0FG41F0w1FZt0rl40wcu1ee=,0E4wyXlvyXcp0Flt1v4zyXlp1o431FOz0E4w0ret0reuArlu0r0t0FG41F0w1FZt0rl40wc3ACe=,無錯位,4,L,415;404;401;409;430;433;435;427;415;,233;250;268;289;287;270;249;233;233;

FileName,StudyInstanceUID,SeriesInstanceUID,SOPInstanceUID 是經過加密的。解下密就ok了這裡就不多敘述。

3.將一個CT序列的所有dcm檔案轉換成一個mhd檔案和一個raw檔案

參考部落格 https://blog.csdn.net/zhuang19951231/article/details/79488591 就ok。貼下程式碼如下：

import cv2
import os
import pydicom
import numpy
import SimpleITK

# 路徑和列表宣告
PathDicom = "E:/DcmData/xlc/Fracture_data/Me/3004291153/3307885/"  # 與python檔案同一個目錄下的資料夾,儲存dicom檔案
SaveRawDicom = "E:/DcmData/xlc/Fracture_data/mhd_raw/"  # 與python檔案同一個目錄下的資料夾,用來儲存mhd檔案和raw檔案
lstFilesDCM = []
# for root, dirs, files in os.walk(PathDicom):
#     for name in files:
#         print(os.path.join(root, name))
#     for name in dirs:
#         print(os.path.join(root, name))

# 將PathDicom資料夾下的dicom檔案地址讀取到lstFilesDCM中
for dirName, subdirList, fileList in os.walk(PathDicom):
    for filename in fileList:
        if ".dcm" in filename.lower():  # 判斷檔案是否為dicom檔案
            print(filename)
            lstFilesDCM.append(os.path.join(dirName, filename))  # 加入到列表中

# 第一步：將第一張圖片作為參考圖片，並認為所有圖片具有相同維度
RefDs = pydicom.read_file(lstFilesDCM[0])  # 讀取第一張dicom圖片
print(RefDs.SOPInstanceUID)
# 第二步：得到dicom圖片所組成3D圖片的維度
ConstPixelDims = (int(RefDs.Rows), int(RefDs.Columns), len(lstFilesDCM))  # ConstPixelDims是一個元組

# 第三步：得到x方向和y方向的Spacing並得到z方向的層厚
ConstPixelSpacing = (float(RefDs.PixelSpacing[0]), float(RefDs.PixelSpacing[1]), float(RefDs.SliceThickness))

# 第四步：得到影象的原點
Origin = RefDs.ImagePositionPatient

# 根據維度建立一個numpy的三維陣列，並將元素型別設為：pixel_array.dtype
ArrayDicom = numpy.zeros(ConstPixelDims, dtype=RefDs.pixel_array.dtype)  # array is a numpy array

# 第五步:遍歷所有的dicom檔案，讀取影象資料，存放在numpy陣列中
i = 0
for filenameDCM in lstFilesDCM:
    ds = pydicom.read_file(filenameDCM)
    ArrayDicom[:, :, lstFilesDCM.index(filenameDCM)] = ds.pixel_array
    #cv2.imwrite("out_" + str(i) + ".png", ArrayDicom[:, :, lstFilesDCM.index(filenameDCM)])
    i += 1

# 第六步：對numpy陣列進行轉置，即把座標軸（x,y,z）變換為（z,y,x）,這樣是dicom儲存檔案的格式，即第一個維度為z軸便於圖片堆疊
ArrayDicom = numpy.transpose(ArrayDicom, (2, 0, 1))

# 第七步：將現在的numpy陣列通過SimpleITK轉化為mhd和raw檔案
sitk_img = SimpleITK.GetImageFromArray(ArrayDicom, isVector=False)
sitk_img.SetSpacing(ConstPixelSpacing)
sitk_img.SetOrigin(Origin)
SimpleITK.WriteImage(sitk_img, os.path.join(SaveRawDicom, "3307885" + ".mhd"))

比較困惑的就是ArrayDicom = numpy.transpose(ArrayDicom, (2, 0, 1)) 這步，後來研究了下發現luna資料集裡也是這樣的。還有就是生成兩個檔案時，名字跟luna資料集的名字不一樣。這裡後面再說。

4.自己資料集的csv對應成LUNA16資料集的csv格式。

4.1 分別更改每個dcm檔案的檔名為SOPInstanceUID欄位，程式碼如下：

import os
import pydicom
PathDicom = "E:/DcmData/xlc/Fracture_data/Me/3004276169/3302845/"
def getSubPaths(dir):
    list = []
    # 判斷路徑是否存在
    if (os.path.exists(dir)):
        # 獲取該目錄下的所有檔案或資料夾目錄
        files = os.listdir(dir)
        for file in files:
            # 得到該檔案下所有目錄的路徑
            m = os.path.join(dir, file)
            print(m)
            mp=os.path.splitext(file)[0] #獲取檔名字首,[-1]為字尾。
            print(mp)
            if ".dcm" in file.lower():
                RefDs = pydicom.read_file(m)
                filename = RefDs.SOPInstanceUID
                os.rename(m, os.path.join(dir, filename + ".DCM"))

    #return list
getSubPaths(PathDicom)

4.2 怎麼建立CSV並寫入資料

參考 https://blog.csdn.net/waple_0820/article/details/70049953 有兩種（csv和pandas.to_csv），最終選擇pandas.to_csv另一種麻煩。演示程式碼如下：

import pandas as pd

#任意的多組列表
a = [1,2,3]
b = [4,5,6]
c = [7,8,9]
d = [10,11,12]
e = [13,14,15]

#字典中的key值即為csv中列名
dataframe = pd.DataFrame({'seriesuid':a,'coordX':b,'coordY':c,'coordZ':d,'class':e})

#將DataFrame儲存為csv,index表示是否顯示行名，default=True
dataframe.to_csv("test.csv",index=False,sep=',')

4.3 由於CSV資料轉為LUNA16資料集中資料的樣式。

import pandas as pd
import os
import pydicom
import csv
import numpy as np
#任意的多組列表
seriesuid = []
coordX = []
coordY = []
coordZ = []
DX = []
DY = []
cl = []
candidates = r'E:/DcmData/xlc/Fracture_data/Me/3004276169/3302845/RibFracture.dec'
PathDicom = "E:/DcmData/xlc/Fracture_data/Me/3004276169/3302845/"


##pandas多個引數分割不出
# candidatesList = pd.read_csv(candidates)
# for type in candidatesList['SOPInstanceUID'],candidatesList['FractureType'],candidatesList['CoordX'],candidatesList['CoordY']:
#     sum=type[0].split('/n')
#     print(sum[0])
#     m = os.path.join(PathDicom, type+'.DCM') #標記的dcm檔案
#     RefDs = pydicom.read_file(m)
#     coordZ.append(RefDs.ImagePositionPatient[2])

# #使用csv,發現dec用不了，還是用pandas
# def readCSV(filename):
#     lines = []
#     with open(filename, "r") as f:
#         csvreader = csv.reader(f)
#         for line in csvreader:
#             lines.append(line)
#     return lines
# candidatesList = readCSV(candidates)
# for cand in candidatesList:
#     print(cand)


##pandas
candidatesList = pd.read_csv(candidates)
print(len(candidatesList))
for i in range(len(candidatesList)):
    m = os.path.join(PathDicom, candidatesList.loc[i][5]+'.DCM')
    RefDs = pydicom.read_file(m)
    coordZ.append(RefDs.ImagePositionPatient[2])

    seriesuid.append(RefDs.SeriesInstanceUID)

    deslist = np.array(['正常', '隱匿型', '無錯位', '有錯位', '有骨痂', '畸形癒合'])
    typelist = np.zeros(6)
    for j in range(6):
        if candidatesList.loc[i][6] == deslist[j]:
            cl.append(j)
            break

    X = candidatesList.loc[i][9].split(';')
    Y = candidatesList.loc[i][10].split(';')
    ax = []
    ay = []
    for xi in range(len(X)-1):
        ax.append(X[xi])
    for yi in range(len(Y)-1):
        ay.append(Y[yi])
    ax = list(map(float, ax))
    ay = list(map(float, ay))
    minx = np.min(ax)*RefDs.PixelSpacing[0]+RefDs.ImagePositionPatient[0]
    maxx = np.max(ax)*RefDs.PixelSpacing[0]+RefDs.ImagePositionPatient[0]
    miny = np.min(ay)*RefDs.PixelSpacing[1]+RefDs.ImagePositionPatient[1]
    maxy = np.max(ay)*RefDs.PixelSpacing[1]+RefDs.ImagePositionPatient[1]
    coordX.append(minx)
    coordY.append(miny)
    DX.append(maxx-minx)
    DY.append(maxy-miny)
print(len(seriesuid),len(coordX),len(coordY),len(coordZ),len(DX),len(DY),len(cl))

#字典中的key值即為csv中列名(放一起它的順序很亂，只能一個一個往後面插入)
dataframe = pd.DataFrame({'seriesuid':seriesuid})
dataframe['coordX'] = coordX
dataframe['coordY'] = coordY
dataframe['coordZ'] = coordZ
dataframe['DistanceX_mm'] = DX
dataframe['DistanceY_mm'] = DY
dataframe['class'] = cl
print (dataframe)
#將DataFrame儲存為csv,index表示是否顯示行名，default=True
dataframe.to_csv("test.csv",index=False,sep=',')

轉化之後的格式如下：

seriesuid,coordX,coordY,coordZ,DistanceX_mm,DistanceY_mm,class
1.3.12.2.1107.5.1.4.75751.30000018110301585335900183214,112.599609375,-160.556640625,-436.5,23.5078125,38.71875,2

4.4多個csv合併

參考 https://blog.csdn.net/qq_16949707/article/details/76099310

程式碼如下：

import pandas as pd
import os
import glob
csv_files = glob.glob('E:/DcmData/xlc/Fracture_data/Me/*.csv')
df = df = pd.DataFrame(columns=['seriesuid', 'coordX', 'coordY', 'coordZ', 'DistanceX_mm','DistanceY_mm','class'])
for csv in csv_files:
    df = pd.merge(df,pd.read_csv(csv),how='outer')
    os.remove(csv)
df_to_save = pd.DataFrame(df,columns=['seriesuid', 'coordX', 'coordY', 'coordZ', 'DistanceX_mm','DistanceY_mm','class'])
df_to_save.to_csv('annotations.csv',index=False)

執行程式這樣就大功告成了。

將自己的dcm資料製作成LUNA16資料集提供資料樣式之程式碼整理

1.獲取mhd和raw import cv2 import os import pydicom import numpy import SimpleITK # 路徑和列表宣告 rootpath="E:/DcmData/xlc/Fracture_data/Me/" PathDicom = "E:

將自己的dcm資料製作成LUNA16資料集提供資料樣式。

1.先說下luna資料樣式。一個CT序列在LUNA16資料集主要是由一個mhd檔案一個raw檔案以及一個或多個csv檔案（以一個為例不做那麼多區分（3mm以下不做處理等））。以下為LUNA16資料集的csv格式： seriesuid,coordX,coordY,coordZ,class 1.3.

把自己的資料製作成voc2007資料格式用於SSD訓練

我們使用SSD訓練自己的資料集,就要製作成voc2007的資料格式,然後才能轉化資料格式進行訓練. 第一步：首先了解VOC2007資料集的內容 1)JPEGImages資料夾資料夾裡包含了訓練圖片和

AI_Scene classification 資料製作成TFrecord 格式

# encoding: utf-8 ''' @author: tourior @software: python3.6 @file: Tfrecord.py @time: 2017/10/10 10:35 @desc: ''' import tensorflow as tf impor

Ubuntu 將本地檔案源製作成ISO檔案

以下操作請到相應資料夾操作 1.安裝 genisoimage sudo apt-get install genisoimage 2.使用 mkisofs製作iso檔案 sudo mkisofs -r -o XXX.iso /targ /

將自己手動標註的資料集(PascalVOC格式)轉化為.TFRecord格式

“ 一個人如果不能學會遺忘，那將是很痛苦的事，別再自尋煩惱，快把痛苦的事給忘了吧！” 為了能夠使用Object Detection API~ 需要將資料集格式轉化為.TFRecord再進行訓練~ 至於，如何使用Tensorflow官方的Objec

Tensorflow教程學習筆記（一）----將自己的資料集轉換成TFRecord

import tensorflow as tf import numpy as np import os import matplotlib.pyplot as plt import skimage.io as io os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2' # %%

用caffe將自己的影象資料轉換成lmdb

前提：使用convert_imageset.exe的前提是成功編譯caffe，在編譯成功caffe後，可將編譯caffe時的caffe.cpp去掉，設定生成方式為lib，生成lib檔案，供其他的函式

SQL之merge into 批量更新資料 Merge關鍵字是一個神奇的DML關鍵字。它在SQL Server 2008被引入，它能將Insert,Update,Delete簡單的併為一句。M

轉載http://www.cnblogs.com/ruiati/archive/2013/01/18/2866017.html Merge關鍵字是一個神奇的DML關鍵字。它在SQL Server 2008被引入，它能將Insert,Up

從鍵盤輸入三個整數a、b、c，要求將輸出的資料按從大到小排序後輸出。

#include<stdio.h> int main() { int a,b,c,t; scanf("%d%d%d",&a,&b,&c); if(a>b) { t=a; a=b; b=t; } if(a>c) { t=a; a=c; c=t

根據id在同一張表中查出兩條資料，並將這兩條資料用“-”拼起來作為一條資料返回

area表 id areaname 25 雲南省 417 玉溪市要求：在area表中根據id查出兩條資料，將這兩條資料用"-"拼起

將科學記數法轉換String顯示，顯示資料為資料庫值

在這樣頁面顯示上顯示的是科學記數法，這樣給檢視的人員檢視合同數量的時候帶來了很大的不便，所以要改變這樣的顯示的樣式，將下面的顯示的方式改成其最原本的資料顯示出來通過相應的方法可以轉換其成為原值： public static String double

如何將10進位制資料儲存為2進位制資料（IMG2LCD的使用，pic2bin）

背景 fpga處理大資料時從txt讀取資料形式為2進位制或者16進位制，&readmemb/&readmemh,所以需要將資料轉換為二進位制或十六進位制存在txt中。針對影象而言可以參考exe>IMG2LCD 下

將ContextCapture生成的點雲資料轉化為PCL可以處理的資料格式

示例程式碼： file = open('point2.txt') # 讀取所需資料 val_list = file.readlines() list_x = [] list_y = [] list_z = [] list_rgb = [] for string in val_list:

將表格資料處理為帶【】的資料

首先，將需要用到的表格資料在Excel中處理一下，將空著的格子中填入0，具體操作，參見之後將需要融合的列資料的每一列單獨儲存在檔案中（直接選中列，複製貼上）。 Java部分的核心程式碼： public static void main(String[] ar

將Excel表中的資料轉換成XML 並對XML資料進行讀取

EXCEL 轉換成 XML 工具類 using System; using System.Collections.Generic; using System.Data; using System.Data.OleDb; using System.Xml; usi

將jar包製作成docker映象

1、準備可執行jar包 2、建立Dockerfile檔案檔案內容： FROM java:8 ADD api-gateway-microservice-0.1.0.jar app.jar RUN bash -c 'touch /app.jar' ENT

製作man手冊命令的pdf檔案，將man手冊製作成pdf檔案

製作指定命令的pdf檔案，將其打印出來很多時候我們常用的命令也就那麼幾個，如果全部打印出來，翻起來不僅費時還容易找不到和打亂思路。將其打印出來便可以省時省力，或者用pdf工具檢視也可快速定位。 man -t mount | ps2pdf -> mount.pdf

將ubuntu系統製作成iso映象檔案

Q：能否將當前的ubuntu系統製作成iso映象檔案，這樣就能夠將現在使用的ubuntu系統進行備份，然後就可以直接安裝使用了？ A1：http://www.linux-live.org/

如何將linux系統製作成iso映象檔案？通過Mondo Rescue工具將linux系統製作成ISO映象

通過Mondo Rescue開源工具來實現linux系統的打包備份，如果你經常需要安裝很多軟體在伺服器上，並且伺服器較多，那麼是否需要直接將你已安裝好的系統打包成映象檔案，然後製作成你自己的系統，之後只需要直接安裝就可以了。那麼mondo rescue這個工具絕對可以滿足

將自己的dcm資料製作成LUNA16資料集提供資料樣式。

1.先說下luna資料樣式。一個CT序列在LUNA16資料集主要是由一個mhd檔案一個raw檔案以及一個或多個csv檔案（以一個為例不做那麼多區分（3mm以下不做處理等））。以下為LUNA16資料集的csv格式：

2.再說下我得到資料樣式。一個CT序列的所有dcm檔案以及對應的csv檔案。csv格式：

3.將一個CT序列的所有dcm檔案轉換成一個mhd檔案和一個raw檔案

4.自己資料集的csv對應成LUNA16資料集的csv格式。

相關推薦