【IDL程式碼庫】大資料分塊寫入HDF5檔案示例程式碼

阿新 • • 發佈：2022-05-27

IDL提供了專門針對HDF5科學資料格式的讀寫函式庫。可以參考IDL幫助的Routines (alphabetical) > Routines: H > HDF5 Routines 這個章節檢視函式列表。

如果只是簡單的讀寫HDF5檔案，可以利用下面三個函式即可：

H5_GETDATA 讀取資料
H5_LIST 檢視資料列表
H5_PUTDATA 寫入資料

注：上面3個函式用法非常簡單，這裡不再舉例。要求IDL最低版本為8.3。

下面介紹如何將一個大資料分塊寫入HDF5檔案。在test_write_h5d.pro原始碼中，分成了如下幾個步驟

（1）首先隨機建立一個大資料，利用了hanning函式（生成漢寧窗，主要用於快速傅立葉變換），再計算兩個維度的步長、步數。

（2）然後將第一個分塊資料寫入資料集，並進行第一個分塊資料的視覺化展示。

（3）最後是一個巢狀迴圈，將剩餘分塊資料動態寫入，併疊加展示每一個分塊資料。

下圖為視覺化結果，左側圖形為分塊效果，右側圖形為整體資料效果。

圖：視覺化效果

最後附上原始碼：

PRO test_write_h5d
  COMPILE_OPT idl2

  ; 建立新的 HDF5檔案，可修改
  file = 'D:\temp\mytest_h5_file.h5'
  fid = H5F_CREATE(file)

  ; 隨機建立初始維度
  random_number1 = SORT(RANDOMU(seed, 1000))
  random_number2 = SORT(RANDOMU(seed, 2000))
  dim1 = random_number1[0]>500
  dim2 = random_number2[0]>1000

  ; 每一個維度的分塊步長
  step1 = 100
  step2 = 200

  ; 每一個維度的分塊數目
  nstep1 = dim1/step1
  nstep2 = dim2/step2

  ; 重新定義大資料維度，可以完美分塊
  dim1 = nstep1*step1
  dim2 = nstep2*step2

  ; 建立一個大資料
  data = hanning(dim1,dim2)

  ; 取出第一個分塊資料
  data_segment = data[0:(step1-1),0:(step2-1)]

  ; 展示第一個分塊資料
  s = surface(data_segment, title='分塊效果展示', $
    xrange=[0,dim1-1], yrange=[0,dim2-1], layout=[2,1,1],$
    dimensions=[900,500], margin=[.2,.2,.2,.2])

  ; 根據資料建立一個datatype
  datatype_id = H5T_IDL_CREATE(data)

  ; 建立一個dataspace，並且可以進行擴充套件
  dataspace_id = H5S_CREATE_SIMPLE([step1,step2],$
    max_dimensions=[-1,-1])

  ; 建立一個dataset
  dataset_id = H5D_CREATE(fid,'Hanning', datatype_id,$
    dataspace_id, chunk_dimensions=[step1,step2])

  ; 擴充套件dataset的維度，以適應第一個分塊資料
  H5D_EXTEND,dataset_id,SIZE(data_segment,/dimensions)

  ; 將第一個分塊資料寫入dataset
  H5D_WRITE,dataset_id,data_segment

  ; 同上面操作相似，將剩下的資料分塊寫入到HDF5檔案中
  FOR ind1 = 0L, nstep1-1 DO BEGIN
    FOR ind2 = 0L, nstep2-1 DO BEGIN

      ; 如果檔案dataspace已存在，則關閉
      IF (ISA(iter_data_space_id)) THEN BEGIN
        H5S_CLOSE, iter_data_space_id
      ENDIF

      ; 如果memory dataspace已存在，則關閉
      IF (ISA(iter_data_space_id2)) THEN BEGIN
        H5S_CLOSE, iter_data_space_id2
      ENDIF

      ; 計算當前分塊的起始行列號
      start1 = ind1 * step1
      start2 = ind2 * step2

      ; 獲取當前分塊資料
      data_segment = data[start1:(start1+step1-1),start2:(start2+step2-1)]
      
      ; 展示當前分塊資料
      s = surface(data_segment, layout=[2,1,1], $
        LINDGEN(step1)+start1, LINDGEN(step2)+start2, /overplot)

      ; 擴充套件dataset維度，輸入維度應該是擴充套件後維度，而不是新增的維度
      H5D_EXTEND, dataset_id, [start1+step1, start2+step2]

      ; 建立新的dataspace
      iter_data_space_id = H5D_GET_SPACE(dataset_id)

      ; 選中包含當前分塊資料的 slab
      H5S_SELECT_HYPERSLAB, iter_data_space_id, [start1,start2], $
        [step1,step2], /RESET

      ; 建立memory data space
      iter_data_space_id2 = H5S_CREATE_SIMPLE([step1,step2])

      ; 使用檔案dataspace和 Memory dataspace，將當前分塊資料寫入Dataset
      H5D_WRITE, dataset_id, data_segment, $
        FILE_SPACE_ID=iter_data_space_id,$
        MEMORY_SPACE_ID=iter_data_space_id2
    ENDFOR
  ENDFOR

  ; 關閉前邊開啟的識別符號
  H5S_CLOSE, iter_data_space_id
  H5S_CLOSE, iter_data_space_id2
  H5S_CLOSE,dataspace_id
  H5D_CLOSE,dataset_id
  H5T_CLOSE,datatype_id
  H5F_CLOSE,fid

  HELP, data

  ; 讀取新建的HDF5資料列表
  h5_list, file
  ; 獲取資料並進行視覺化
  in_dat = H5_GETDATA(file, '/Hanning')
  s=surface(in_dat, layout=[2,1,2], /current, $
    margin=[.2,.2,.2,.2], title='完整資料展示')

END

【IDL程式碼庫】大資料分塊寫入HDF5檔案示例程式碼

IDL提供了專門針對HDF5科學資料格式的讀寫函式庫。可以參考IDL幫助的Routines (alphabetical) > Routines: H > HDF5 Routines 這個章節檢視函式列表。

【秋招必備】大資料面試題100道（2021最新版）

前言隨著 5G 時代的到來，大資料人工智慧產業鏈又一次迎來了井噴式的爆發，隨著崗位需求的不斷增加，越來越多的人選擇大資料課程，但是沒有真正從事大資料工作的人面對企業面試有種無從下手的感覺，面對面試說不到

大資料 java hive udf函式的示例程式碼（手機號碼脫敏）

Hive UDFHive UDF 函式1 POM 檔案2.UDF 函式3 利用idea打包4 新增hive udf函式4.1 上傳jar包到叢集4.2 修改叢集hdfs檔案許可權4.3 註冊UDF4.4 使用UDF

【bug未解決】PCL將點雲寫入pcd檔案遇到報錯

背景： 1. 電腦配置：ubuntu16.04， gcc 5.4.0， C++11/14， pcl-1.7.2 2. 將點雲寫入pcd檔案。報錯如下，

【IDL程式碼庫】IDL實現MODIS資料雲檢測（氣溶膠系統）

一、介紹系統採用的雲檢測演算法是多光譜綜合去雲法。該演算法從可見光反射率、紅外波段亮溫值以及亮溫差等方面綜合考慮，逐步建立一個雲檢測掩膜。對於預測的MODIS資料必須是經過了輻射定標的，熱輻射強度轉換成了

【IDL程式碼庫】環境衛星CCD資料氣溶膠反演工具原始碼分享

ENVI/IDL實現HJ衛星氣溶反演：http://blog.sina.com.cn/s/blog_764b1e9d01019hdw.html 這裡將環境衛星氣溶膠反演的三個工具和查詢表建立源程式分享給大家，不同於之前的modis氣溶膠反演程式，該程式做了查詢表插值，

【IDL程式碼庫】使用IDL視覺化引力波資料

新年新氣象，來點（看上去）高階的東西。本文內容參考此文編寫（http://www.codingpy.com/article/gwpy-ligo-analyze-gravitational-waves-data/，作者：EarlGrey@程式設計派）。引力波科普知識，以及Python視覺化

【IDL程式碼庫】Colibri開源軟體包

Colibri介紹 Colibri是一個基於ENVI/IDL平臺實現的一個開源軟體包。裡邊包含了多種多樣的演算法和程式。

【IDL程式碼庫】IDL實現MODIS HDF檔案的輻射定標（氣溶膠系統）

一、介紹： MODIS 1KM資料的HDF包括250米和500米的兩個通道的資料，所有通道的解析度均為1000米。HDF的科學資料集包含的波段及波段型別見圖1。

【IDL程式碼庫】IDL呼叫6S.exe生成查詢表原始碼（氣溶膠系統）

最新下載地址，包涵了原始碼和6s.exe程式：http://pan.baidu.com/s/1ppk1C ;+ ;:Description:

【IDL程式碼庫】IDL實現MODIS HDF檔案的幾何校正（氣溶膠系統）

一、介紹 MODIS HDF包含經緯度資料集，因此可以進行幾何校正。系統使用的方法是先讀取HDF中的經緯度資料集，然後建立51*51的GCP控制點（見圖1），通過對GCP點的投影轉換來對角度資料集和輻射定標後的科學資料集進行

【IDL程式碼庫】利用IDLDrawWidget實現C#與IDL混合程式設計

在博文 http://blog.sina.com.cn/s/blog_764b1e9d01018v35.html 中較為詳細地介紹了IDL混合程式設計的基本手段和方法。本文以 IDLDrawWidget 為例，介紹如何進行C#與IDL之間的功能呼叫。

【IDL程式碼庫】IDL中顯示分類影象的方法

IDL作為第四代視覺化語言，具有強大的視覺化能力。根據方法的不同，可以分為四類視覺化手段，分別為快速視覺化（IDL 8.0版本開始提供）、直接圖形法、物件圖形法和智慧化程式設計工具。

【IDL程式碼庫】陣列編輯器

利用此程式碼可以實現手動編輯一維和二維陣列。程式碼中使用了 Clipboard 物件，支援使用者可以從其他程式（如Excel或寫字板等）複製和貼上文字。

【IDL程式碼庫】IDL中實現bwareaopen功能（過濾斑塊）

Matlab中的bwareaopen函式功能可檢視百度百科： http://baike.baidu.com/link?url=zvIOHl35oJmAcA6pSIQh1INKyfppE8IkidfVEw_p0y2JtgFz1_WKfCB1B59ZU2_3GemYozbfzNUVAL2bLVaJNq

【IDL程式碼庫】一個完整的ENVI擴充套件工具原始碼

以TVDI VTCI擴充套件工具為例，為廣大遙感愛好者提供一個完整ENVI/IDL二次開發示例，包括演算法編寫、資料分塊處理、繪圖、IDL介面搭建、事件響應和自定義ENVITask等內容。

【IDL程式碼庫】基於6S模型生成MODIS氣溶膠反演查詢表

;+ ; :Author: Hanzt ; :Email: [email protected]，歡迎討論交流 ; 更新日誌 ; 2017-04-27 新增元資訊描述

【IDL程式碼庫】解決IDL生成多邊形向量在ArcMap中不閉合問題

偶然發現的問題。比如寫出一個4個頂點的矩形向量，在ArcGIS中如果設定不填充，竟然只有三個邊。。。但是在ENVI中是顯示正常的。後來請教同事後發現，是由於不閉合的原因。

【IDL程式碼庫】柵格轉向量內部介面

自ENVI 5.2版本開始提供了ENVIClassificationToShapefileTask，可以實現由分類影象轉換為shapefile向量檔案的功能。

【IDL程式碼庫】如何用IDL獲取柵格範圍平均海拔

FLAASH已提供IDL介面（http://blog.sina.com.cn/s/blog_764b1e9d0102xxrk.html），但在FLAASH大氣校正中需要輸入研究區平均海拔，我們已經介紹過如何利用ENVI的統計功能獲取研究區高程（http://blog.sina.com.cn/s/b

【IDL程式碼庫】大資料分塊寫入HDF5檔案示例程式碼

相關推薦