用Python將多標籤資料存入caffe使用的HDF5&LMDB格式

阿新 • • 發佈：2019-02-07

最近在進行多標籤的資料轉換，發現直接使用caffe自帶的convert_image不是很方面，就收集了一下用python的處理方法。現整理以備後用。

使用時發現，用python寫入lmdb有個問題，如果事先無法知道資料的大小，那麼分配的儲存空間map_size就不好確定（預設是10M），且不會自動隨寫入資料的實際大小而調整，所以還是HDF5好處理一下，雖然在caffe中是提倡使用lmdb。

在此也望有經驗的前輩能指教一下，用python處理lmdb時，檔案的大小如何預分配，或有什麼辦法能讓lmdb的檔案大小能隨寫入或刪除資料而自動增減？先謝過啦！

<pre name="code" class="python">import lmdb
import random
import os

import caffe


def convert_data_lmdb(train_data,train_label,output_data_lmdb,output_labels_lmdb):
	"""
	Used for save data and multi-labels to lmdbs
	call: convert_data_lmdb(train_X,train_y,'train_data_lmdb','train_labels_lmdb')
	"""
	X = train_data.astype(np.float)
	y = train_label.astype(np.float)

	X, y = shuffle(X, y, random_state=42)  # shuffle train data
	
    # creating images lmdb
	in_db = lmdb.open(output_data_lmdb, map_size=X.nbytes*10)

	with in_db.begin(write=True) as in_txn :
		for in_idx,in_ in enumerate(X) :
			im = in_;
			im = im[:,:,::-1]
			im = im.transpose((2, 0, 1))
			im_dat = caffe.io.array_to_datum(im)
			#in_txn.put(in_idx.encode('ascii'), im_dat.SerializeToString())
			in_txn.put('{:0>10d}'.format(in_idx), im_dat.SerializeToString())
	in_db.close()
	
	in_label = lmdb.open(output_labels_lmdb, map_size=y.nbytes*10)
	counter_label = 0
	with in_label.begin(write=True) as in_txn :
		for idx in range(y.shape[0]):
			datum = caffe.io.array_to_datum(y[np.newaxis,np.newaxis,idx])
			in_txn.put("{:0>10d}".format(counter_label), datum.SerializeToString())
			counter_label += 1
	in_label.close()

def write_hdf5(filename):
	import h5py

	IMAGE_SIZE = (96, 96)
	LABEL_SIZE = 30 # Multi-labels
	MEAN_VALUE = 128

	#filename = sys.argv[1]
	setname, ext = filename.split('.')

	with open(filename, 'r') as f:
		lines = f.readlines()

	np.random.shuffle(lines)

	sample_size = len(lines)
	imgs = np.zeros((sample_size, 1,) + IMAGE_SIZE, dtype=np.float32)
	scores = np.zeros((sample_size,1) + LABEL_SIZE, dtype=np.float32)

	h5_filename = '{}.h5'.format(setname)
	with h5py.File(h5_filename, 'w') as h:
		for i, line in enumerate(lines):
			image_name, score = line[:-1].split()
			img = pyplot.imread(image_name)[:, :, 0].astype(np.float32)
			img = img.reshape((1, )+img.shape)
			#img -= MEAN_VALUE
			imgs[i] = img
			scores[i,1] = float(score)
			if (i+1) % 1000 == 0:
				print('processed {} images!'.format(i+1))
		h.create_dataset('data', data=imgs)
		h.create_dataset('label', data=scores)

	with open('{}_h5.txt'.format(setname), 'w') as f:
		f.write(h5_filename)

def write_hdf5(data,labels,output_filename):
	"""
	This function is used to save image data and its label(s) to hdf5 file.
	output_file.h5,contain data and label
	data.shape is (n,c,h,w)
	label.shape is (n,labels)
	"""
	import h5py
	
	X = data.astype(np.float32)
	y = labels.astype(np.float32)

	X, y = shuffle(X, y, random_state=42)  # shuffle train data

	IMAGE_SIZE = (96, 96)
	LABEL_SIZE = 30 # Multi-labels
	MEAN_VALUE = 128

	#filename = sys.argv[1]
	setname, ext = output_filename.split('.')
	sample_size = X.shape[0]

	imgs = np.zeros((sample_size, 1,) + IMAGE_SIZE, dtype=np.float32)
	scores = np.zeros((sample_size,LABEL_SIZE), dtype=np.float32)

	h5_filename = '{}.h5'.format(setname)
	with h5py.File(h5_filename, 'w') as h:
		i = 0;
		for in_,label in zip(X,y) :
			im = in_;
			im = im[:,:,::-1]
			im = im.transpose((2, 0, 1))
			imgs[i] = im
			scores[i] = label
			i = i + 1;
			
		print('processed {} images!'.format(i))
			
		h.create_dataset('data', data=imgs)
		h.create_dataset('label', data=scores)

	with open('{}_h5.txt'.format(setname), 'w') as f:
		f.write(h5_filename)

用Python將多標籤資料存入caffe使用的HDF5&LMDB格式

最近在進行多標籤的資料轉換，發現直接使用caffe自帶的convert_image不是很方面，就收集了一下用python的處理方法。現整理以備後用。使用時發現，用python寫入lmdb有個問題，如果事先無法知道資料的大小，那麼分配的儲存空間map_size就不好確定（預

用Python將多個excel表格合並為一個表格

test form log num nump 數據哪裏 workbook 一份生活中經常會碰到多個excel表格匯總成一個表格的情況，比如你發放了一份表格讓班級所有同學填寫，而你負責將大家的結果合並成一個。諸如此類的問題有很多。除了人工將所有表格的內容一個一個復制到匯總

Python 將多維資料轉為一維陣列（總結）

import operator from functools import reduce a = [[1,2,3], [4,6], [7,8,9,8]] print(reduce(operator.add, a)) [1, 2, 3, 4, 6, 7, 8, 9, 8]a =

python 將yaml標籤檔案轉化為xml格式的標籤檔案

最近在跑SSD和Faster R-CNN深度學習程式碼，下載了一些資料集，但是這些資料集標籤檔案不是xml格式檔案，而是yaml檔案，雖然網上有線上轉化的工具，但是這種做法對我來說顯然是很低效率的。為了提高效率，自己寫了相關的程式碼。現在分享給大家。感謝Bosch Small

Python以太坊互動將區塊鏈資料存入sql資料庫

關於區塊鏈介紹性的研討會通常以易於理解的點對點網路和銀行分類賬這類故事開頭，然後直接跳到編寫智慧合約，這顯得非常突兀。因此，想象自己走進叢林，想象以太坊區塊鏈是一個你即將研究的奇怪生物。今天我們將觀察該生物，並與其進行互動然後將有關它的所有資料收集到一個集中儲存中供自己使用。進行第一次設

199. mysql 將多行資料用逗號連線返回一個字串

1.需求我們有時候會將多行資料進行合併顯示（Java 使用迴圈處理有點麻煩現在直接在sql中處理） 2.效果 3. 表結構及sql 查詢使用者角色中間表角色表表關係 --3. 我們需要分組查詢使用GROUP_CONCAT 函式

用python將.h5檔案的資料轉化成.pcd檔案

import h5py import numpy as np import os import math from open3d import * filename = '/home/jp/project/pointnet/sem_seg/indoor3d_sem_seg_

oracle 如何將多行資料進行合併(用LISTAGG!!!)

LISTAGG(列名,' 分割符號') oracle 11g 以上的版本才有的一個將指定列名的多行查詢結果，用指定的分割符號合併成一行顯示：例如：表原始資料：需求：將 mb1_Transport_License_list 表中的資料，根據 transpo

GROUP_CONCAT,SUBSTRING_INDEX的妙用(將多條資料合併成一行，並且根據某些列的合併值做條件判斷來生成最終值)

（1）不做處理： SELECT e.class_id AS class_id, c.course_name AS class_name, u.stuNum AS stu_num, u.USER_NAME AS student_name, u.department AS depart

京東豬臉識別比賽資料預處理：用Python將視訊每一幀提取儲存為圖片

最近參加京東的豬臉識別比賽，訓練集是30個視訊，需要將視訊的每一幀提取出來儲存為圖片，存入對應的資料夾（分類標籤）。本例是直接呼叫了cv2 模組中的 VideoCapture。一次執行，大概10分鐘，就能得到預處理後的分類圖片了，具體程式碼如下。

用SQL將多行字串資料轉換成一行資料(例項)

SELECT * FROM ( SELECT * FROM ( SELECT o.OrderNo, case o.IsCustomerUrgent when 0 then N'不加急' when 1 then N'加急' END as IsCust

Sql Server裡巧用Case將多行顯示的資料合併為一行顯示

轉載地址：http://www.cnblogs.com/kingthy/archive/2008/04/29/1175697.html 昨晚在CSDN論壇上看到有某個人問了類似這樣的一個問題，現有三個資料表,分別是學生表,課程表,成績表。它們的結構與樣例資料如下：學生表

【原創】用python將時間unix格式轉換總結

接受 bsp 時間戳 pretty 需要字符串解析 time函數 spa datetime 我們可以用python裏面的time模塊mktime方法將轉為unix時間戳，mktime函數只能接受相應時間的元祖序列。在此之前需要先將輸入的時間轉為元組序列：如果輸入的時間為

利用Python將多個excel文件合並為一個文件

技術分享 excel文件 AR tails bsp 合並 sdn clas pytho http://blog.csdn.net/betterfate/article/details/71123976 http://blog.csdn.net/d1240673769/

PHP編程中如何將多種數據存入一個字段裏

app開發公司 != arr for 設計科技 php代碼 each 原創無論是商品，拍品，還是產品。都有所對應的規格，不同的拍品所對應的規格不同，那麽所填寫的規格也就不同，對於某些產品來說有些規格需要填寫，而有寫規格不需要填寫，那麽在設計數據字段是為了避免不必要的字段

python 將多個具有相同表頭內容的excel合併到一個多頁籤的excel中

多個excel 合併成一個多sheet的excel -- coding:utf-8 -- import xlrd, xlsxwriter 待合併excel allxls = [“C:\Users\zhudong\Desktop\azkaban自動爬取\2018-09-01.x

用python爬取股票資料的一點小結

一、背景網上對於爬取股票資料有相對完善的教程。不過大部分教程都是隻能夠爬取一段時間的股票資料，針對某一隻股票的歷史資料爬取，目前還沒有看到比較好的教程。下面對近期學的東西進行一點點小結。二、股票資料爬取網站網上更多推薦的是東方財富的股票資料，連結為：http://quote.eas

用python生成多個txt檔案

在win下建立多個.txt檔案，參考下面的程式碼 for i in range(1000): i_str = str(i+1) file_name = i_str+ '.txt' f = open('a/'+file_name,'w') f.close() 在

python將多個對映合併為一個對映

我們有時需要將多個字典合併成一個單獨的對映結構，但不同的字典之間可能有相同的鍵，又不想將鍵覆蓋掉，於是可以使用ChainMap類來實現。它在邏輯上將不同的字典合併為一個單獨的對映結構。 from pprint import pprint from collections import ChainM

Pandas DataFrame將多列資料一次性從object轉換為datetime

從CSV檔案中讀取資料後，很多日期型別資料為object。為了批量將這幾列轉換為datetime。怎麼做呢？一、找出df的列名中有“date”日期的列 datel=[] for x in df.columns.tolist(): if 'date' in x: d

用Python將多標籤資料存入caffe使用的HDF5&LMDB格式

相關推薦