python 拆分多類別資料集

阿新 • • 發佈：2021-08-10

原資料集形式，收集的資料來源包括兩個folder, 資料分為三類（class1-3)

希望得到的資料集形式：將資料集拆分為train和test兩部分，每部分都包含所有類別。

完整程式碼（已包含註釋，自測可用，參考文獻：資料集劃分、label生成及按label將圖片分類到不同資料夾）：

 1 import os
 2 # import cv2
 3 import random
 4 import sys
 5 from random import randint
 6 import shutil
 7 
 8 def fileExist(path1):
 9     if os.path.exists(path1):
 
10         return
11     else:
12         try:
13             os.mkdir(path1)  # 建立單層資料夾
14         except Exception as e:
15             os.makedirs(path1)  # 建立多層資料夾
16 
17 
18 def split_dataset(root_path, new_path, ratio=0.7):  # root: folder1: new_path: dataset1/folder1 按0.7的比例拆分，也可按其他比例
19     folder_list = os.listdir(root_path)  # 
 folder1/[class1,class2...]
20     for folder in folder_list:  # class1
21         train_path = os.path.join(new_path, "train", str(folder))
22         test_path = os.path.join(new_path, "test", str(folder))
23         origin_path = os.path.join(root_path, str(folder))
24         img_list = os.listdir(origin_path)
 
25 
26         img_num = len(img_list)
27         train_num = int(img_num * ratio)
28         train_sample = random.sample(img_list, train_num)
29         test_sample = list(set(img_list)-set(train_sample))
30 
31         for item in train_sample:
32             src_new = os.path.join(origin_path, str(item))
33             dst_new = os.path.join(train_path, str(item))
34             shutil.copy(src=src_new, dst = dst_new)
35         for item in test_sample:
36             src_new = os.path.join(origin_path, str(item))
37             dst_new = os.path.join(test_path, str(item))
38             shutil.copy(src=src_new, dst=dst_new)
39 
40 
41 if __name__ == '__main__':
42     root_path = "dataset"
43     new_path = "dataset1"
44 
45     # 建立資料夾
46     for domain in os.listdir(root_path):
47         domain_path = os.path.join(root_path, str(domain))
48         domain_new_path = os.path.join(new_path, str(domain))
49         for folder in os.listdir(domain_path):  # class1
50             train_path = os.path.join(domain_new_path, "train", str(folder))
51             test_path = os.path.join(domain_new_path, "test", str(folder))
52             fileExist(train_path)
53             fileExist(test_path)
54 
55     # 拆分資料集到新的路徑
56     for domain in os.listdir(root_path):
57         domain_path = os.path.join(root_path, str(domain))
58         domain_new_path = os.path.join(new_path, str(domain))
59         split_dataset(domain_path,domain_new_path

python 拆分多類別資料集

原資料集形式，收集的資料來源包括兩個folder, 資料分為三類（class1-3) 希望得到的資料集形式：將資料集拆分為train和test兩部分，每部分都包含所有類別。

SQLserver中cube：多維資料集例項詳解

1、cube:生成多維資料集，包含各維度可能組合的交叉表格，使用with 關鍵字連線 with cube

使用python實現多維資料降維操作

一，首先介紹下多維列表的降維 def flatten(a): for each in a: if not isinstance(each,list):

Python Scrapy多頁資料爬取實現過程解析

1.先指定通用模板 url = \'https://www.qiushibaike.com/text/page/%d/\'#通用的url模板 pageNum = 1

訓練一個數據不夠多的資料集是什麼體驗？

摘要：這裡介紹其中一種帶標籤擴充資料集的方法。前言前一段時間接觸了幾位使用者提的問題，發現很多人在使用訓練的時候，給的資料集寥寥無幾，有一些甚至一類只有5張圖片。modelarts平臺雖然給出了每類5張圖片就能

如何用 Python 處理不平衡資料集

1. 什麼是資料不平衡所謂的資料不平衡（imbalanced data）是指資料集中各個類別的數量分佈不均衡；不平衡資料在現實任務中十分的常見。如

python 用 read_csv讀取資料集時刪除某幾列元素

技術標籤：pythonpython 首先用把所有的資料讀進來並轉換成列表的形式。讀進來的資料格式為列表套列表。

如何使用scikit-learn在Python中生成測試資料集

測試資料集是一個微型的手工資料集，你可以用它來測試機器學習演算法或者工具。

新聞個性化推薦系統(python)-（附原始碼資料集）

最近參加了一個評測，是關於新聞個性化推薦。說白了就是給你一個人的瀏覽記錄，預測他下一次的瀏覽記錄。花了一週時間寫了一個整合系統，可以一鍵推薦新聞，但是準確率比較不理想，所以發到這裡希望大家加以改進。用

Python Pandas list列表資料列拆分成多行的方法實現

1、實現的效果示例程式碼： df=pd.DataFrame({\'A\':[1,2],\'B\':[[1,[1,2]]}) df Out[458]: AB 0 1 [1,2]

python實現將json多行資料傳入到mysql中使用

將json多行資料傳入到mysql中使用python實現表需要提前建立，字符集utf8 如果不行換成utf8mb4

Oracle資料行拆分多行方法示例

工作和學習中常常會遇到一行要分割成多行資料的情況，在此整理一下做下對比。

python程序池實現的多程序資料夾copy器完整示例

本文例項講述了python程序池實現的多程序資料夾copy器。分享給大家供大家參考，具體如下：

python KNN演算法實現鳶尾花資料集分類

一、knn演算法描述 1.基本概述 knn演算法，又叫k-近鄰演算法。屬於一個分類演算法，主要思想如下：

python利用openpyxl拆分多個工作表的工作簿的方法

實現按目錄拆分工作簿，源資料如下圖按目錄拆分成N個檔案。上程式碼，沒有找是否有整個sheet 複製的，先逐個cell複製解決問題。：

Python解析多幀dicom資料詳解

概述 pydicom是一個常用python DICOM parser。但是，沒有提供解析多幀圖的示例。本文結合相關函式和DICOM知識做一個簡單說明。

使用 Python 處理3萬多條資料只要幾秒鐘

應用場景：工作中經常遇到大量的資料需要整合、去重、按照特定格式匯出等情況。如果用 Excel 操作，不僅費時費力，還不準確，有麼有更高效的解決方案呢？

python讀取多層巢狀資料夾中的檔案例項

由於工作安排，需要讀取多層資料夾下巢狀的檔案，資料夾的結構如下圖所示：

python GUI庫圖形介面開發之PyQt5訊號與槽多視窗資料傳遞詳細使用方法與例項

在pyqt5程式設計過程中，經常會遇到輸入或選擇多個引數的問題，把多個引數寫到一個視窗中，主視窗會顯得很臃腫，所以，一般是新增一個按鈕，呼叫對話方塊，在對話方塊中進行引數的選擇，關閉對話方塊將引數返回給主視

python實現將兩個資料夾合併至另一個資料夾(製作資料集)

此操作目的是為了製作自己的資料集，深度學習框架進行資料準備，此操作步驟包括對資料夾進行操作，將兩個資料夾合併至另一個資料夾