1. 程式人生 > 實用技巧 >GitHub:資料增廣最全資料集錦

GitHub:資料增廣最全資料集錦

前言

本文將分享的內容是:資料增廣(Data Augmentation)。該方向的研究一直都很熱門,特別是現在仍十分依賴於資料,而且資料增廣對各個應用方向的漲點都是簡單粗暴的!

資料擴充可以簡單地描述為使我們的資料集更大的任何方法。例如,要建立更多影象,我們可以放大並儲存結果,我們可以更改影象的亮度或旋轉它。為了獲得更大的聲音資料集,我們可以嘗試提高或降低音訊樣本的音調或放慢/加快速度。下圖提供了示例資料增強技術。

在本文要分享的就是目前最全,最新的資料增廣開源專案、論文等合集。主要涉及影象、音訊、自然語言處理和時序的資料增廣。

資料增廣

專案作者:AgaMiko

https://github.com/AgaMiko/data-augmentation-review

目錄

  • Images

    • Adversarial noise

    • Neural Style Transfer

    • Generative Adversarial Networks

    • Random erasing

    • Adding rain effects, sun flare...

    • Image blending

    • Contrast shift

    • Brightness shift

    • Blurring

    • Channel shuffle

    • Rotation

    • Scaling

    • Random cropping

    • Reflection

    • Affine transformations

    • Elastic transformations

    • Advanced transformations

    • Neural-based transformations

  • Audio

    • Noise injection

    • Time shift

    • Time stretching

    • Random cropping

    • Pitch scaling

    • Dynamic range compression

    • Simple gain

    • Equalization

  • Natural Language Processing

    • Thesaurus

    • Text Generation

    • Back Translation

    • Word Embeddings

    • Contextualized Word Embeddings

    • Voice conversion

  • Time Series Data Augmentation

    • Embedding space

    • GAN/Adversarial

    • RL/Meta-Learning

    • Warping

    • Jittering

    • Perturbing

    • Basic approaches

    • Advanced approches

計算機視覺(CV)資料增廣的開源專案

1.albumentations:一個Python庫,其中包含一組有用的,大型的和多樣化的資料增廣方法。它提供了30多種不同型別的增廣功能,易於使用。而且,正如作者證明的那樣,在大多數轉換中,該庫比其他庫要快。

https://github.com/albu/albumentations

2.imgaug:另一個非常有用且廣泛使用的Python庫。如作者所述:它可以幫助您為機器學習專案擴充影象。它將一組輸入影象轉換為一組稍有變化的新的,更大的影象。它提供了許多增廣技術,例如仿射變換,透檢視變換,對比度變化,高斯噪聲,區域丟失,色相/飽和度變化,裁剪/填充,模糊。

https://github.com/aleju/imgaug

UDA:用於影象檔案的簡單資料增廣工具,旨在與機器學習資料集一起使用。該工具將掃描包含影象檔案的目錄,並通過對找到的每個檔案執行一組指定的擴充操作來生成新影象。此過程使開發神經網路時可以使用的訓練示例數量成倍增加,並且應顯著提高所得網路的效能,尤其是當訓練示例數量相對較少時。

https://github.com/google-research/uda

Data augmentation for object detection:該專案介紹瞭如何將資料增廣方法用於目標檢測任務。它們支援許多資料增廣,例如水平翻轉,縮放,平移,旋轉,剪下,調整大小。

https://github.com/Paperspace/DataAugmentationForObjectDetection

FMix - Understanding and Enhancing Mixed Sample Data Augmentation

https://github.com/ecs-vlc/FMix

Super-AND

https://github.com/super-AND/super-AND

vidaug:這個Python庫可幫助您為深度學習架構擴充視訊。它將輸入的視訊轉換為一組稍有變化的新視訊。

https://github.com/okankop/vidaug

Image augmentor

https://github.com/codebox/image_augmentor

torchsample:該Python軟體包為Pytorch提供了高階訓練,資料增廣和實用程式。該工具箱提供了資料擴充方法,正則化器和其他實用功能。

https://github.com/ncullen93/torchsample

  • Compose()

  • AddChannel()

  • SwapDims()

  • RangeNormalize()

  • StdNormalize()

  • Slice2D()

  • RandomCrop()

  • SpecialCrop()

  • Pad()

  • RandomFlip()

Random erasing

https://github.com/zhunzhong07/Random-Erasing

data augmentation in C++:簡單的影象增廣程式可通過旋轉,滑動,模糊和噪點轉換輸入影象,以建立影象識別的訓練資料。

https://github.com/takmin/DataAugmentation

Data augmentation with GANs

https://github.com/AntreasAntoniou/DAGAN

Joint Discriminative and Generative Learning

https://github.com/NVlabs/DG-Net

White-Balance Emulator for Color Augmentation

https://github.com/mahmoudnafifi/WB_color_augmenter

DocCreator

https://github.com/DocCreator/DocCreator

OnlineAugment

https://github.com/zhiqiangdon/online-augment

自然語言處理(NLP)資料增廣的開源專案

Contextual data augmentation:上下文擴充是用於文字分類任務的獨立於域的資料擴充。通過用標籤條件的雙向語言模型預測的其他單詞替換單詞,可以增廣監督資料集中的文字。

https://github.com/pfnet-research/contextual_augmentation

nlpaug

https://github.com/makcedward/nlpaug

EDA NLP

https://github.com/jasonwei20/eda_nlp

侃侃

因為本資料增廣專案涵蓋的內容較多,這裡不再一一介紹,比如還有CV、NLP的資料增廣論文合集,語音、時序方向的專案和論文可以詳見此專案。相信對你的專案會有所幫助或者有所啟發。

資料下載

點選:資料增廣,即可下載訪問最全的資料增廣論文、開源專案等資料。