1. 程式人生 > >資料增廣領域知識

資料增廣領域知識

PCA的資料增廣:
比如對資料進行PCA操作,比如取前5個主成分,對主成分進行加隨機係數,再進行PCA還原,產生了新的資料。

label smoothing:
採用了非one-hot的標籤集減輕了過擬合的方法

MIXUP:
X = aXi+(1-a)Xi-1
Y = aYi+(1-a)Yi-1
生成四不像圖片,標籤也為一個非one-hot的標籤

Random Erasing:
隨機覆蓋

有監督的進行資料增廣:
利用多層卷積+GMP+全連線訓練網路
通過最後一層卷積用全連線權重進行加權平均,生成熱力圖,通過熱力圖找到顯著點。圍繞顯著點進行crop(隨機切割)

半監督學習:
線上學習,通過實時流的資料進行判斷,如果可信度高的話,就可以拉入網路繼續訓練。

GAN資料生成:
用其他的分類器去判斷GAN生成的資料是不是有訓練價值的。
首先需要保證的是SVM分類器的效果要好,怎麼判斷SVM的效果好呢?那麼需要給SVM分類器打分,比如我有1000張BUS圖片,1000張不是BUS的圖片,我用500+500去訓練一個SVM,再把另外的500+500放進去判斷,這樣就可以得到2個準確率,一個是訓練的準確率,還有一個是測試的準確率。然後score = 0.4score1+0.6score2就是最後的分數。
然後通過GAN生成一批BUS和非BUS資料,取出支援向量,加入第一次的500+500,訓練SVM,然後把真實的500+500和500+500帶入看看分數,如果分數有提高,表明生成的資料訓練的SVM分類器的效果比真實資料要好,我們就可以把這些支援向量資料拿去做訓練了。

如何去選擇增廣方案:
class conditional
每種增廣方式都做一遍,看看每類資料在不同的增廣下的變化,是變好了還是變壞了。

相關推薦

資料領域知識

PCA的資料增廣: 比如對資料進行PCA操作,比如取前5個主成分,對主成分進行加隨機係數,再進行PCA還原,產生了新的資料。 label smoothing: 採用了非one-hot的標籤集減輕了

圖片資料

  將原始圖片旋轉一個小角度,新增隨機噪聲。一些有彈性的畸變(elastic distortions),論文《Best practices for convolutional neural networks applied to visual document analysis》對MNIST做了各種變種擴增。

訓練過程--正則化(regularization)技巧(包括L2正則化、dropout,資料,早停)

正則化(regularization)   正則化是解決高方差問題的重要方案之一,也是Reducing Overfiltering(克服過擬合)的方法。   過擬合一直是DeepLearning的大敵,它會導致訓練集的error rate非常小,而測試集的error rate大部分時候很

深度學習中的資料

問題一:為什麼需要大量的資料 當訓練機器學習模型的時候,實際上實在調整它的引數,使得可以跟一個特定的輸入符合。優化的目標是 chase that sweet spot where our model’s loss is low。當前最好的神經網路擁有的引數量是上百萬的量級。

深度學習訓練中關於資料處理方式--原始樣本採集以及資料

         好久沒有寫部落格,一直想重新調整自己的部落格,想盡可能寫的前後連貫一點,同時希望自己寫的更通熟易懂些,可是遲遲沒有動筆修改曾經的博文,哎,還是慢慢跟著自己的理解再修改之前的文章吧,今兒就寫寫關於深度學習訓練中最關鍵的一步,資料問題,也就是樣本庫的建立!來

深度學習資料庫imgaug——Bounding Boxes變換

imgaug在影象變換的同時變換影象中的bound box。 bounding的支援包括: 將bounding box封裝成物件 對bounding box進行變換 將bounding box畫在影象上 移動bounding box的位置,將變換後的bounding

[Tensorflow] 如何對兩幅影象做同樣的資料操作

在深度學習中,我們經常會對資料進行陣列增廣操作,比如說左右翻轉,增加noise等操作。 但是,現在我們的輸入是一組影象是一個sample,那我們需要對這一組影象進行同樣的資料增廣操作,也就是說同一個s

目標檢測訓練資料--旋轉+尺度+顏色+裁剪

原文連結:https://blog.csdn.net/wei_guo_xd/article/details/74199729常用的影象擴充方式有:水平翻轉,裁剪,視角變換,jpeg壓縮,尺度變換,顏色變換,旋轉當用於分類資料集時,這些變換方法可以全部被使用,然而考慮到目標檢測

深度學習-MATLAB資料

圖片資料增廣 對資料夾及其子資料夾下的圖片資料進行簡單的增廣,四個方面,翻轉,平移,增加高斯噪聲,對比度增強,儲存在當前資料夾中,命名為圖片原名+ -1、-2、-3、-4,代表四個類。 p=genp

caffe資料層相關學習以及訓練線上資料

caffe資料層是將已經生成好的LMDB檔案中的label和資料讀入到Datum資料結構體中,然後將資料轉化到Blob中,進而進行資料傳遞,才能進行資料訓練。目前使用的data_layer是經過了別人

深度學習之正則化系列(2):資料集增強(資料

讓機器學習模型泛化得更好的最好辦法是使用更多的資料進行訓練。當然,在實踐中,我們擁有的資料量是很有限的。解決這個問題的一種方法是建立假資料並新增到訓練集中。對於一些機器學習任務,建立新的假資料相當簡單。對分類來說這種方法是最簡單的。分類器需要一個複雜的高維輸入

深度學習訓練資料python程式碼——資料(二)

python影象資料增強庫 Augmentor使用比較簡單,只有一些簡單的操作。 imgaug實現的功能更多,可以對keypoint, bounding box同步處理,比如你現在由一些標記好的資料,只有同時對原始圖片和標記資訊同步處理,才能有更多的標記資料進行訓練。我

轉載+記錄資料的八種常用方式

在影象的深度學習中,為了豐富影象訓練集,提高模型的泛化能力,一般會對影象進行資料增強。常用的方式有:旋轉、剪下、改變影象色差、扭曲影象特徵、改變影象尺寸、增加影象噪聲(高斯噪聲、鹽膠噪聲)。思考:對於人臉的資料增廣來說,其是對稱的,所以映象旋轉pass,然後剪下後的部分人臉應

DL影象資料

資料增廣計算機視覺有七類分類問題: 不同的視角,不同的大小,物體的形變問題,物體的遮擋問題,光照條件,背景複雜的問題,每一類中有多種形態的問題。 而資料增廣的思路也就是解決這個問題。資料增廣如何增廣就要從實際的問題出發,比如醫學的圖片基本上拍攝的時候視角是固定的,所以就不需要

caffe資料資料

本次希望實現的主要功能是希望在訓練過程中,能夠實時的隨機改變影象資料的飽和度、亮度和對比度,進而能夠達到資料增廣的目的,增加資料的多樣性,使得訓練得到的模型的泛化性更好。而如果要達到這樣的目的,就需要對data_transformer.cpp進行相應的程式碼更改。除此以外,因為希望在訓練過程中,只對負樣本進行

資料 | 原圖 和mask 同時增加——適用語義分割等

         博主想使用Unet網路完成一個分割任務,手邊只有40張圖和對應的mask,需要進行data augment.  做資料增強有很多工具,常用的是使用keras內建的ImageDataGenerator生成器生成圖片,但是這個工具只能對一張圖進行隨機變化,而im

AutoML資料

DeepAugment是一個專注於資料擴充的自動化工具。 它利用貝葉斯優化來發現針對您的影象資料集定製的資料增強策略。 Dee

【摘錄】大資料探勘與知識發現的應用領域

應用 資料探勘技術可以為決策、過程控制、資訊管理和查詢處理等任務提供服務,一個有趣的應用範例是“尿布與啤酒”的故事。為了分析哪些商品顧客最有可能一起購買,一家名叫 WalMart的公司利用自動資料探勘工具,對資料庫中的大量資料進行分析後,意外發現,跟尿布一起購買最多的商品

看懂資訊檢索和網路資料探勘領域論文的必備知識總結

資訊檢索和網路資料領域(WWW, SIGIR, CIKM, WSDM, ACL, EMNLP等)的論文中常用的模型和技術總結 引子:對於這個領域的博士生來說,看懂論文是入行了解大家在做什麼的研究基礎,通常我們會去看一本書。看一本書固然是好,但是有一個很大的缺點

網絡流初步:<最大流>——核心(路算法)

dfs space 10000+ can style 最大 strong names using 終於開始接觸網絡流了; 網絡流到底是個蝦米東東,用比較學術的話說,就是 一個有向圖 G=(V,E); 有兩個特別的點:源點s、匯點t; 圖中每條邊(u,v)