淺談keras2 predict和fit_generator的坑

阿新 • • 發佈：2020-06-18

1、使用predict時，必須設定batch_size,否則效率奇低。

檢視keras文件中，predict函式原型：

predict(self,x,batch_size=32,verbose=0)

說明：

只使用batch_size=32，也就是說每次將batch_size=32的資料通過PCI匯流排傳到GPU，然後進行預測。在一些問題中，batch_size=32明顯是非常小的。而通過PCI傳資料是非常耗時的。

所以，使用的時候會發現預測資料時效率奇低，其原因就是batch_size太小了。

經驗：

使用predict時，必須人為設定好batch_size，否則PCI匯流排之間的資料傳輸次數過多，效能會非常低下。

2、fit_generator

說明：keras 中 fit_generator引數steps_per_epoch已經改變含義了，目前的含義是一個epoch分成多少個batch_size。舊版的含義是一個epoch的樣本數目。

如果說訓練樣本樹N=1000，steps_per_epoch = 10，那麼相當於一個batch_size=100，如果還是按照舊版來設定，那麼相當於

batch_size = 1，會效能非常低。

經驗：

必須明確fit_generator引數steps_per_epoch

補充知識：Keras：建立自己的generator(適用於model.fit_generator)，解決記憶體問題

為什麼要使用model.fit_generator？

在現實的機器學習中，訓練一個model往往需要數量巨大的資料，如果使用fit進行資料訓練，很有可能導致記憶體不夠，無法進行訓練。

fit_generator的定義如下：

fit_generator(generator,steps_per_epoch=None,epochs=1,verbose=1,callbacks=None,validation_data=None,validation_steps=None,class_weight=None,max_queue_size=10,workers=1,use_multiprocessing=False,shuffle=True,initial_epoch=0)

其中各項的具體解釋，請參考Keras中文文件

我們重點關注的是generator引數：

generator: 一個生成器，或者一個 Sequence (keras.utils.Sequence) 物件的例項，以在使用多程序時避免資料的重複。生成器的輸出應該為以下之一：

一個 (inputs,targets) 元組

一個 (inputs,targets,sample_weights) 元組。

那麼，問題來了，如何構建這個generator呢？有以下幾種辦法：

自己建立一個generator生成器

自己定義一個 Sequence (keras.utils.Sequence) 物件

使用Keras自帶的ImageDataGenerator和.flow/.flow_from_dataframe/.flow_from_directory來生成一個generator

1.自己建立一個generator生成器

使用Keras自帶的ImageDataGenerator和.flow/.flow_from_dataframe/.flow_from_directory 靈活度不高，只有當資料集滿足一定格式（例如，按照分類資料夾存放）或者具備一定條件時，使用才使用才較為方便。

此時，自己建立一個generator就很重要了，關於python的generator是什麼原理，怎麼使用，就不加贅述，可以檢視python的基本語法。

此處，我們用yield來返回資料組，標籤組，從而使fit_generator可以呼叫我們的generator來成批處理資料。

具體實現如下：

  def myGenerator(batch_size):
    # loading data
    X_train,Y_train=load_data(...)
    
    # data processing
    # ................
    
    total_size=X_train.size
    #batch_size means how many data you want to train one step
    
    while 1:
      for i in range(total_size//batch_size):
        yield x_train[i*batch_size:(i+1)*batch_size],y[i*batch_size:(i+1)*batch_size]
  return myGenerator

接著你可以呼叫該生成器：

self._model.fit_generator(myGenerator(batch_size),steps_per_epoch=total_size//batch_size,epochs=epoch_num)

以上這篇淺談keras2 predict和fit_generator的坑就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

淺談keras2 predict和fit_generator的坑

1、使用predict時，必須設定batch_size,否則效率奇低。檢視keras文件中，predict函式原型：

淺談http get和post請求

從標準上看，基本區別有： get 用於獲取資訊，無副作用，冪等，且可快取。 post 用於修改伺服器上的資料，有副作用，非冪等，不可快取。

淺談Mybatis版本升級踩坑及背後原理分析

1、背景某一天的晚上，系統服務正在進行常規需求的上線，因為釋出時，提示統一的pom版本需要升級，於是從 1.3.9.6 升級至 1.4.2.1。

淺談cv2.imread()和keras.preprocessing中的image.load_img()區別

1、image.load_img() from keras.preprocessing import image img_keras = image.load_img(\'./original/dog/880.jpg\')

淺談keras通過model.fit_generator訓練模型(節省記憶體)

前言前段時間在訓練模型的時候，發現當訓練集的數量過大，並且輸入的圖片維度過大時，很容易就超記憶體了，舉個簡單例子，如果我們有20000個樣本，輸入圖片的維度是224x224x3，用float32儲存，那麼如果我們一次性將

淺談c++中“::”和“:” 冒號的意思

(1) “::” 1)類作用域操作符。“::”指明瞭成員函式所屬的類。如：M::f(s)就表示f（s）是類M的成員函式。

淺談匿名函式和閉包

前言相信很多前端小夥伴在工作和學習中，都會或多或少的接觸和了解到匿名函式和閉包。被這倆知識點所困擾，也去網上搜索了不少的資料，查到資料和解釋都各有說辭，甚至有些解釋本身就是不正確的，這更加讓人頭疼。

淺談JavaScript節流和防抖函式

概念節流函式間隔固定的時間執行傳入的方法目的是防止函式執行的頻率過快,影響效能.常見於跟滾動,滑鼠移動事件繫結的功能.

淺談android @id和@+id的區別

今天，簡單講講android裡關於@id和@+id的區別。之前，自己在佈局裡無論什麼情況都使用@+id，可是後來發現有些程式碼用的是@id，自己不知道這兩者之間有什麼區別。於是就在網上查詢資料，最終是解決了問題。這裡記錄

淺談PHP array_search 和 in_array 函式效率問題

問題在一個介面中，發現非常耗時，排查原因發現 array_search 查詢陣列中的元素的 key 時，效率隨著陣列變大，耗時增加。特別是大陣列時，非常耗時。在函式 in_array 也有這個問題。

js淺談例項屬性和原型屬性

技術標籤：javascriptjavascript 1，例項屬性是通過this關鍵字建立的屬性，是屬於每一個例項物件的私有屬性

淺談資料結構和資料型別

一.概念兩個概念混淆，抽出時間捋了捋他們的概念、關係。希望對大家有用。

淺談外掛常識和如何防禦

本文首發於行者AI 電子遊戲自誕生以來，一直遭受著外掛的困擾，給遊戲公司造成了不可估量的損害。本文希望通過介紹外掛的相關知識，讓對遊戲安全感興趣、有意願瞭解遊戲安全知識的同學對遊戲安全有個基本的認識。

淺談mysql8.0新特性的坑和解決辦法(小結)

一、建立使用者和授權在mysql8.0建立使用者和授權和之前不太一樣了，其實嚴格上來講，也不能說是不一樣,只能說是更嚴格,mysql8.0需要先建立使用者和設定密碼,然後才能授權。

淺談python處理json和redis hash的坑

1、使用MySQLdb讀取出來的資料是unicode字串，如果要寫入redis的hash中會變成 \"{u\'eth0_outFlow\': 2.5,u\'eth1_inFlow\': 3.44}\"

淺談go語言中的讀寫鎖和互斥鎖

Hello，各位小夥伴大家好，我是小棧君，近期氣溫有所下降，希望各位小夥伴記得防寒保暖，不要感冒了哦。

淺談celery的坑

celery celery的使用以及在Django中的配置，不詳細介紹，主要記錄在Django中使用的坑點。

淺談java 重寫equals方法的種種坑

重寫java object類的equals方法覆蓋equals方法請遵守約定什麼情況下要覆蓋equals方法

淺談sql語句中GROUP BY 和 HAVING的使用方法

在介紹GROUP BY 和 HAVING 子句前，我們必需先講講sql語言中一種特殊的函式：聚合函式，

淺談MySQL和MariaDB區別(mariadb和mysql的效能比較)

MariaDB資料庫管理系統是MySQL的一個分支，主要由開源社群在維護，採用GPL授權許可。開發這個分支的原因之一是：甲骨文公司收購了MySQL後，有將MySQL閉源的潛在風險，因此社群採用分支的方式來避開這個風險。

淺談keras2 predict和fit_generator的坑

相關推薦