從零開始山寨Caffe·貳：主存模型

阿新 • • 發佈：2018-12-10

本文轉自：https://www.cnblogs.com/neopenx/p/5190282.html

從硬體說起

物理之觴

大部分Caffe原始碼解讀都喜歡跳過這部分，我不知道他們是什麼心態，因為這恰恰是最重要的一部分。

記憶體的管理不擅，不僅會導致程式的立即崩潰，還會導致記憶體的洩露，當然，這隻針對傳統CPU程式而言。

由於GPU的引入，我們需要同時操縱倆種不同的儲存體：

一個受北橋控制，與CPU之間架起地址匯流排、控制匯流排、資料匯流排。

一個受南橋控制，與CPU之間僅僅是一條可憐的PCI匯流排。

一個傳統的C++程式，在作業系統中，會被裝載至記憶體空間上。

一個有趣的問題，你覺得CPU能夠訪問視訊記憶體空間嘛？你覺得你的預設C++程式碼能訪問視訊記憶體空間嘛？

結果顯然是否定的，問題就在於CPU和GPU之間只存在一條資料匯流排。

沒有地址匯流排和控制匯流排，你除了讓CPU傳送資料拷貝指令外，別無其它用處。

這不是NVIDIA解決不了，AMD就能解決的問題。除非計算機體系結構再一次迎來變革，

AMD和NVIDIA的工程師聯名要求在CPU和GPU之間追加複雜的通訊匯流排用於異構程式設計。

當然，你基本是想多了。

環境之艱

可憐的資料匯流排，加大了異構程式設計的難度。

於是我們看到，GPU的很大一部分時鐘週期，用在了和CPU互相交換資料。

也就是所謂的“記憶體與視訊記憶體之間友好♂關係”。

你不得不接受一個事實：

GPU最慢的儲存體，也就是片外視訊記憶體，得益於鎂光的GDDR技術，目前家用遊戲顯示卡的訪存速度也有150GB/S。

而我們可憐的記憶體呢，你以為配上Skylake後，DDR4已經很了不起了，實際上它只有可憐的48GB/S。

那麼問題來了，記憶體如何去彌補與視訊記憶體的之間頻寬的差距？

答案很簡單：分時、非同步、多執行緒。

換言之，如果GPU需要在接下來1秒內，獲得CPU的150GB資料，那麼CPU顯然不能提前一秒去複製。

它需要提前3秒、甚至4秒。如果它當前還有其它序列任務，你就不得不設個執行緒去完成它。

這就是新版Caffe增加的新功能之一：多重預緩衝。

設置於DataLayer的分支執行緒，在GPU計算，CPU空閒期間，為視訊記憶體預先緩衝3~4個Batch的資料量，

來解決記憶體視訊記憶體頻寬不一致，導致的GPU時鐘週期浪費問題，也增加了CPU的利用率。

最終，你還是需要牢記一點：

不要嘗試以預設的C++程式碼去訪問視訊記憶體空間，除非你把它們複製回記憶體空間上。

否則，就是一個毫無提示的程式崩潰問題（準確來說，是被CPU硬體中斷了【微機原理或是計算機組成原理說法】)

程式設計之繁

在傳統的CUDA程式設計裡，我們往往經歷這樣一個步驟：

->計算前

cudaMalloc(....) 【分配視訊記憶體空間】

cudaMemset(....)　　【視訊記憶體空間置0】

cudaMemcpy(....)　【將資料從記憶體複製到視訊記憶體】

->計算後

cudaMemcpy(....) 【將資料從視訊記憶體複製回記憶體】

這些步驟相當得繁瑣，你不僅需要反覆敲打，而且如果忘記其中一步，就是毀滅性的災難。

這還僅僅是GPU程式設計，如果考慮到CPU/GPU異構設計，那麼就更麻煩了。

於是，聰明的人類就發明了主存管理自動機，按照按照一定邏輯設計狀態轉移程式碼。

這是Caffe非常重要的部分，稱之為SyncedMemory(同步儲存體)。

主存模型

狀態轉移自動機

自動機共有四種狀態，以列舉型別定義於類SyncedMemory中：

enum SyncedHead { UNINITIALIZED, HEAD_AT_CPU, HEAD_AT_GPU, SYNCED };

這四種狀態基本會被四個應用函式觸發：cpu_data()、gpu_data()、mutable_cpu_data()、mutable_gpu_data()

在它們之上，有四個狀態轉移函式：to_cpu()、to_gpu()、mutable_cpu()、mutable_gpu()

前兩個狀態轉移函式用於未進入Synced狀態之前的狀態機維護，後兩個用於從Synced狀態中打破出來。

具體細節見後文，因為Synced狀態會忽略to_cpu和to_gpu的行為，打破Synced狀態只能靠人工賦值，切換狀態頭head。

後兩個mutable函式會被整合在應用函式裡，因為它們只需要簡單地為head賦個值，沒必要大費周章寫個函式封裝。

★UNINITIALIZED：

UNINITIALIZED狀態很有趣，它的生命週期是所有狀態裡最短的，將隨著CPU或GPU其中的任一個申請記憶體而終結。

在整個記憶體週期裡，我們並非一定要遵循著，資料一定要先申請記憶體，然後在申請視訊記憶體，最後拷貝過去。

實際上，在GPU工作的情況下，大部分主儲存體都是直接申請視訊記憶體的，如除去DataLayer的前向/反向傳播階段。

所以，UNINITIALIZED允許直接由to_gpu()申請視訊記憶體。

由此狀態轉移時，除了需要申請記憶體之外，通常還需要將記憶體置0。

★HEAD_AT_CPU：

該狀態表明最近一次資料的修改，是由CPU觸發的。

注意，它只表明最近一次是由誰修改，而不是誰訪問。

在GPU工作時，該狀態將成為所有狀態裡生命週期第二短的，通常自動機都處於SYNCED和HEAD_AT_GPU狀態，

因為大部分資料的修改工作都是GPU觸發的。

該狀態只有三個來源：

I、由UNINITIALIZED轉移到：說白了，就是欽定你作為第一次記憶體的載體。

II、由mutable_cpu_data()強制修改得到：都要準備改資料了，顯然需要重置狀態。

cpu_data()及其子函式to_cpu()，只要不符合I條件，都不可能轉移到改狀態(因為訪問不會引起資料的修改)

★HEAD_AT_GPU：

該狀態表明最近一次資料的修改，是由GPU觸發的。

幾乎是與HEAD_AT_CPU對稱的。

★SYNCED：

最重要的狀態，也是唯一一個非必要的狀態。

單獨設立同步狀態的原因，是為了標記記憶體視訊記憶體的資料一致情況。

由於類SyncedMemory將同時管理兩種主存的指標，

如果遇到HEAD_AT_CPU，卻要訪問視訊記憶體。或是HEAD_AT_GPU，卻要訪問記憶體，那麼理論上，得先進行主存複製。

這個複製操作是可以被優化的，因為如果記憶體和視訊記憶體的資料是一致的，就沒必要來回複製。

所以，使用SYNCED來標記資料一致的情況。

SYNCED只有兩種轉移來源：

I、由HEAD_AT_CPU+to_gpu()轉移到：

含義就是，CPU的資料比GPU新，且需要使用GPU，此時就必須同步主存。

II、由HEAD_AT_GPU+to_cpu()轉移到：

含義就是，GPU的資料比CPU新，且需要使用CPU，此時就必須同步主存。

在轉移至SYNCED期間，還需要做兩件準備工作：

I、檢查當前CPU/GPU態的指標是否分配主存，如果沒有，就重新分配。

II、複製主存至對應態。

處於SYNCED狀態後，to_cpu()和to_gpu()將會得到優化，跳過內部全部程式碼。

自動機將不再運轉，因為，此時僅需要返回需要的主存指標就行了，不需要特別維護。

這種安寧期會被mutable字首的函式打破，因為它們會強制修改至HEAD_AT_XXX，再次啟動自動機。

從零開始山寨Caffe·貳：主存模型

本文轉自：https://www.cnblogs.com/neopenx/p/5190282.html 從硬體說起物理之觴大部分Caffe原始碼解讀都喜歡跳過這部分，我不知道他們是什麼心態，因為這恰恰是最重要的一部分。記憶體的管理不擅，不僅會導致程式的立即崩潰，還會導致記憶體的

從零開始山寨Caffe·柒：KV資料庫

你說你會關係資料庫？你說你會Hadoop？忘掉它們吧，我們既不需要網路支援，也不需要複雜關係模式，只要讀寫夠快就行。　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　——論資料儲存的本質淺析資料庫技術記憶體資料庫——STL的map容器關係資料庫橫行已久，似乎大

從零開始山寨Caffe·玖：BlobFlow

聽說Google出了TensorFlow，那麼Caffe應該叫什麼？　　　　　　　　　　　　　　　　　　　　　　　　　　——BlobFlow 神經網路時代的傳播資料結構我的程式碼我最早手寫神經網路的時候，Flow結構是這樣的： struct Data { vector<d

從零開始山寨Caffe·陸：IO系統(一)

你說你學過作業系統這門課？寫個無Bug的生產者和消費者模型試試！　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　——你真的學好了作業系統這門課嘛？在第壹章，展示過這樣圖：其中，左半部分構成了新版Caffe最惱人、最龐大的IO系統。也是歷來最不重視的一部分。第伍章又對左半

從零開始山寨Caffe·捌：IO系統(二)

生產者雙緩衝組與訊號量機制在第陸章中提到了，如何模擬，以及取代根本不存的Q.full()函式。其本質是：除了為生產者提供一個成品緩衝佇列，還提供一個零件緩衝佇列。當我們從外部給定了固定容量的零件之後，生產者的產能就受到了限制。由兩個阻塞佇列組成的QueuePair，並不是Caffe的獨創，

從零開始山寨Caffe·伍：Protocol Buffer簡易指南

你為Class外訪問private物件而苦惱嘛？你為設計序列化格式而頭疼嘛？　　　　　　　　　　　　　　　　　　　　　　　　　　　　——歡迎體驗Google Protocol Buffer 面向物件之封裝性歷史遺留問題面向物件中最矛盾的一個特性，就是“封裝性”。在上古時期，大牛們無聊地設計了

從零開始山寨Caffe·拾：IO系統(三)

資料變形 IO(二)中，我們已經將原始資料緩衝至Datum，Datum又存入了生產者緩衝區，不過，這離消費，還早得很呢。在消費(使用）之前，最重要的一步，就是資料變形。 ImageNet ImageNet提供的資料相當Raw，不僅影象尺寸不一，ROI焦點內容比例也不一，如圖： [Krizhev

從零開始山寨Caffe·拾貳：IO系統(四)

消費者回憶：生產者提供產品的介面在第捌章，IO系統(二)中，生產者DataReader提供了外部消費介面： class DataReader { public: ......... BlockingQueue<Datum*>& free() const

從零開始學caffe（七）：利用GoogleNet實現影象識別

一、準備模型在這裡，我們利用已經訓練好的Googlenet進行物體影象的識別，進入Googlenet的GitHub地址，進入models資料夾，選擇Googlenet 點選Googlenet的模型下載地址下載該模型到電腦中。模型結構在這裡，我們利用之前講

從零開始學caffe（十）：caffe中snashop的使用

在caffe的訓練期間，我們有時候會遇到一些不可控的以外導致訓練停止（如停電、裝置故障燈），我們就不得不重新開始訓練，這對於一些大型專案而言是非常致命的。在這裡，我們介紹一些caffe中的snashop。利用snashop我們就可以實現訓練的繼續進行。在之前我們訓練得到的檔案中，我們發現

從零開始學caffe（九）：在Windows下實現影象識別

本系列文章主要介紹了在win10系統下caffe的安裝編譯，運用CPU和GPU完成簡單的小專案，文章之間具有一定延續性。 step1:準備資料集資料集是進行深度學習的第一步，在這裡我們從以下五個連結中下載所需要的資料集： animal flower plane hou

從零開始學caffe（八）：Caffe在Windows環境下GPU版本的安裝

之前我們已經安裝過caffe的CPU版本，但是在MNIST手寫數字識別中，我們發現caffe的CPU版本執行速度較慢，訓練效率不高。因此，在這裡我們安裝了caffe的GPU版本，並使用GPU版本的caffe同樣對手寫MNIST數字集進行訓練。 step1: 安裝CUDA

從零開始學caffe（四）：mnist手寫數字識別網路結構模型和超引數檔案的原始碼閱讀

下面為網路結構模型 %網路結構模型 name: "LeNet" #網路的名字"LeNet" layer { #定義一個層 name: "mnist" #層的名字"mnist" type:

從零開始學caffe（二）：caffe在win10下的安裝編譯

環境要求作業系統：64位windows10 編譯環境：Visual Studio 2013 Ultimate版本安裝流程 step1：檔案的下載從GitHub新增連結描述中下載Windows版本的caffe，並進行解壓到電腦中。 step2:檔案修改將壓縮包

從零開始系列-Caffe從入門到精通之一環境搭建

python 資源暫時不可用強制 rec htm color 查看 cpu blog 先介紹下電腦軟硬件情況吧：處理器：Intel? Core? i5-2450M CPU @ 2.50GHz × 4 內存：4G 操作系統：Ubuntu Kylin(優麒麟) 16.04

Redis從零開始學習教程三：key值的有效期

圖片 com edi 數據 key值一次時間 inf 系統 Redis 是一種存儲系統，類似數據庫，和緩存的差別是，緩存有有效期，而Redis默認無有效期，或者說，默認有效期為永久但是Redis可以當做緩存使用。這時候需要針對各個key設置有效期。有效期單位默認為S

【視訊】Kubernetes1.12從零開始（六）：從程式碼編譯到自動部署

作者: 李佶澳轉載請保留：原文地址釋出時間：2018/11/10 16:14:00 說明 kubefromscratch-ansible和kubefromscratch介紹使用前準備

從零開始理解caffe網路的引數

LeNet網路介紹 LeNet網路詳解網路名稱 name: "LeNet" # 網路（NET）名稱為LeNet mnist層-train layer {

從零開始學習Servlet(1)：作用和生命週期

Servlet 作用 Servlet 是實現了 javax.servlet.Servlet 介面的 Java 類，負責處理客戶端的 HTTP 請求。是客戶端與資料庫或後臺應用程式之間互動的媒介。功能： 1. 讀取客戶端傳送的資料 2. 處理

ubuntu 14.04 從零開始安裝caffe

一、前言很多人不太喜歡看官方教程，但其實 caffe 的官方安裝指導做的非常好。我在看到 2) 之前，曾根據官方指導在 OSX 10.9, 10.10, Ubuntu 12.04, 14.04 下安裝過 10 多次不同版本的 caffe，都成功了。本文有不少內容參考了 1）和 2），但又有一些內容

從零開始山寨Caffe·貳：主存模型

本文轉自：https://www.cnblogs.com/neopenx/p/5190282.html

從硬體說起

物理之觴

環境之艱

程式設計之繁

主存模型

狀態轉移自動機

相關推薦