Giraph原始碼分析（三）—— 訊息通訊

阿新 • • 發佈：2019-08-07

由前文知道每個BSPServiceWorker有一個WorkerServer物件，WorkerServer物件裡面又有ServerData物件，作為資料實。ServerData中包含該Worker的partitionStore、edgeStore、incomingMessageStore、currentMessageStore、聚集值等。其中incomingMessageStore物件為MessageStoreByPartition(介面)型別，也就是說訊息時按照分割槽來儲存的。MessageStoreByPartition介面的關係圖如下：

在SimpleMessageStore抽象類中，有一個ConcurrentMap<Integer,ConcurrentMap<I,T>>型別的變數map，用來儲存訊息。第一層是pairtitionID到傳送到該partition訊息的對映；第二層是VertexID 到傳送給該Vertex的訊息佇列。

《Giraph通訊模組分析》：http://my.oschina.net/skyaugust/blog/95182

每個頂點的訊息列表具體為ExtendedDataOutput型別，它繼承DataOutput介面，增加了幾個方法而已。每個訊息是以位元組形式寫入到ExtendedDataOutput物件中的。

傳送訊息時，採用非同步式通訊。

圖頂點的計算處理與訊息通訊併發執行，在計算過程中就可以傳送訊息，將大規模訊息傳送分散在不同的時間段，避免瞬時網路通訊阻塞，但是接受端需要額外的空間，儲存臨時接收到的訊息，相當於空間換時間。而集中式通訊，圖頂點的計算處理與訊息通訊序列進行，在計算完畢後，統一發送訊息，控制和實現方式簡單，可在傳送端對訊息進行最大程度優化，但容易造成瞬時間的網路通訊阻塞以及增加發送端的訊息儲存開銷。

不同Worker間的訊息通訊使用RPC方式，具體為Netty。同一Worker內，連續兩次迭代的訊息直接通過記憶體操作，把要傳送的訊息直接複製到Worker的incomingMessageStore中。下面詳述訊息的儲存格式和傳送機制。

Giraph使用Cache來快取訊息，當訊息達到一定閾值後，一次性發送。

既按照bulk模式進行，不會一條一條資訊傳送。向某個頂點發送的訊息是按照<destVertexId,Message> pair儲存在ByteArrayVertexIdData<I,T>中（實際為ByteArrayVertexIdMessages<I,M>型別）。介紹如下： org.apache.giraph.utils.ByteArrayVertexIdData<I,T>

功能：把<頂點ID，data> Pair 儲存在一個 byte陣列中。裡面有 ExtendedDataOutput物件用來儲存資料。

該類中還有一個內部類：VertexIdDataIterator，該內部類繼承 VertexIdIterator類。

org.apache.giraph.comm.SendCache用來快取傳送的資訊，然後以“Bulk”模式傳送。在Giraph中，每個Worker上可以對應多個分割槽。訊息快取的閾值是以Worker為單位計算，而不是Partition。

SendCache中有ByteArrayVertexIdData<I,T>[ ] dataCache陣列用來儲存傳送給每個Partition的訊息；有int[ ] dataSizes陣列用於記錄向每個Worker傳送的訊息大小，若大於MAX_MSG_REQUEST_SIZE（預設為512KB）就把此Worker上的所有Partition快取的訊息傳送到給該Worker，同一Worker內訊息也是如此快取；有int[ ] initBufferSizes陣列用於記錄每個Worker上的每個Partition的初始化ByteArrayVertexIdData中ExtendedDataOutput物件的大小，同一Worker上的所有Partition初始值相同，該值為平均值。記MAX_MSG_REQUEST_SIZE（message request size）值為M，該Worker上有P個 partitions，ADDTITIONNAL_MSG_REQUEST_SIZE（比平均值大的因子）預設為0.2f，記為A。則每個Partition的初始大小為：M*(1+A) / P .

由前文知道，每個Worker都有一個NettyWorkerClientRequestProcessor<I,V,E,M>用來發送訊息。該類中有SendMessageCache物件用來快取向外傳送的資訊。NettyWorkerClientRequestProcessor類中的sendMessageRequest(I,M)

方法如下，用於向某個頂點destVertexId傳送訊息message。

方法解釋：首先根據destVertexId得到對應的partitionId和WorkerInfo，然後把訊息add到SendMessageCache中，並返回向該頂點所屬Worker傳送的訊息大小workerMessageSize。若該值大於預設值512KB，則把此Worker對應的所有Partition訊息從SendMessageCache中刪除，把刪除的訊息賦值給workerMessages，其型別為PairList<Integer,ByteArrayVertexIdMessages<I,M>> ，key為partitionId，value為傳送給該partition的訊息列表，最後呼叫doRequest()方法傳送資訊。doRequest()方法如下：

可以看到在傳送訊息時，先判斷是否在同一Worker上。如果是的話，呼叫SendWorkerMessagesRequest<T,M>的doRequest傳送訊息；否則使用WorkerClient（底層使用Netty）進行訊息傳送。下面著重討論同一Worker內的機制。

org.apache.giraph.comm.requests.SendWorkerMessagesRequest類中的doRequest方法如下：

引數為該Worker的ServerData，程式碼中的partitionVertexData實際為PairList<Integer,ByteArrayVertexIdMessages<I,M>>workerMessages。遍歷<partitionID，對應的訊息列表>來新增到ServerData中的incomingMessageStore中。

ByteArrayMessagesPerVertexStore類中的addPartitionMessages()方法如下：

當用戶使用了Combiner，incomingMessageStore對應的型別則為OneMessagePerVertexStore，該類為每個頂點只儲存一個訊息，而非訊息佇列。結構如下圖：

當新增一條訊息時，會把頂點已對應的訊息和要新增的訊息呼叫combine()方法進行合併，然後儲存在上述結構圖中。addPartitionMessages()方法如下：

在ComputeCallable中的call()方法呼叫computePartition(Partition)計算完所有Partition上的頂點後，呼叫WorkerClientRequestProcessor.flush()方法把所有剩餘的訊息傳

相關推薦

Giraph原始碼分析（三）—— 訊息通訊

由前文知道每個BSPServiceWorker有一個WorkerServer物件，WorkerServer物件裡面又有Server

MFC原始碼實戰分析（三）——訊息對映原理與訊息路由機制初探

如果在看完上一篇文章後覺得有點暈，不要害怕。本節我們就不用這些巨集，而是用其中的內容重新完成開頭那個程式，進而探究MFC訊息對映的本來面目。 MFC訊息對映機制初探還我本來面目 class CMyWnd : public CFrameWnd

Muduo網路庫原始碼分析（三）執行緒間使用eventfd通訊和EventLoop::runInLoop系列函式

先說第一點，執行緒（程序）間通訊有很多種方式（pipe,socketpair），為什麼這裡選擇eventfd？ eventfd 是一個比 pipe 更高效的執行緒間事件通知機制，一方面它比 pipe

Android ADB 原始碼分析（三）

前言之前分析的兩篇文章 Android Adb 原始碼分析(一) 嵌入式Linux：Android root破解原理（二）寫完之後，都沒有寫到相關的實現程式碼，這篇文章寫下ADB的通訊流程的一些細節看這篇文章之前，請先閱讀 Linux的SOCKET

Flume NG原始碼分析（三）使用Event介面表示資料流

Flume NG有4個主要的元件： Event表示在Flume各個Agent之間傳遞的資料流 Source表示從外部源接收Event資料流，然後傳遞給Channel Channel表示對從Source傳遞的Event資料流的臨時儲存 Sink表示從Channel中接收儲存的Event

GCC原始碼分析（三）——中間語言

原文連結：http://blog.csdn.net/sonicling/article/details/7915301 一、前言　　很忙，很久沒更新部落格了，繼續沒寫完的gcc分析，爭取在傳說將要用C++重寫的gcc 5出來之前初略分析完。二、符號表（GENERI

zigbee 之ZStack-2.5.1a原始碼分析（三）無線資料傳送和接收

前面說過SampleApp_Init和SampleApp_ProcessEvent是我們重點關注的函式，接下來分析無線傳送和接收相關的程式碼：在SampleApp_ProcessEvent函式中： if ( events & SYS_EVENT_MSG ) { &nbs

Dubbo原始碼分析（六）Dubbo通訊的編碼解碼機制

Dubbo原始碼分析（一）Dubbo的擴充套件點機制 Dubbo原始碼分析（二）Dubbo服務釋出Export Dubbo原始碼分析（三）Dubbo的服務引用Refer Dubbo原始碼分析（四）Dubbo呼叫鏈-消費端（叢集容錯機制） Dubbo原始碼分析（五）Dubbo呼叫鏈-服務端

Volley原始碼分析（三）

1.Volley原始碼分析（一） 2.Volley原始碼分析（二） 3.Volley原始碼分析（三） 4.XVolley-基於Volley的封裝的工具類上一篇分析完了RequestQueue的大部分方法，add執行完後，Volley就會執行執行緒操作了，在第一篇

Dubbo原始碼分析（三）：Dubbo之服務端（Service）

如上圖所示的Dubbo的暴露服務的過程，不難看出它也和消費者端很像，也需要一個像reference的物件來維護service關聯的所有物件及其屬性，這裡的reference就是provider。由於ServiceBean實現了 Initializ

Spring component-scan原始碼分析（三） -- @Autowired等註解的處理

本篇文章分析注入註解（@Autowired、@Value等）的處理，其邏輯在AutowiredAnnotationBeanPostProcessor類中。可以看到AutowiredAnnotationBeanPostProcessor類實現了一些增強處理的

Spring原始碼分析（三）（IoC容器的依賴注入）（2）

protected void populateBean(String beanName, RootBeanDefinition mbd, BeanWrapper bw) { //這裡取得在BeanDefinition中設定的property值，這些property來自對BeanDefini

Spring原始碼分析（三）（IoC容器的依賴注入）（1）

依賴注入的過程是使用者第一次向IoC容器索要Bean時才觸發的，當然也有例外，可以在BeanDefinition資訊中通過控制lazy-init屬性來讓容器完成對Bean的預例項化。這個預例項化實際上也是一個完成依賴注入的過程，但它是在初始化的過程中完成的。

groupcache原始碼分析（三）-- consistanthash

consistanthash.go檔案中是consistanthash模組的程式碼，這主要是提供了一致性hash的一些介面。一致性hash演算法，通常是用在查詢一個合適的下載節點時，使負載更平均，同時也使得某個節點故障不會導致大量的重新對映成本s，要了解一致性h

Java多執行緒之AQS（AbstractQueuedSynchronizer ）實現原理和原始碼分析（三）

章節概覽、 1、回顧上一章節，我們分析了ReentrantLock的原始碼： 2、AQS 佇列同步器概述本章節我們深入分析下AQS（AbstractQueuedSynchronizer）佇列同步器原始碼，AQS是用來構建鎖或者其他同步元件的基礎框架。

libev原始碼分析（三）---ev_timer

ev_timer結構體： typedef struct ev_timer { int active; /* 是否已經啟用 */ int pending; /* 是否事件易產生，需要執行回撥 *

YOLOv2原始碼分析（三）

文章全部YOLOv2原始碼分析接著上一講沒有講完的make_convolutional_layer函式 0x01 make_convolutional_layer //make_convolutional_laye

EventBus原始碼分析（三）：post方法釋出事件【獲取事件的所有訂閱者，反射呼叫訂閱者事件處理方法】（2.4版本）

EventBus維護了一個重要的HashMap，這個HashMap的鍵是事件，值是該事件的訂閱者列表，因此post事件的時候就能夠從此HashMap中取出事件的訂閱者列表，對每個訂閱者反射呼叫事件處理方法。 private final Map<Cla

OkHttp 3.7原始碼分析（三）——任務佇列

前面的部落格已經提到過，OkHttp的一個高效之處在於在內部維護了一個執行緒池，方便高效地執行非同步請求。本篇部落格將詳細介紹OkHttp的任務佇列機制。 1. 執行緒池的優點 OkHttp的任務佇列在內部維護了一個執行緒池用於執行具體的網路請求。而執行緒池

spring4.2.9 java專案環境下ioc原始碼分析（三）——refresh之obtainFreshBeanFactory方法（@1準備工作與載入Resource）

obtainFreshBeanFactory方法從字面的意思看獲取新的Bean工廠，實際上這是一個過程，一個載入Xml資源並解析，根據解析結果組裝BeanDefinitions,然後初始化BeanFactory的過程。在載入Xml檔案之前，spring還做了一些其他的工作，比