記一次grpc server記憶體/吞吐量優化

阿新 • • 發佈：2022-05-24

背景

最近，上線的採集器忽然時有OOM。採集器本質上是一個grpc服務，網路裝置通過grpc協議將資料上報後，採集器進行格式等整理後，發往下一個系統（比如分析，儲存）。

開啟執行環境，發現特性如下：

每個採集器例項，會有數千個裝置相連。並且會建立一個雙向 grpc stream，用以上報資料。
cpu的負載並不高，但記憶體居高不下。
初步猜想，記憶體和stream的數量相關，下面來驗證一下。

優化記憶體

這次，很有先見之明的在上線就部署了pprof。這成為了線上debug的關鍵所在。

import _ "net/http/pprof"
go func() {
	logrus.Errorln(http.ListenAndServe(":6060", nil))
}()

先看協程

一般記憶體問題會和協程洩露有關，所以先抓一下協程：

go tool pprof http://localhost:6060/debug/pprof/goroutine

得到了抓包的檔案 /root/pprof/pprof.grpc_proxy.goroutine.001.pb.gz，為了方便看，scp到本機。
在本地執行：

go tool pprof -http=0.0.0.0:8080 ./pprof.grpc_proxy.goroutine.001.pb.gz

如果報錯沒有graphviz，安裝之：

yum install graphviz

此時進入瀏覽器輸入http://127.0.0.1:8080/ui/，會有一個很好看的頁面。

在這裡，會發現有13W個協程。有點多，但考慮到連線了10000多個裝置。

這些協程，有keepalive, 有收發包等協程。都挺正常，其實問題不大。
幾乎所有的協程都gopark了。在等待。這也解釋了為什麼cpu其實不高，因為裝置連上了但是不上報資料。佔著資源不XX。

再看記憶體

協程雖然多，但沒看出什麼有價值的東西。那麼再看看記憶體的佔用。這次換個命令：

go tool pprof -inuse_space  http://127.0.0.1:6060/debug/pprof/heap

-inuse_space 代表觀察使用中的記憶體
繼續得到資料檔案，然後scp到本機執行：

go tool pprof -http=0.0.0.0:8080 ./pprof.grpc_proxy.alloc_objects.alloc_space.inuse_objects.inuse_space.003.pb.gz

發現grpc.Serve.func3 ->...-> newBufWriter佔用了大量記憶體。
問題很明顯，是buf的配置不太合適。

這裡多提一句，grpc服務端記憶體暴漲一般有這幾個原因：

沒有設定keepalive，使得連線洩露
服務端處理能力不足，流程阻塞，這個一般是下一跳IO引起。
buffer使用了預設配置。ReadBufferSize和WriteBufferSize預設為每個stream配置了32KB的大小。如果連線了很多裝置，但其實cpu開銷並不大，可以考慮減少這個值。

修改後程式碼新增grpc.ReadBufferSize(1024*8)/grpc.WriteBufferSize(1024*8)配置

			var keepAliveArgs = keepalive.ServerParameters{
				Time:              10 * time.Second,
				Timeout:           15 * time.Second,
				MaxConnectionIdle: 3 * time.Minute,
			}
			s := grpc.NewServer(
				.......
				grpc.KeepaliveParams(keepAliveArgs),
				grpc.MaxSendMsgSize(1024*1024*8), // 最大訊息8M
				grpc.MaxRecvMsgSize(1024*1024*8),
				grpc.ReadBufferSize(1024*8), // 就是這兩個引數
				grpc.WriteBufferSize(1024*8),
			)
			if err := s.Serve(lis); err != nil {
				logger.Errorf("failed to serve: %v", err)
				return
			}

重新發布程式，發現記憶體佔用變成了原來的一半。記憶體佔用大的問題基本解決。

注意：減少buffer代表存取資料的頻次會增加。理論上會帶來更大的cpu開銷。這也符合優化之道在於，CPU佔用大就（增加buffer）用記憶體換，記憶體佔用大就（減少buffer）用cpu換。水多了加面，面多了加水。如果cpu和記憶體都佔用大，那就到了買新機器的時候了。

優化吞吐

在優化記憶體的時候，順便看了一眼之前不怎麼關注的緩衝佇列監控。驚掉下巴。居然有1/4的資料使用到了緩衝佇列來發送。這勢必大量的使用了低速的磁碟。

這裡簡單提一下架構。

服務在收到資料之後並處理後，有多個下一跳（ai分析，儲存等微服務）等著傳送資料。
服務使用roundrobin的方式進行下一跳的選取
當下一跳繁忙的時候，則將資料寫入到buffer中，buffer是一個磁碟佇列。並且有另一個執行緒負責消費buffer中的資料。

簡單用程式碼來表示就是：

func SendData(data *Data){
	i+=1
	targetStream:= streams[i%len(streams)]
	select{
		case targetStream.c<- data:
		//寫入成功
		case <-time.After(time.Millisecond*50):
			bufferStream.c<-data // 超時，寫入失敗，寫到磁碟快取佇列中，等待容錯程式處理
	}
}

這種比較通用的玩法有幾個硬傷

當某個下一跳stream的延時比較高的時候，就會引發大量的阻塞。從而使得大量的資料用到快取。
time.After裡的超時時間設成什麼，很讓人頭痛。如果設得太大，雖然減少了緩衝的使用率，但增加了資料的延時。

思考了一下，能不能利用go的機制，從之前的輪循傳送，換成哪個stream快就往誰發。

於是，我把程式碼寫成了這樣：

// 引入baseCh，所有的資料先發到這
baseCh:= make(chan *Data)

// 為每個下一跳的stream建立一個協程，用來發送資料
for _,stream := range streams{
	stream:=stream
	go func(){
		for data:=range baseCh{
			select{
			// 在stream實現中使用一個獨立的協程管理本stream的傳送
			case stream.c <- data:
			case <-stream.ctx.Done():
				// 這個資料為了它不丟失，讓它重新進入buffer
				buffer.Send(data)
                return
			}
		}
	}()
}

func Send(data *Data){
    select{
        case bashCh<-data:
        case <-time.After(time.Millisecond*50):
            buffer.Send(data)
    }
}

這相當於引入一個baseCh，把Send函式改造成了一進多出的模式。從而不會讓一個stream的阻塞頻繁的卡住所有資料的傳送。讓所有的資料傳送被歸集到baseCh，而不是每次傳送都等待超時。

在做這一個改動時，有一點顧慮：
chan本質上是一個有鎖佇列，頻繁的加鎖會不會反而影響吞吐？

這裡需要指出：

無論是bashCh還是stream.C，都使用的無緩衝channel。理論上，無緩衝channel的效能會優於有緩衝的channel，因為不需要管理內建的佇列。這在一些測評中有所體現。
寫入channel一定要有超時或者退出機制，也就是：

  select{
      case bashCh<-data:
      case <-time.After(time.Millisecond*50): // 每次寫channel都必須防禦式的使用超時或退出進位制，避免死鎖
          buffer.Send(data)
  }

實踐是檢驗真理的唯一標準，立馬上線灰度，發現多慮了。10000個寫入端頻繁呼叫Send函式時，系統資源並沒有太大的波動。反而磁碟緩衝的使用大大減少了。

分批灰度變更，使得磁碟緩衝現在的使用幾乎歸零。

當看到監控圖後，我激動的哇的一聲哭出來，心裡比吃了蜜還甜，感到自己的技術又精甚了不少。胸口的紅領巾更紅了。

記一次grpc server記憶體/吞吐量優化

背景最近，上線的採集器忽然時有OOM。採集器本質上是一個grpc服務，網路裝置通過grpc協議將資料上報後，採集器進行格式等整理後，發往下一個系統（比如分析，儲存）。

記一次react前端專案打包優化的方法

前文之前一年多前接手的一個react專案，前段時間因為做業務中臺專案，對公司現有的應用專案做中臺化改造，這期間將專案部署到uat環境，測試期間，測試小妹妹和產品大叔都吐槽進入uat專案的時候要load很久，白屏時間

記一次cocos-js/cocosCreator全面優化記錄（原創）

優化內容：遊戲包體積，CPU、GPU方面優化，記憶體優化，其他優化注意事項：

記一次 JAVA 的記憶體洩露分析

背景前不久，上線了一個新專案，這個專案是一個壓測系統，可以簡單的看做通過回放詞表（http請求資料），不斷地向服務傳送請求，以達到壓測服務的目的。在測試過程中，一切還算順利，修復了幾個小bug後，就上線了。

記一次堆外記憶體洩漏排查過程

一、專案介紹 lz_rec_push_kafka_consume該專案通過kafka與演算法進行互動，通過push推薦平臺（lz_rec_push_platform）預生成訊息體。

記一次線上伺服器記憶體溢位排查

2019獨角獸企業重金招聘Python工程師標準>>> 首先，這臺伺服器是我們的列印伺服器，使用的是finereport7.0自帶的webreport程式

記一次MapReduce的記憶體溢位

背景：最近使用MapReduce做離線資料清洗，在map段做簡單的資料過濾，有經緯度的傳送到reduce端，沒經緯的過濾掉。reduce端將資料整理出來，按業務模型拼接成字串寫入HDFS。供hive作為外表進行後續資料處理分析。

記一次SQL Server insert觸發器操作

需求：在河道水情表（ST_RIVER_R ）新增插入資料時，更新實時資料表（SS_data）中關聯欄位的值。

記一次dell伺服器記憶體告警故障

起因：公司新採購了一批DDR 2666MHZ 記憶體使用到線上，機房運維小A負載擴容記憶體到一批DELL R740xd 伺服器上。這是一個簡單的工作，體力為主。剛剛吃完午飯接到專案組電話，催我回來處理大問題。一臺伺服器記憶體

記一次資料庫的分析和優化建議(r6筆記第24天)

資料庫的巡檢是DBA工作中的一部分，有時候我們還是希望能夠在巡檢的基礎上發現一些潛在的問題，把儘可能多的問題解決在初始階段。

記一次"記憶體洩露"排查過程

問題的發現今天發現線上一個應用記憶體佔用非常高，但它的cpu使用率卻很低

記一次django記憶體異常排查及解決方法

起因 Django 作為 Python著名的Web框架，相信很多人都在用，自己工作中也有專案專案在用，而在最近幾天的使用中發現，部署Django程式的伺服器出現了記憶體問題，現象就是執行一段時間之後，記憶體佔用非常高，最終會

解Bug之路-記一次JVM堆外記憶體洩露Bug的查詢

解Bug之路-記一次JVM堆外記憶體洩露Bug的查詢前言 JVM的堆外記憶體洩露的定位一直是個比較棘手的問題。此次的Bug查詢從堆內記憶體的洩露反推出堆外記憶體，同時對實體記憶體的使用做了定量的分析，從而實錘了Bug的源

記一次網頁載入優化

1.因為官網圖片太多，伺服器頻寬又不夠，導致網頁載入很慢。20幾秒打算把圖片放到七牛雲，發現七牛雲需要域名備案，（後面七牛雲回訪說可以提交工單申請國外的物件儲存不用備案。）

記一次記憶體洩漏以及解決辦法

為什麼80%的碼農都做不了架構師？>>> 情景描述: 某一次版本升級後，使用top命令，發現線上伺服器每一到兩週會出現一次java程序的cpu使用率一直很高，甚至超過100%（為何會超過100%，因為伺服器

記一次記憶體溢位及解決辦法

為什麼80%的碼農都做不了架構師？>>> 情景描述：最近線上系統傳送郵件失敗，通過查日誌發現多臺郵件伺服器出現記憶體溢位（即java.lang.OutOfMemoryError錯誤），並且tomcat程序也已經停掉。

記一次XML檔案讀取優化

背景　　最近在接手公司的一個老專案的時候發現開啟軟體介面的時候MenuItem的子項Items資料載入極其緩慢，造成點選介面的時候介面卡頓，最後分析原因是由於在讀取XML的時候沒有充分考慮到效能問題從而造成讀取操作效

記一次MySQL的優化案例

一背景有讚的每個OLTP資料庫例項上會設定一個sql-killer程序用於kill 掉執行時間超過一定閾值的sql。下午開發接收到sql被kill的報錯，一起幫助開發排查，本文介紹該案例。

火影推薦程式連載73-記一次使用策略模式優化程式碼的經歷

管理MQ的核心類：ConnectionFactory ConnectionFactory封裝了com.rabbitmq.client.Connection，官方提供的實現類為CachingConnectionFactory，它快取了建立的通道（Channel），預設為25個，可以通過setChannelCacheS

記一次 Java 服務效能優化

背景前段時間我們的服務遇到了效能瓶頸，由於前期需求太急沒有注意這方面的優化，到了要還技術債的時候就非常痛苦了。

記一次grpc server記憶體/吞吐量優化

背景

優化記憶體

先看協程

再看記憶體

優化吞吐

相關推薦