微服務SpringCloud之zipkin鏈路追蹤
隨著業務發展,系統拆分導致系統呼叫鏈路愈發複雜一個前端請求可能最終需要呼叫很多次後端服務才能完成,當整個請求變慢或不可用時,我們是無法得知該請求是由某個或某些後端服務引起的,這時就需要解決如何快讀定位服務故障點,以對症下藥。於是就有了分散式系統呼叫跟蹤的誕生。
Spring Cloud Sleuth
一般的,一個分散式服務跟蹤系統,主要有三部分:資料收集、資料儲存和資料展示。根據系統大小不同,每一部分的結構又有一定變化。譬如,對於大規模分散式系統,資料儲存可分為實時資料和全量資料兩部分,實時資料用於故障排查(troubleshooting),全量資料用於系統優化;資料收集除了支援平臺無關和開發語言無關係統的資料收集,還包括非同步資料收集(需要跟蹤佇列中的訊息,保證呼叫的連貫性),以及確保更小的侵入性;資料展示又涉及到資料探勘和分析。雖然每一部分都可能變得很複雜,但基本原理都類似。
服務追蹤的追蹤單元是從客戶發起請求(request)抵達被追蹤系統的邊界開始,到被追蹤系統向客戶返回響應(response)為止的過程,稱為一個“trace”。每個 trace 中會呼叫若干個服務,為了記錄呼叫了哪些服務,以及每次呼叫的消耗時間等資訊,在每次呼叫服務時,埋入一個呼叫記錄,稱為一個“span”。這樣,若干個有序的 span 就組成了一個 trace。在系統向外界提供服務的過程中,會不斷地有請求和響應發生,也就會不斷生成 trace,把這些帶有span 的 trace 記錄下來,就可以描繪出一幅系統的服務拓撲圖。附帶上 span 中的響應時間,以及請求成功與否等資訊,就可以在發生問題的時候,找到異常的服務;根據歷史資料,還可以從系統整體層面分析出哪裡效能差,定位效能優化的目標。
Spring Cloud Sleuth為服務之間呼叫提供鏈路追蹤。通過Sleuth可以很清楚的瞭解到一個服務請求經過了哪些服務,每個服務處理花費了多長。從而讓我們可以很方便的理清各微服務間的呼叫關係。此外Sleuth可以幫助我們:
耗時分析: 通過Sleuth可以很方便的瞭解到每個取樣請求的耗時,從而分析出哪些服務呼叫比較耗時;
視覺化錯誤: 對於程式未捕捉的異常,可以通過整合Zipkin服務介面上看到;
鏈路優化: 對於呼叫比較頻繁的服務,可以針對這些服務實施一些優化措施。
spring cloud sleuth可以結合zipkin,將資訊傳送到zipkin,利用zipkin的儲存來儲存資訊,利用zipkin ui來展示資料。
測試
1.啟動zipkin server
由於是參考純潔的微笑的部落格http://www.ityouknow.com/springcloud/2018/02/02/spring-cloud-sleuth-zipkin.html,但在我建立zipkin-server專案引入註解@EnableZipkinServer時提示已不能使用。建議使用預設的zipkin的jar包,具體使用方法可以檢視github的文件。這裡直接下載下了jar,然後使用記憶體方式儲存,java -jar zipkin-server-2.17.0-exec.jar.
/** * @deprecated Custom servers are possible, but not supported by the community. Please use our * <a href="https://github.com/openzipkin/zipkin#quick-start">default server build</a> first. If you * find something missing, please <a href="https://gitter.im/openzipkin/zipkin">gitter</a> us about * it before making a custom server. * * <p>If you decide to make a custom server, you accept responsibility for troubleshooting your * build or configuration problems, even if such problems are a reaction to a change made by the * OpenZipkin maintainers. In other words, custom servers are possible, but not supported. */
2.專案中新增zipkin的支援
在SpringColudZuulSimple、EurekaClient中引入依賴spring-cloud-starter-zipkin。
<dependency> <groupId>org.springframework.cloud</groupId> <artifactId>spring-cloud-starter-zipkin</artifactId> <version>2.1.3.RELEASE</version> </dependency>
然後在application.properties中設定屬性
spring.zipkin.base-url=http://localhost:9411 spring.sleuth.sampler.probability=1.0
spring.zipkin.base-url指定了Zipkin伺服器的地址,spring.sleuth.sampler.percentage將取樣比例設定為1.0,也就是全部都需要。
Spring Cloud Sleuth有一個Sampler策略,可以通過這個實現類來控制取樣演算法。取樣器不會阻礙span相關id的產生,但是會對匯出以及附加事件標籤的相關操作造成影響。 Sleuth預設取樣演算法的實現是Reservoir sampling,具體的實現類是PercentageBasedSampler,預設的取樣比例為: 0.1(即10%)。不過我們可以通過spring.sleuth.sampler.percentage來設定,所設定的值介於0.0到1.0之間,1.0則表示全部採集。
3.驗證
依次啟動EurekaServer、EurekaClient、SpringColudZuulSimple,然後在瀏覽器中輸入http://localhost:8890/spring-cloud-producer/hello?name=cuiyw&token=123,重新整理幾次,然後在http://localhost:9411頁面點選查詢,可以看到如下資訊。
點選每項記錄都能看到每項的具體耗時資訊和順序。
點選依賴分析,可以看到專案之間的呼叫關係
總結
這裡使用的記憶體的方式來儲存資料,生產環境一般會使用訊息佇列RabbitMQ、Kafka或者資料庫mysql儲存,具體使用方法可以檢視zipkin的官方文件。
參考:http://www.ityouknow.com/springcloud/2018/02/02/spring-cloud-sleuth-zipkin.