1. 程式人生 > >traffic server回源異常故障的排查

traffic server回源異常故障的排查

1.問題出現:

怕什麼來什麼,燦哥前腳剛走就來故障了。客服同事告知有臺裝置宕機了,重啟之後ats無法啟動。看了眼是/目錄滿了,清理了之後啟動ats正常,本以為就完事了,後來客服同事再次告知我,裝置流量異常,幾乎沒有命中。

image

這個是當時的流量圖(紅線框),可以看出回源幾乎100%了。上裝置看了眼,日誌請求的統計資訊中幾乎也是沒有HIT的內容,全都是各種MISS。

image

2.排查源站:

由於我們的業務特點,基本的回源率基本也保持在40%左右,其實也看源站了,如果做的源站都不讓存,那80、90%的回源率之前也有的,不過這些站點我們一般都發現了強制快取了。

從日誌中找了一個MISS的連結去直接在本機裝置抓取看下源站資訊:

image

發現源站是沒問題的,存在明確的快取控制頭資訊,沒道理存不下來的,很可能是裝置本身的問題了。

3.排查裝置配置:

前面已經判定了裝置服務的站點本身是沒問題的,那問題的焦點就集中在了裝置自身配置的問題了。

在裝置上代理本機的請求看下究竟是什麼情況:

image

發現多次抓取都是MISS掉了。

第一反應就是這裝置的records.config被修改了吧,估計是快取功能沒開啟,檢視相關配置:

image

http.cache.http 是開啟的,1表示開啟快取功能,其他的相關引數也沒有問題。看來不是這個的問題,那是不是磁碟的相關引數配置錯誤呢:

image

發現配置了使用的相關磁碟,也沒有大問題。

4.檢查cache空間

無奈找燦哥幫助,同時在群裡找大神幫忙,感謝北國、紙鳶兩位大神耐心幫我排查,最後helaku大神提醒我看下cache空間是不是為0了,echo “show:cache-stats” | traffic_shell看下:

image

發現cache空間果然為0,難怪無法快取。

5.確定問題:

現在問題很明確了就是無可用的儲存導致的,那麼肯定是磁碟故障了或者無許可權導致的。檢視啟動日誌:

image

從日誌中可以看出是相關的磁碟無讀寫許可權導致的。

檢視磁碟屬性:

image

的確是許可權不足。

同時燦哥也回覆了,讓我檢查啟動日誌、看下磁碟許可權是不是不對。感謝燦哥,大神就是大神,果然牛掰。

6.修復:

確定了許可權的問題就好辦了,直接修改許可權就ok 了:

image

重啟traffic server、檢視相應的cache空間:

image

現在正常了,同時檢視啟動日誌,也沒有再抱怨許可權不足的告警。檢視相應的日誌統計,請求命中也上去了,回源慢慢的掉下來了:

image

7.總結:

導致traffic server回源異常的可能原因有以下幾個:

1.http.cache.http 引數異常,為0表示不開啟快取功能,這個時候肯定是全MISS的

2.storage.config中未配置相應的磁碟、目錄,會導致無可用cache空間,從而也會全MISS

3.相應的磁碟、目錄許可權不足,也會導致無可用空間,同樣還是全MISS掉

4.源站的問題,traffic server預設為遵循源站,如果源站不讓快取也會導致MISS過高,但一般不會全MISS

以上都是可能的幾個原因, 其實這裡我不應該首先檢查源站,全MISS的情況下一般都不可能是源站導致的,更應首先排查自己配置的問題。

相關推薦

traffic server異常故障排查

1.問題出現: 怕什麼來什麼,燦哥前腳剛走就來故障了。客服同事告知有臺裝置宕機了,重啟之後ats無法啟動。看了眼是/目錄滿了,清理了之後啟動ats正常,本以為就完事了,後來客服同事再次告知我,裝置流量異常,幾乎沒有命中。 這個是當時的流量圖(紅線框),可以看出回

CentOS服務器上搭建Gitlab安裝步驟、中文漢化詳細步驟、日常管理以及異常故障排查

機器 start 自己的 sta sendmai 內網 eight 故障 /tmp 一, 服務器快速搭建gitlab方法 可以參考gitlab中文社區 的教程centos7安裝gitlab:https://www.gitlab.cc/downloads/#centos7ce

虛擬化平臺VMware vCenter Server無法連線故障排查解決

1.環境: 系統:Windows 2008R2 vCenter版本:VMware vCenter Server 5.1.799731 資料庫:Oracle 11.2.0 2.故障描述: 用VMware vSphere Client客戶端無法登入,提示“出現未知連線錯誤。(由

MongoDB故障排查記錄 [rsHealthPoll] couldn't connect to server

一直在用一個五臺機器組成的MongoDB叢集(192.168.40.80 ~ 84),5個shard,分了3個分片。之前一直執行正常,最近一段時間發現服務很不穩定,show db老提示說shard 4 error,並且有時候有機器會因為負載過高而宕機。 今日偶然檢視Mong

ceph 集群報 mds cluster is degraded 故障排查

ceph 故障排查 mds degraded ceph 集群報 mds cluster is degraded 故障排查ceph 集群版本:ceph -vceph version 10.2.7 (50e863e0f4bc8f4b9e31156de690d765af245185)ceph -w

配置IP和網絡故障排查

虛擬主機 配置文件 網絡服務 計算機 ip地址 1:nat模式和橋接模式的區別橋接:虛擬機和主機一個網段,好處:設置簡單,可以訪問局域網其他計算機和外網。 缺點:占用一個外網ip地址nat:使用的是vmnet8網卡,能和主機外網通信,不能和局域網其他的主機通信。2:網卡配置文件目錄v

mysql 線上故障排查

mysql 線上故障排查Mysql 系統報連接池滿iostatslowlogWhat’s in slow log?Mk-query-digest mk-query-digest 全面分析slow log本文出自 “李世龍” 博客,謝絕轉載!mysql 線上故障排查

TCP連接的狀態詳解以及故障排查

ron 快的 watermark 概念 cer ever socket客戶端 交換 暫時 轉載自CSDN博客:http://blog.csdn.net/hguisu/article/details/38700899 TCP狀態 TCP狀態遷移路線圖 TCP連接建立三

Kubernetes之kubectl常用命令使用指南:2:故障排查

alpha eth message resources mount 權限 copyright count limit kubectl是一個用於操作kubernetes集群的命令行接口,通過利用kubectl的各種命令可以實現各種功能,是在使用kubernetes中非常

網絡及服務故障排查

linuxping www.baidu.com 如果ping不通icmp協議可能被禁止了 (高速公路有沒有修通),linux禁止icmp協議。ping -c2 -i2 -s512 www.baidu.com 2.traceroute www.baidu.com 基礎檢查,(各個高速節點 有沒有修通,跟蹤

記錄一次MySQL進程崩潰,無法重啟故障排查

not pool function 解決 variables fail data class 緩沖 最近程序在跑著沒幾天,突然訪問不了,查看應用進程都還在。只有數據庫的進程down掉了。於是找到日誌文件看到如下錯誤 2017-07-24 01:58:53 19934 [N

linux系統收到SYN但不SYN+ACK問題排查

tcp_tw_recycle syn/ack syn/ack沒回復 tcp_timestamps 一,背景:今天下午發現線上的一臺機器從辦公網登錄不上且所有tcp端口都telnet不通,但是通過同機房的其它機器卻可以正常訪問到出問題的機器。於是就立即在這臺出問題的server端抓包分析,發現問

yum安裝故障:warning: rpmts_HdrFromFdno: Header V3 RSA/SHA256 Signature, key ID 0608b895: NOKEY

nokey public key 一:操作:用yum安裝pssh服務:[[email protected] ~]# yum install pssh二:故障信息:warning: rpmts_HdrFromFdno: Header V3 RSA/SHA256 Signature, key

一卡通vip充值消費線上oracle庫服務器故障排查過程

oracle 上圖是oracle體系總架構圖今天突然公司所有終端pos機不能刷卡消費,財務室不能充值,一下很多電話打過來了,第一反應肯定數據庫出問題了,登陸到數據庫服務器,果然sqlplus連進去後就不斷提示要求輸入用戶名,彈出一下提示:ERROR:ORA-00020: maximum number of p

Traffic-Server配置(待補充和更新)

exp onf 存儲 空間 時間 cache 1-1 byte conn Server 5.3.2 測試1.裸盤:remap.configmap http://192.168.227.131 http://192.168.227.131:8080 #traffic_ser

壓測過程中故障排查之一:高CPU占用問題分析案例

一段 運行 應用 進行 返回 sco close 找到 java 說明: 一個應用占用CPU很高,除了確實是計算密集型應用之外,通常原因都是出現了死循環 以我們最近出現的一個實際故障為例,介紹怎麽定位和解決這類問題。 根據top命令,發現PID為28555的Java進程占

traffic server文件目錄

tsp 哈希 socks 級別 stats 調用方法 可讀的 重復 回調函數 功能: Trafficserver的主要功能是緩存,當然你也可以用它來做純粹的反向代理(像通常用nginx那樣)。通常切入一個龐大的系統的最好方式是看如何使用,使用traffic

12.11-xshell遠程連接服務器以及故障排查

菜鳥驛站12.11xshell遠程連接服務器以及故障排查 內容:1)centos 網絡配置(setup)2)Xshell的優化3)Xshell遠程連接服務器(1)Windows中關於vmware 相關服務要運行(共5個服務)(2)Vmware 網絡配置 子網IP 10.0.0.04)xshe

Linux服務器中高負載現象故障排查 linux技術學習

info 最終 linux技術 技術 多少 任務 pan 例子 現象 這裏要區別CPU負載和CPU利用率,它們是不同的兩個概念,但它們的信息可以在同一個top命令中進行顯示。CPU利用率顯示的是程序在運行期間實時占用的CPU百分比,這是對一個時間段內CPU使用狀況的統計,通

小型公司案例 -- 局域網故障排查

創建 實現 sha type 圖片 access log mark ext 查找該案例中的錯,實現全網互通。 該案例中一共九處錯誤: 1、PC0與PC1不再同一網段。 PC0: PC1: 2、SW1的Fa0/1口沒做access鏈路。 3、SW1的Fa0/23口沒有