linux 伺服器丟包故障排查

阿新 • • 發佈：2018-11-11

https://www.cnblogs.com/GO-NO-1/p/7324502.html

專案開了個P2P伺服器，但是執行一段時間就會出現丟包問題，具體表現為：
1、udp丟包嚴重（一分鐘收發分別1.5W）

2、ssh（用於運維指令）連線不上該伺服器（超時）

3、伺服器執行好像沒什麼異常，udp假連線數比tcp連線數少（正常應該相近）

首先開始懷疑是不是客戶端有bug，查log發現某段時間有個別客戶端發大量心跳包，開始懷疑這個原因導致服務異常。在多次關服開服後沒出現這個問題，但是伺服器執行一段時間依舊出現上述異常，排除這個原因。

既然不是客戶端導致的。。

就開始在自身找原因，接著懷疑是不是最大連線數、最大檔案開啟數，查了一下伺服器設定：

ulimit -n　　//可以開啟最大檔案描述符的數量

65536

ulimit -a　　//顯示當前所有的 limit 資訊

time(seconds) unlimited
file(blocks) unlimited
data(kbytes) unlimited
stack(kbytes) 8192
coredump(blocks) unlimited
memory(kbytes) unlimited
locked memory(kbytes) 64
process 516037
nofiles 65536
vmemory(kbytes) unlimited
locks unlimited

cat /proc/sys/fs/nr_open　　//單程序最大檔案限制

1048576

cat /proc/sys/fs/file-max　　//系統最大檔案限制

6605234

再看下伺服器現在相關資訊：

lsof -n　　//檢視伺服器檔案開啟數資訊

ps -aef　　//程序資訊

發現無論是檔案描述符開啟數還是檔案開啟數都沒超標---陷入僵局。

覺得應該是系統某個設定不當導致的，但是又無從查起，查 /car/log/messages 裡面的資訊應該能查到點端倪，可是沒許可權。(dmesg 命令好像可以檢視)

後來諮詢其他小組，發現他們也遇到過一樣的問題，問題來自於跟蹤連線表的限制----nf_conntrack/ip_conntrack。

理解nf_conntrack和調整nf_conntrack_max ：nf_conntrack 工作在 3 層，支援 IPv4 和 IPv6，而 ip_conntrack 只支援 IPv4。

目前，大多的 ip_conntrack_* 已被 nf_conntrack_* 取代，很多 ip_conntrack_* 僅僅是個 alias，原先的 ip_conntrack 的 /proc/sys/net/ipv4/netfilter/ 依然存在，但是新的 nf_conntrack 在 /proc/sys/net/netfilter/ 中，這個應該是做個向下的相容。

nf_conntrack/ip_conntrack 跟 nat 有關，用來跟蹤連線條目，它會使用一個雜湊表來記錄 established 的記錄。nf_conntrack 在 2.6.15 被引入，而 ip_conntrack 在 2.6.22被移除，如果該雜湊表滿了，就會出現問題來。

檢視系統預設跟蹤連線表限制：

cat /proc/sys/net/ipv4/netfilter/ip_conntrack_max 　//最大
cat /proc/sys/net/ipv4/netfilter/ip_conntrack_tcp_timeout_established 　　//儲存時間

cat /proc/sys/net/ipv4/netfilter/ip_conntrack_count　　//當前

查看了以後，發現執行一段時間後跟蹤連線表的確是滿了，導致文章開始所述的情況出現，而 ip_conntrack_max 有個建議值：

CONNTRACK_MAX = RAMSIZE(in bytes)/16384/(ARCH/32)，如32G記憶體可以設定1048576

臨時修改該值：

echo 1048576> /proc/sys/net/ipv4/netfilter/ip_conntrack_max

p2p伺服器重啟後執行恢復正常。

linux 伺服器丟包故障排查

https://www.cnblogs.com/GO-NO-1/p/7324502.html 專案開了個P2P伺服器，但是執行一段時間就會出現丟包問題，具體表現為： 1、udp丟包嚴重（一分鐘收發分別1.5W） 2、ssh（用於運維指令）連線不上該伺服器（超時） 3、伺服器執行好像沒什麼

Linux運維常見故障排查和處理的33個技巧匯總

login directory 安全系統很大的 hfile 系統損壞 iptables open 實踐作為linux運維，多多少少會碰見這樣那樣的問題或故障，從中總結經驗，查找問題，匯總並分析故障的原因，這是一個Linux運維工程師良好的習慣。每一次技術的突破，都經歷著

linux運維系統故障排查思路及常見故障處理

運維故障故障排查常見linux故障一 linux系統故障的一般處理思路報錯信息--->查閱日誌文件--->分析定位問題--->解決問題。二 linux系統無法啟動原因及解決系統無法啟動的原因很多，常見的有下面幾種情況： 1 文件系統被破壞，常常因斷電和

關於Linux運維常見故障排查和處理的33個技巧彙總

作為linux運維，多多少少會碰見這樣那樣的問題或故障，從中總結經驗，查詢問題，彙總並分析故障的原因，這是一個Linux運維工程師良好的習慣。每一次技術的突破，都經歷著苦悶，伴隨著快樂，可我們還是執著的繼續努力，從中也積累了更多的經驗，這就是實踐給予我們的豐厚回報。下面彙總了

Ping丟包故障案例

行處理報文案例流量 pla bit lin 網絡 int 一、Ping丟包故障 1、Ping丟包故障現象二、故障猜想可能存在以下問題 1、物理環境故障；2、網絡環路；三、故障定位1、物理環境故障；登錄交換機dis int g1/0/1查看端口下面不存在CRC報文，

Linux伺服器中高負載現象故障排查學習

這裡要區別CPU負載和CPU利用率，它們是不同的兩個概念，但它們的資訊可以在同一個top命令中進行顯示。CPU利用率顯示的是程式在執行期間實時佔用的CPU百分比，這是對一個時間段內CPU使用狀況的統計，通過這個指標可以看出在某一個時間段內CPU被佔用的情況，如果被佔用時間很

Linux服務器中高負載現象故障排查 linux技術學習

info 最終 linux技術技術多少任務 pan 例子現象這裏要區別CPU負載和CPU利用率，它們是不同的兩個概念，但它們的信息可以在同一個top命令中進行顯示。CPU利用率顯示的是程序在運行期間實時占用的CPU百分比，這是對一個時間段內CPU使用狀況的統計，通

Linux故障排查

遺忘root用戶密碼；掛載故障今天給大家介紹兩種linux系統的故障排查和處理，一種是遺忘密碼該怎麽處理，第二種是掛載時報錯，不允許掛載時該怎麽處理下面先給大家介紹下遺忘root用戶密碼的處理方法，首先重啟系統在開機進入grub引導時，按esc取消倒計時然後定位到需要進入的系統，按e鍵進入編輯模式定位到k

linux學習，網絡故障排查

The eth0 server nmap LV 80端口網卡驅動作用內核 .當linux操作系統產生網絡故障時，應先從硬件到軟件/,1，檢查網線、網卡。到機房裏檢查網線兩端是否都亮燈，普通服務器的話應該是綠燈常亮為正常，交換機綠燈閃爍表示正在傳輸數據。也可以通過命令i

linux重要文件丟失導致系統故障，修復方法,(以 libc.so.6庫損壞，rpm軟件包故障為例)

救援模式 fff error eee 分享 color 按鈕服務器 blog 第一步：找出損壞的文件及它的安裝包，安裝修復。修復之前先明確你損壞的文件是屬於那一個軟件包，這個可以在一臺能正常運行的同版本的服務器上查看。好了知道什麽文件損壞，接下來只要安裝修復就好了。

springboot打成Jar包後部署至Linux伺服器上

下面主要記錄一下springboot打包成jar包在Linux服務上部署的步驟： 1、通過WinSCP，將相應的Jar檔案，複製到Linux指定目錄下，如/home/ 2、開啟ssh，進入/home目錄下，執行如下命令，進行專案的啟動，此方式為後臺啟動，即使關閉當前視窗，專案還是在執行的，會生成nohu

使用指令碼在Linux伺服器上自動安裝Kubernetes的包管理器Helm

Helm之於Kubernetes好比yum之於Red Hat Enterprise Linux，或者apt-get之於Ubuntu。 Helm是由helm CLI和Tiller組成，是典型的Client/Server應用。helm運行於客戶端，提供命令列介面；Tiller應用運行於Kubernetes內部。

伺服器故障排查如何使用jstack分析執行緒狀態

使用jstack精確找到異常程式碼的：https://blog.csdn.net/Mr__fang/article/details/68496248?utm_source=blogxgwz0 Java記憶體洩漏分析系列之一：使用jstack定位執行緒堆疊資訊：https://www.javatang.com

IG牛皮 JVM命令-java伺服器故障排查

一、top（Linux命令）執行top命令：（檢視程序15477的詳細情況，下文用到）系統資訊（前五行）：第1行：Top 任務佇列資訊(系統執行狀態及平均負載)，與uptime命令結果相同。第1段：系統當前時間，例如：16:07:37 第2段：系統執行時間，未重啟的時

伺服器開發中網路資料分析與故障排查經驗漫談

寫在前面的話 “聽見學生時代愛聽的歌，加上太累，回家路上一下子想了好多，腳步慢了，眼眶溼了，不是感傷，而是生活呀，需要這麼多力量。過去那些跌跌撞撞忙碌的日子，怎麼說呢，多少有點像在逃避吧，聽起來不像是真的。” 以上這段話訴說了我的經歷，我也曾迷惘和無助過。也有很多朋友找

在Linux伺服器上執行jar包，並且使jar包一直處於後臺執行

1.我jar包在linux的目錄為/a/bbb.jar 正常情況下，使用在/a目錄下使用 java -jar bbb.jar 可以直接執行該jar包的專案，執行成功之後使用crtl+c可以退出專案執行，

linux 網路故障排查

當linux作業系統產生網路故障時，應先從硬體到軟體、從自身到全域性。 1，檢查網線、網絡卡。到機房裡檢查網線兩端是否都亮燈，普通伺服器的話應該是綠燈常亮為正常，交換機綠燈閃爍表示正在傳輸資料。也可以通過命令ethtool ethX來檢視某一網絡卡的鏈路是否物理連通。其中，speed是當前

linux網路故障排查

阿里雲或linux伺服器配置https及使用nginx啟用https並執行springboot jar包

首先需要伺服器和一個可連外網的域名。在阿里雲後臺申請ssl證書，為域名配置證書並下載for nginx證書檔案儲存好，後面會用。參考：https://jingyan.baidu.com/article/a3aad71aeceea0b1fb00969c.html

linux伺服器上安裝jdk的兩種方法（yum+下載包）

這篇文章主要給大家介紹了關於在linux伺服器上安裝jdk的兩種方法，分別是利用yum安裝和從官網下載包安裝，文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面來一起看看吧前言對於開發者來說，安裝jdk按理說是非常簡單的事，

linux 伺服器丟包故障排查

相關推薦