關於spin_lock使用過程中的一次問題定位

阿新 • • 發佈：2019-01-01

1、問題描述
軟硬體約束條件：
軟體平臺：linux 3.4.35的kernel版本
硬體平臺：海思3518ev200晶片（[email protected]）
問題現象：
報警主機向slic晶片每100ms傳送一個cid報文（DTMF雙頻音），slic晶片檢測到雙頻音後觸發中斷，中斷函式做相關的處理，主要是讀走雙頻音資料。偶現的問題是cid報文會丟失，導致異常。

2、問題定位
首先cid報文丟失，哪裡丟失的？是應用丟失了，還是驅動丟失的？這個相對好確定。在應用取報文的介面加列印就可以確認了，應用並沒有丟失資料，而是驅動丟失了資料。

第二，確定是驅動丟失了資料，那是驅動丟失中斷，還是檢測到中斷，後續沒有處理呢？這裡我們先插入一些題外話，關於linux中斷處理，隨著不同需求的發展，中斷處理逐漸分為上下兩半部處理機制。上半部處理耗時較少的任務，下半部處理耗時較長的任務。上半部的限制比較多些，最主要的是不能呼叫休眠的函式，因為中斷沒有上下文，休眠後，永遠不能再次排程。至於下半部實現方式，目前大致有四種：
Tasklet、工作佇列、軟中斷和執行緒化irq，（宋寶華 linux裝置驅動開發詳解第10章中斷與時鐘 p230）有詳細的描述，本例只做簡單的描述。Tasklet執行上下文是軟中斷，不能休眠；工作佇列，執行上下文是核心執行緒，可以排程和休眠；軟中斷方式，tasklet就是基於軟中斷方式實現的，驅動編寫者不會也不宜直接使用softirq；最後一種是執行緒化處理方式，核心會為相應的中斷分配一個相應的核心執行緒，上半部執行返回IRQ_WAKE_THREAD後，核心會排程對應執行緒執行thread_fn對應的函式。本例中使用的就是執行緒化的處理方式。

第三，確定在什麼時候丟失的cid報文
在驅動上半部中增加一個計數字段，每來一次都自增，在下半部掉進去後打出此值，同時下半部中取cid報文處也計數，這裡發現，當cid丟失時，上半部是增加了，但是下半部沒有做取cid的動作。於是可以確認：1、中斷沒有丟失；2、下半部處理可能出問題了，它沒有取cid報文。

第四、為什麼沒有取cid報文
諮詢si32178廠商後，得知沒有取報文的原因是晶片下半部處理時間過長，導致描述該dtmf音有效的欄位已經失效（該欄位只有在dtmf音持續觸發時間內，欄位才有效）dtmf音已經停止觸發了。DTMF音持續的時間是50ms，也就是說，中斷下半部在50ms裡面都沒有來取cid報文。

第五，初步解決方式
既然需要檢測dtmf有效位後再去取cid報文，能不能不檢測dtmf的有效位，直接取cid資料呢？諮詢si32178廠商後說，也可以，風險點在於不知道dtmf資料會不會被下一個cid覆蓋，前面說了cid是100ms觸發一次，而檢測dtmf音需要持續觸發13.3ms以上，那如果122ms（極限時間）沒有取資料，資料也會丟失。於是初步嘗試的版本有了，不去檢測cid資料的有效性，中斷來了後，直接取走cid資料。測了一段時間後，cid丟失的問題又出現了，於是在中斷上部加入時間，在下半部取資料的點上也加入時間，打出時間差，發現時間差確實有100ms以上的。

第六，為什麼會有這麼多的延時
從中斷上半部到下半部獲取cid資料，為什麼會有100ms以上的延時，這意味者什麼？這裡我沒有仔細的分析，而是盲目的嘗試了上述中斷下半部處理方式的tasklet和work佇列，以及在下半部中增加定時器來取資料，結果還遺憾都是會丟cid的。當時我高度懷疑linux的排程出了問題，是下半部沒有得到及時排程引起的，因為linux是非實時的系統，無論是tasklet和work佇列，系統都是在合適的時間去排程。於是另一個嘗試的做法出現了，既然懷疑排程，那為什麼不所有的工作都放到上半部處理呢？

第七、上半部的版本
在精簡了程式碼，把能做的操作儘量減少，能不加的鎖去掉後，上半部處理所有工作的版本出來了，心想這下總沒有問題了吧！測試的時候，確實堅持了很久，但是（凡是都怕但是）還是丟cid了。當時我心想，沒有方法了，該試的方式我都試了，還是解決不了。不知道還能做什麼，不知道問題到底出在哪裡。

第八、再次分析
從上半部到下半部的執行時間超過100ms，這個是排程的問題？
Cpu主頻440Mhz，這是什麼概念？一秒中執行4.4億次單指令週期的命令，100ms可以做4400萬次基本操作。再來看優先順序，中斷下半部的優先順序可以理解為fifo 999的優先順序，可以說除了中斷就是這個執行緒取操作，而現在耽擱這麼長的時間沒有執行，基本不會是排程的問題，而是其他操作出問題了。那我們在中斷下半部到底做了什麼操作呢？我們讀slic的暫存器去清中斷，讀取cid資料。那問題是否出在讀slic晶片的暫存器清中斷呢？我們是如何讀暫存器呢？

第九、深入分析
讀暫存器使用的是模擬的spi介面，先發送一個ctrl字，在傳送addr，最後傳送資料，這整個過程已經spin_lock鎖保證操作的原子性，這裡有一個問題：
模擬Spi這個資源是有競爭的：1、普通的ioctrl會使用； 2、中斷也會使用。
我們使用的spin_lock來保護互斥資源，考慮如下情況：當執行緒A呼叫ioctrl，它拿到了spi的spin_lock鎖，正在操作的時候，這時中斷來了，執行緒A被打斷。轉而執行中斷，中斷中也是用模擬spi，也要去拿鎖，這個時候，拿不到鎖，忙等，等待執行緒A釋放鎖，但是執行緒A沒有機會得到排程，死鎖。從邏輯上講，spin_lock保護spi模擬資源會導致死鎖的，因為它保護不住，但是為什麼沒有死鎖呢？很奇怪。那什麼鎖能保護住，不讓中斷過來搶資源呢？spin_lockirqsave

第十，又是一個測試版本
模擬的spi換掉spin_lock使用spin_lockirqsave鎖保護後，又出了一個版本給同事測試，這個鎖會關中斷，執行緒A操作的時候，不會來中斷，所以它可以保護的住互斥資源。終於，測試到現在沒有丟cid報文了。但是有個問題不解，之前用spin_lock這把鎖，如果鎖不住，裝置會宕機，為什麼沒有宕機呢？

第十一，深挖spin_lock
在給出spin_lockirqsave的版本後，到此cid丟失的問題已經解決。但是還有一個問題是不和邏輯的，spin_lock這把鎖是鎖不住模擬spi資源的，為什麼沒有死鎖？這個時候，我想最好的方法就是看核心原始碼了，你會發現spin_lock是一個條件編譯，核心配置不同，spin_lock的實現是不同的，我們這個版本spin_lock是啥都沒有做。自然保護不住模擬spi通訊的原子性。於是乎，又有一個問題，為什麼spin_lock實現需要條件編譯去控制,spin_lock是自璇鎖，為什麼實現會是空，啥都不做呢？這個問題要追溯到spin_lock的由來了。Spin_lock本來是用在SMP系統上的，例如我們有兩個核，A和B，當中斷來的時候，A和B都要在中斷裡訪問臨界資源S，這個時候怎麼保護S呢？使用spin_lock，A核觸發中斷，首先拿到鎖，在臨界區執行，此時B核中斷也觸發了，它也去拿鎖，這個時候B拿不到鎖，於是乎，它自璇在這裡等待，獨佔B核的cpu資源。終於A核做完所有事情，A核釋放鎖資源。這個時候，B核拿到鎖可以繼續執行了。而我們的系統是UP系統，單核的，所以理論上不需要spin_lock這個東西。故而，實現為空。但是具體的要看核心程式碼，有些是關了搶佔的。一切以程式碼為準。

那麼，針對中斷和執行緒競爭資源該使用什麼鎖，核心做了一些其他spin_lock的變種：
Spin_lock/spin_unlock
Spin_lock_bh/spin_unlock_bh
Spin_lock_irq/spin_unlock_irq
Spin_lock_irqsave/spin_lock_irqrestore
詳細的用法介紹可以參見:

https://blog.csdn.net/wh_19910525/article/details/11536279

https://www.cnblogs.com/aaronLinux/p/5890924.html

http://blog.csdn.net/electrombile/article/details/51289813

https://www.cnblogs.com/sky-heaven/p/5730113.html

3問題總結
表象的背後是我們追求的真相,真相的背後是我們追求的真知。真知才能進一步指導我們的行為邏輯。
計算機中每秒鐘執行的指令以億為單位，任何邏輯上有風險的點，哪怕概率是億萬分之一，那麼跑到的概率也是極大的。就像丟cid報文一樣，中斷和普通ioctrl就是撞到了一起，沒有保護模擬spi通訊的原子性。這個概率發生的也不高，但是它就是實實在在的發生了。此次Debug的時間非常久，多次討論，多次嘗試，終於找到問題所在。
1、那麼問題能否避免在coding階段呢？還是有可能的，養成嚴謹的邏輯，良好的程式碼習慣很重要。
2、 Debug的時間能否縮短，也是有可能的。不要太多的盲目嘗試，多一些理性的分析，瞭解所用介面的特性
3、未完待續……

關於spin_lock使用過程中的一次問題定位

分享工作中一次優化程式的過程

五年java開發生涯中一次吐血的項目救火（程序員何苦難為程序員）

QQ群中一次問答面試題，供大家借鑑，哈哈

如何在 Linux 中一次重新命名多個檔案

儲存過程中一維陣列接受按分割符拆分的資料

列序遞增轉置和一次定位快速轉置

python中一次替換字串中的多個字元

在Oracle中一次執行多條sql語句,結束符很重要

簡述servlet的執行過程(根據一次請求對應一次響應開始描述)。

三元組建立矩陣一次定位快速轉置矩陣的加法、減法、乘法

SQL中一次插入多條資料

Python中一次讀取多個值

如何在Oracle中一次執行多條sql語句,結束符很重要

稀疏矩陣-壓縮儲存-列轉置法- 一次定位快速轉置法

Sql server儲存過程以及一次插入多條記錄

MySql 中一次update更新多條資料

asp.net 中一次上傳多個檔案

在oracle中一次執行多條語句

關於spin_lock使用過程中的一次問題定位

一次存儲過程參數嗅探定位流程總結

關於spin_lock使用過程中的一次問題定位

相關推薦