趙晨雨: 從微觀角度來看linux核心設計
餘生皆歡喜
最近總結出來學習核心有兩個大的角度,一種就是從巨集觀角度來看,總的來說就是順著抽象,管理,操作來看,這種角度更多的是核心中應用層面的內容,用來理解核心中是怎麼運轉起來的。第二種就是從核心的最細節部分出發,深入到一個個具體的巨集,看看核心設計者在細節部分有著怎麼樣的巧妙之處,這樣也有助於我們夯實C語言基礎,也可以學習到GNU C的用法。
最近學習瞭如下的GNU C的內容:
指定初始化
語句表示式
typeof關鍵字
核心第一巨集
我們來看看這些內容是怎麼設計的,GNU C就是打輔助的,專門為了OS而存在,(為什麼全世界不統一使用GNU C呢?)它帶來了太多的方便,換句話說,它幫助核心設計人員解決了很多核心設計者在設計核心時所遇到的問題,我這樣認為,GNU C中每一條功能,就是核心設計者在實際設計中遇到的問題。
這裡再次分析總結gitbook中的兩個巨集,一個是max/min巨集,一個是核心第一巨集container_of。
max/min巨集
核心中的樣子:
這裡的max巨集可以讓我們學會語句表示式,typeof關鍵字;基礎方面可以鞏固運算子優先順序。
這個巨集是怎麼得到的呢?
我們來寫一個巨集,用來比較兩個變數的大小,我一定會這麼寫:
那麼我們來比較一下4!=4
和2!=3
,結果是錯誤的,原因是運算子優先順序出了問題。那麼我們來解決,使用括號是最簡單的方法:
我們來執行一條語句:printf("max = %d\n",3 + MAX(4,5));
再來執行一下printf("max=%d\n",MAX(2++,3++));
,輸出的會是4,但我們只想要比較2和3的值,這裡是因為自增自減運算子導致的問題,那麼怎麼解決呢?和交換兩個數字的想法一樣,通過一箇中轉值來存放,就可以隔離影響了
這裡就有一些核心程式碼中的味道了,注意一個細節,這裡的第四行沒有括號了,為什麼?這裡就是因為語句表示式了,不存在上面的影響了。這裡我們回顧一下程式碼,再看看目前這個巨集的第二三行,是int
,也就是我們這個巨集只能比較int型別的變數,而在核心中需要比較大小的變數有很多,那麼我們來提高一下:
這個巨集就可以用來比較任意型別的變量了,再來看一下程式碼,我們需要替換的變數有type
,x
,y
三個,如果有了typeof關鍵字,我們還可以減少一個:
接著來,如果我們使用了一次巨集,是MAX(i,j)
,其中i是int型別,j是float型別,這樣比較是可以的,但是在核心的設計過程之中,很有可能有些地方會出現問題,所以還需要改造:
這就是究極形態了,我們添加了第四行的程式碼,來看&_min1
,它的意思是取_min1
的地址,而&_min2
的意思是取_min2
的地址,我們也知道,這兩個地址肯定不可能是一樣的,那為什麼還要這樣寫呢?這裡就很巧妙了,當兩個變數的型別不同時,對應的地址,也就是指標型別也不相同,比如一個是int型別,一個是char型別,那麼指向他們的指標就是int *和char *,這兩個指標在比較的時候,就比較的是型別了。如果比較的型別不一樣,gcc會警告的。
我們來看這一系列改進,我相信核心設計人員也想把程式碼寫成# define MAX(x,y) x > y? x : y
的樣子,但是現實是殘酷的,我們為了程式碼的健壯性,就必須這樣一步一步來改進,所以,核心程式碼看起來很複雜,又很巧妙,是因為我們直接看到的是究極形態的程式碼,它是向現實妥協了多次以後的產物,也就是健壯性+GNU C。但是,核心設計者的初衷,或者說最初的想法和我們都是一樣的。
有核心原始碼在旁邊,鞏固基礎知識就不用像以前的學習模式了,可以在原始碼中代入學習,增添一份趣味性,並且可以很快理解。
在以後處理因為運算子而導致的問題的時候,使用括號是最方便的,核心就這麼幹了。
在寫程式的時候,要巧用中轉變數,雖然只是簡單的存入另一個變數之中,但是程式碼的健壯性提高了很多。
兩個地址在進行比較的時候,我們可以得知這兩個指標型別是否一致。
核心第一巨集
gitchat中把container_of巨集叫做核心第一巨集,我也很喜歡這個稱號,因為學核心兩個月裡見這個巨集的次數太多了。在陳老師講list.h的時候,就學習過這個巨集,但是並沒有完完全全地剖析開。
高能預警:
這個巨集的作用我們已經很清楚了,根據結構體中某一成員的地址,就可以獲得這個結構體的首地址,再說的明白一點,假如你是核心設計人員,前面也說道了,我們已經對資料進行了多次封裝,我們一定會遇到這種情況:傳給某個函式的引數是某個結構體成員變數,但是我們在這個函式中還想使用這個結構體的其它成員變數,這個時候就需要想辦法,於是才有了我們現在看到的這個核心第一巨集。
它的三個引數是:
ptr:此結構體內成員member的地址
type:此結構體型別
member:此結構體內的成員
我們直接看程式碼,這個巨集的最後的值,就是最後一條語句,(type *)( (char *)__mptr - offsetof(type,member) );})
,這條語句也是這個巨集的中心思想拿結構體成員的地址減去此成員的偏移
,這裡也體現了指標做減法是很有意義的。成員的地址好說,我們直接傳進來了,偏移是通過offsetof來實現的,來看看這個offsetof:將0強制型別轉換成這個結構體的指標型別,然後訪問這個成員,加上&得到它的偏移,返回。這裡要注意一下,那就是為什麼只通過TYPE和MEMBER就可以得到偏移,我一開始認為的是核心中這個型別的結構體多了,到底用的是哪一個結構體來得到的,最後發現,並沒有關係,因為我們需要的是位元組數,與實際這個欄位賦什麼樣的值並沒有關係,因為所有這個型別的結構體中,各成員的位元組大小是一樣的。
再來看(char *)__mptr
,這個通過第四行程式碼可以很容易得出它是成員的地址,為什麼要強制轉換成char *
呢?轉換成int *
不行嗎?這裡又可以學習一下C指標的基礎知識,通過程式碼可以很容易知道有什麼區別:
打印出來的值,p(int *)型別,增加了4位元組,而q(char *)增加了1位元組,回到巨集中,我們的偏移是按照位元組來算的,所以不能使用(int *),必須使用(char *)。在最後,再次強制型別轉換成指向這個結構體的指標型別。
回過頭來看第四行程式碼,const typeof( ((type *)0)->member ) *__mptr = (ptr);
,這裡和max巨集之中類似,使用了中轉變數來存放,這裡為什麼要使用中轉變數?max巨集中是為了防止自增自減的影響(當然只是原因之一了),但我們在使用的時候總不至於發過來成員的地址再加一個++運算子吧。我們可以從const的用法來思考,const int * p //p可變,p指向的內容不可變
,所以,使用了const,我們就可以保證ptr指向的內容在這裡只是可讀的,這也許就是為什麼使用中轉變數的原因,為了防止我們通過指標改變了原有的成員的值,畢竟指標雖然強大,但也是很危險的,所以,這裡的中轉要配合const來使用。既然是中轉,那麼型別就必須要求一致了,所以我們要得到和這個成員一致的型別,就通過typeof來得到了,將0強制型別轉換成這個這個結構體的指標型別,然後訪問這個變數,(注意仔細看程式碼,這裡的程式碼和offsetof非常類似)這裡沒有使用&,所以只是訪問到變量了,沒有得到偏移。另外根據const的用法,第四行的程式碼也可以寫成typeof( ((type *)0)->member ) const *__mptr = (ptr);
也就是把const放到後面。
我們再來注意一個細節,就是offsetof裡的size_t
,這個是什麼,這裡在敲程式碼的過程中偶然學到一個小技巧,就是這個size_t絕對是封裝,就是C語言中那幾種變數型別,我們可以typedef int size_t;
然後執行,gcc就會報錯,並且會給你顯示:以前已經定義過:typedef __SIZE_TYPE__ size_t
,並且會指定這個值在哪個檔案,我們就可以知道它的真面目了。換句話說,gcc這麼強大,我們當然可以把它當做一個學習工具來使用。
另外還可以通過sublime,可以很快找到它的真面目(3.10版本):
最後,為了更深入理解這些知識的使用方法,還是需要自己動手來敲程式碼的,尤其是核心第一巨集,將程式碼寫到使用者態下,然後瘋狂改造,這樣才會真正理解這個巨集。
參考資料:
https://gitbook.cn/gitchat/column/5a5c61512be8c36114823584
(完)
"Linux閱碼場"是專業的Linux及系統軟體技術交流社群,企業和Linux人才的連線樞紐。
檢視我們精華技術文章請移步:
求職招聘請移步:
掃描二維碼關注我們