Keil MDK 編譯器 AC5 和 AC6 優化選項重要內容和區別
使用過Keil MDK (Arm Compiler 6)編譯器V6版本的讀者應該發現了一個問題,V6版本速度比V5版本編譯速度快很多。
(說明:是V6版本編譯器,不是V6版本MDK)
那你發現了Arm Compiler V6和V5有什麼區別嗎? 整合在MDK中的優化選項又有哪些區別?
一、關於Arm Compiler 6
Arm Compiler 6(簡稱AC6)是用於Arm處理器的編譯工具鏈,目前最新版本:Arm Compiler V6.14。
用於編譯Coterx-M處理器的編譯器很多,Arm Compiler就是其中一個,常用於Keil MDK、 Arm Development Studio(
當然,除了Arm Compiler,針對Coterx-M的編譯器還有很多,比如:GNU Compiler、 IAR Compiler、 CCS Compiler等。
Arm Compiler 6工具鏈包括:
armclang:基於LLVM和Clang技術的編譯器和整合彙編器。
armasm:armasm語法彙編程式碼的舊版彙編程式。將armclang整合彙編程式用於所有新的彙編檔案。
armar:使ELF目標檔案集可以一起收集。
armlink:將物件和庫組合在一起以生成可執行檔案的連結器。
fromelf:映象轉換程式和反彙編程式。
Arm C libraries:嵌入式系統的執行時支援庫。
Arm C ++libraries:基於LLVM libc++專案的庫。
ARM Compiler 5(和更早版本)使用armcc編譯器,而ARM Compiler 6將armcc替換為armclang,armclang基於LLVM,它具有不同的命令列引數、指令等,因此算是一個新的編譯器。
更多參考內容和地址:
編譯器Clang會代替GCC嗎?
http://www2.keil.com/mdk5/compiler/6/
https://developer.arm.com/tools-and-software/embedded/arm-compiler/downloads/version-6
二、AC5和AC6
Arm Compiler 5(AC5)算是用的比較多的一代編譯器,在Keil MDK V4版本及V5早期的版本都是使用AC5。
在2015年的時候,AC6釋出了,並在隨後新版本的MDK中集成了AC6,直到現在最新版本的MDK集成了AC6.13(可以修改版本):
AC6相比AC5優勢
AC6相比之前版本的編譯器做了很多改動,大家最為直觀的感受就是編譯速度提高了很多,還有程式碼大小。
當然除了速度和大小,還有其他很多優勢,比如:支援C ++ 14標準、使用TrustZone for Armv8-M為裝置建立安全和非安全程式碼、相容基於GCC建立的原始碼,也就是GCC可以編譯的原始碼它也能編譯。
這是官方提供的程式碼大小對比:
AC5升級到AC6
AC5和AC6是不同的編譯器,相容性方面還是有差異,需要遷移。這個遷移過程官方提供有文件:
https://developer.arm.com/docs/100068/0614/migrating-from-arm-compiler-5-to-arm-compiler-6
當然,也可以參看我之前分享的文章:
MDK-ARM編譯器從V5升級到V6需要做哪些工作?
相關視訊:
三、Keil MDK 優化選項
在Keil MDK中,相比AC5,使用AC6會增加幾個優化選項:程式碼大小、速度、平衡等。
優化選項包含:
優化級別-O0
-O0禁用所有優化。此優化級別是預設設定。使用-O0 結果可以加快編譯和構建時間,但比其他優化級別生成的程式碼要慢。與-O0其他優化級別相比,程式碼大小和堆疊使用率明顯更高 。生成的程式碼與原始碼緊密相關,但是生成的程式碼量更大,包括無用的程式碼。
優化級別-O1
-O1在編譯器中啟用核心優化。此優化級別提供了良好的除錯體驗,並具有比-O0更好的程式碼質量,堆疊使用率也提高了。Arm建議使用此選項以獲得良好的除錯體驗。
-O1與-O0相比,使用時的區別是:
啟用優化,這可能會降低除錯資訊的完整度。
啟用了內聯和尾呼叫,這意味著回溯可能無法提供開啟功能啟用的堆疊。
不會呼叫沒有使用,或沒有預期呼叫的函式,程式碼量更小。
變數的值在不使用後可能在其範圍內不可用。例如,它們的堆疊位置可能已被重用。。
優化級別-O2
-O2與-O1相比,有更高的效能優化。增加了一些新的優化,並更改了優化的啟發式方法。這是編譯器可能生成向量指令的第一個優化級別。它還會降低除錯體驗。
-O2與-O1相比使用時的差異是:
編譯器認為內聯呼叫站點可獲利的閾值可能會增加。
執行的迴圈展開數量可能會增加。
可以為簡單迴圈和獨立標量運算的相關序列生成向量指令。
可以使用armclang命令列選項禁止建立向量指令-fno-vectorize。
優化級別-O3
-O3與-O2相比,有更高的效能優化。此優化級別允許進行需要大量編譯時分析和資源的優化,並且與-O2相比更改了優化的啟發式方法。-O3指示編譯器針對生成的程式碼的效能進行優化,而忽略生成的程式碼的大小,這可能會導致程式碼大小增加。
-O3與-O2相比使用時的差異是:
編譯器認為內聯呼叫站點是有利可圖的閾值增加。
執行的迴圈展開量增加。
在編譯器管道中啟用更積極的指令優化。
優化級別-Os
-Os目的是在不顯著增加程式碼大小的情況下提供高效能。根據你的應用程式,提供的效能可能類似於 -O2或-O3。
-Os與-O3相比,可減少程式碼大小。但會降低除錯體驗。
-Os與-O3相比使用時的差異是:
降低編譯器認為內聯呼叫站點可獲利的閾值。
顯著降低了執行的迴圈展開量。
優化級別-Oz
-Oz目的是提供儘可能小的程式碼量。Arm 建議使用此選項以獲得最佳程式碼大小。此優化級別會降低除錯體驗。
-Oz與-Os相比使用時的差異是:
編譯器僅針對程式碼大小進行優化,而忽略效能優化,這可能會導致程式碼變慢。
未禁用功能內聯。在某些情況下,內聯可能會整體上減少程式碼大小,例如,如果一個函式僅被呼叫一次。僅當預期程式碼大小會減小時,才將內聯啟發式方法調整為內聯式。
禁用可能會增加程式碼大小的優化,例如迴圈展開和迴圈向量化。
迴圈是作為while迴圈而不是do-while迴圈生成的。
優化級別-Ofast
-Ofast從級別執行優化,包括使用 -ffast-math armclang選項執行的優化。
該級別還執行其他進一步的優化,可能會違反嚴格遵守語言標準的要求。
與-O3相比,該級別會降低除錯體驗,並可能導致程式碼大小增加。
優化級別-Omax
-Omax是最大程度的優化,並專門針對性能優化。它支援從級別進行的所有優化,以及連結時間優化(LTO)。
在此優化級別上,Arm Compiler可能會違反嚴格遵守語言標準的規定。使用此優化級別可獲得最快的效能。
與-Ofast相比,該級別會降低除錯體驗,並可能導致程式碼大小增加。
如果你使用-Omax進行編譯,並具有單獨的編譯和連結步驟,你還必須在armlink命令列中包括-Omax。