單片機程序優化經驗
阿新 • • 發佈:2018-05-07
urn 硬件 不同的 性能 表示 情況 存儲 其他 如果 變量就不要使用浮點型變量。當然,在定義變
量後不要超過變量的作用範圍,如果超過變量的範圍賦值,C 編譯器並不報錯,但程序運行結果卻錯了,
而且這樣的錯誤很難發現。
2. 使用自加、自減指令
通常使用自加、自減指令和復合賦值表達式(如a-=1 及a+=1 等)都能夠生成高質量的
程序代碼,編譯器通常都能夠生成inc 和dec 之類的指令,而使用a=a+1 或a=a-1 之類
的指令,有很多C 編譯器都會生成二到三個字節的指令。
3. 減少運算的強度
可以使用運算量小但功能相同的表達式替換原來復雜的的表達式。
(1) 求余運算
N= N %8 可以改為N = N &7
說明:位操作只需一個指令周期即可完成,而大部分的C 編譯器的“%”運算均是調用子程序來
完成,代碼長、執行速度慢。通常,只要求是求2n 方的余數,均可使用位操作的方法來代替。
(2) 平方運算
N=Pow(3,2) 可以改為N=3*3
說明:在有內置硬件乘法器的單片機中(如51 系列),乘法運算比求平方運算快得多, 因為浮點數
的求平方是通過調用子程序來實現的,乘法運算的子程序比平方運算的子程序代碼短,執行速度快。
(3) 用位移代替乘法除法
N=M*8 可以改為N=M<<3
N=M/8 可以改為N=M>>3
說明:通常如果需要乘以或除以2n,都可以用移位的方法代替。如果乘以2n,都可以生成左移
的代碼,而乘以其它的整數或除以任何數,均調用乘除法子程序。用移位的方法得到代碼比調用乘除法子
程序生成的代碼效率高。實際上,只要是乘以或除以一個整數,均可以用移位的方法得到結果。如N=M*9
可以改為N=(M<<3)+M;
(4) 自加自減的區別
例如我們平時使用的延時函數都是通過采用自加的方式來實現。
void DelayNms(UINT16 t)
{
UINT16 i,j;
for(i=0;i<t;i++)
for(j=0;i<1000;j++)
}
可以改為
void DelayNms(UINT16 t)
{
UINT16 i,j;
for(i=t;i>=0;i--)
for(j=1000;i>=0;j--)
}
說明:兩個函數的延時效果相似,但幾乎所有的C 編譯對後一種函數生成的代碼均比前一種代碼少1~3
個字節,因為幾乎所有的MCU 均有為0 轉移的指令,采用後一種方式能夠生成這類指令。
4. while 與do...while 的區別
void DelayNus(UINT16 t)
{
while(t--)
{
NOP();
}
}
可以改為
void DelayNus(UINT16 t)
{
do
{
NOP();
}while(--t)
}
說明:使用do…while 循環編譯後生成的代碼的長度短於while 循環。
5. register 關鍵字
void UARTPrintfString(INT8 *str)
{
while(*str && str)
{
UARTSendByte(*str++)
}
}
可以改為
void UARTPrintfString(INT8 *str)
{
register INT8 *pstr=str;
while(*pstr && pstr)
{
UARTSendByte(*pstr++)
}
}
說明:在聲明局部變量的時候可以使用register 關鍵字。這就使得編譯器把變量放入一個多用途的寄存
器中,而不是在堆棧中,合理使用這種方法可以提高執行速度。函數調用越是頻繁,越是可能提高代碼的
速度,註意register 關鍵字只是建議編譯器而已。
6. volatile 關鍵字
volatile 總是與優化有關,編譯器有一種技術叫做數據流分析,分析程序中的變量在哪裏賦值、在
哪裏使用、在哪裏失效,分析結果可以用於常量合並,常量傳播等優化,進一步可以死代碼消除。一般來
說,volatile 關鍵字只用在以下三種情況:
a) 中斷服務函數中修改的供其它程序檢測的變量需要加volatile(參考本書高級實驗程序)
b) 多任務環境下各任務間共享的標誌應該加volatile
c) 存儲器映射的硬件寄存器通常也要加volatile 說明,因為每次對它的讀寫都可能由不同意義
總之,volatile 關鍵字是一種類型修飾符,用它聲明的類型變量表示可以被某些編譯器未知的因素
更改,比如:操作系統、硬件或者其它線程等。遇到這個關鍵字聲明的變量,編譯器對訪問該變量的代碼
就不再進行優化,從而可以提供對特殊地址的穩定訪問。
7. 以空間換時間
在數據校驗實戰當中,CRC16 循環冗余校驗其實還有一種方法是查表法,通過查表可以更加快獲得
校驗值,效率更高,當校驗數據量大的時候,使用查表法優勢更加明顯,不過唯一的缺點是占用大量的空
間。
//查表法:
code UINT16 szCRC16Tbl[256] = {
0x0000, 0x1021, 0x2042, 0x3063, 0x4084, 0x50a5, 0x60c6, 0x70e7,
0x8108, 0x9129, 0xa14a, 0xb16b, 0xc18c, 0xd1ad, 0xe1ce, 0xf1ef,
0x1231, 0x0210, 0x3273, 0x2252, 0x52b5, 0x4294, 0x72f7, 0x62d6,
0x9339, 0x8318, 0xb37b, 0xa35a, 0xd3bd, 0xc39c, 0xf3ff, 0xe3de,
0x2462, 0x3443, 0x0420, 0x1401, 0x64e6, 0x74c7, 0x44a4, 0x5485,
0xa56a, 0xb54b, 0x8528, 0x9509, 0xe5ee, 0xf5cf, 0xc5ac, 0xd58d,
0x3653, 0x2672, 0x1611, 0x0630, 0x76d7, 0x66f6, 0x5695, 0x46b4,
0xb75b, 0xa77a, 0x9719, 0x8738, 0xf7df, 0xe7fe, 0xd79d, 0xc7bc,
0x48c4, 0x58e5, 0x6886, 0x78a7, 0x0840, 0x1861, 0x2802, 0x3823,
0xc9cc, 0xd9ed, 0xe98e, 0xf9af, 0x8948, 0x9969, 0xa90a, 0xb92b,
0x5af5, 0x4ad4, 0x7ab7, 0x6a96, 0x1a71, 0x0a50, 0x3a33, 0x2a12,
0xdbfd, 0xcbdc, 0xfbbf, 0xeb9e, 0x9b79, 0x8b58, 0xbb3b, 0xab1a,
0x6ca6, 0x7c87, 0x4ce4, 0x5cc5, 0x2c22, 0x3c03, 0x0c60, 0x1c41,
0xedae, 0xfd8f, 0xcdec, 0xddcd, 0xad2a, 0xbd0b, 0x8d68, 0x9d49,
0x7e97, 0x6eb6, 0x5ed5, 0x4ef4, 0x3e13, 0x2e32, 0x1e51, 0x0e70,
0xff9f, 0xefbe, 0xdfdd, 0xcffc, 0xbf1b, 0xaf3a, 0x9f59, 0x8f78,
0x9188, 0x81a9, 0xb1ca, 0xa1eb, 0xd10c, 0xc12d, 0xf14e, 0xe16f,
0x1080, 0x00a1, 0x30c2, 0x20e3, 0x5004, 0x4025, 0x7046, 0x6067,
0x83b9, 0x9398, 0xa3fb, 0xb3da, 0xc33d, 0xd31c, 0xe37f, 0xf35e,
0x02b1, 0x1290, 0x22f3, 0x32d2, 0x4235, 0x5214, 0x6277, 0x7256,
0xb5ea, 0xa5cb, 0x95a8, 0x8589, 0xf56e, 0xe54f, 0xd52c, 0xc50d,
0x34e2, 0x24c3, 0x14a0, 0x0481, 0x7466, 0x6447, 0x5424, 0x4405,
0xa7db, 0xb7fa, 0x8799, 0x97b8, 0xe75f, 0xf77e, 0xc71d, 0xd73c,
0x26d3, 0x36f2, 0x0691, 0x16b0, 0x6657, 0x7676, 0x4615, 0x5634,
0xd94c, 0xc96d, 0xf90e, 0xe92f, 0x99c8, 0x89e9, 0xb98a, 0xa9ab,
0x5844, 0x4865, 0x7806, 0x6827, 0x18c0, 0x08e1, 0x3882, 0x28a3,
0xcb7d, 0xdb5c, 0xeb3f, 0xfb1e, 0x8bf9, 0x9bd8, 0xabbb, 0xbb9a,
0x4a75, 0x5a54, 0x6a37, 0x7a16, 0x0af1, 0x1ad0, 0x2ab3, 0x3a92,
0xfd2e, 0xed0f, 0xdd6c, 0xcd4d, 0xbdaa, 0xad8b, 0x9de8, 0x8dc9,
0x7c26, 0x6c07, 0x5c64, 0x4c45, 0x3ca2, 0x2c83, 0x1ce0, 0x0cc1,
0xef1f, 0xff3e, 0xcf5d, 0xdf7c, 0xaf9b, 0xbfba, 0x8fd9, 0x9ff8,
0x6e17, 0x7e36, 0x4e55, 0x5e74, 0x2e93, 0x3eb2, 0x0ed1, 0x1ef0
};
UINT16 CRC16CheckFromTbl(UINT8 *buf,UINT8 len)
{
UINT16 i;
UINT16 uncrcReg = 0, uncrcConst = 0xffff;
for(i = 0;i < len;i ++)
{
uncrcReg = (uncrcReg << 8) ^ szCRC16Tbl[(((uncrcConst ^ uncrcReg) >> 8)
^ *buf++) & 0xFF];
uncrcConst <<= 8;
}
return uncrcReg;
}
如果系統要求實時性比較強,在CRC16 循環冗余校驗當中,推薦使用查表法,以空間換時間。
8. 宏函數取代函數
首先不推薦所有函數改為宏函數,以免出現不必要的錯誤。但是一些基本功能的函數很有必要使用宏
函數來代替。
UINT8 Max(UINT8 A,UINT8 B)
{
return (A>B?A:B)
}
可以改為
#define MAX(A,B) {(A)>(B)?(A):(B)}
說明:函數和宏函數的區別就在於,宏函數占用了大量的空間,而函數占用了時間。大家要知道的是,函
數調用是要使用系統的棧來保存數據的,如果編譯器裏有棧檢查選項,一般在函數的頭會嵌入一些匯編語
句對當前棧進行檢查;同時,cpu 也要在函數調用時保存和恢復當前的現場,進行壓棧和彈棧操作,所以,
函數調用需要一些cpu 時間。而宏函數不存在這個問題。宏函數僅僅作為預先寫好的代碼嵌入到當前程序,
不會產生函數調用,所以僅僅是占用了空間,在頻繁調用同一個宏函數的時候,該現象尤其突出。
9. 適當地使用算法
假如有一道算術題,求1~100 的和。
作為程序員的我們會毫不猶豫地點擊鍵盤寫出以下的計算方法:
UINT16 Sum(void)
{
UINT8 i,s;
for(i=1;i<=100;i++)
{
s+=i;
}
return s;
}
很明顯大家都會想到這種方法,但是效率方面並不如意,我們需要動腦筋,就是采用數學算法解決問題,
使計算效率提升一個級別。
UINT16 Sum(void)
{
UINT16 s;
s=(100 *(100+1))>>1;
return s;
}
結果很明顯,同樣的結果不同的計算方法,運行效率會有大大不同,所以我們需要最大限度地通過數
學的方法提高程序的執行效率。
10. 用指針代替數組
在許多種情況下,可以用指針運算代替數組索引,這樣做常常能產生又快又短的代碼。與數組索引相
比,指針一般能使代碼速度更快,占用空間更少。使用多維數組時差異更明顯。下面的代碼作用是相同的,
但是效率不一樣。
UINT8 szArrayA[64];
UINT8 szArrayB[64];
UINT8 i;
UINT8 *p=szArray;
for(i=0;i<64;i++)szArrayB=szArrayA;
for(i=0;i<64;i++)szArrayB=*p++;
指針方法的優點是,szArrayA 的地址裝入指針p 後,在每次循環中只需對p 增量操作。在數組索引
方法中,每次循環中都必須進行基於i 值求數組下標的復雜運算。
11. 強制轉換
C 語言精髓第一精髓就是指針的使用,第二精髓就是強制轉換的使用,恰當地利用指針和強制轉換不但
可以提供程序效率,而且使程序更加之簡潔,由於強制轉換在C 語言編程中占有重要的地位,下面將已五
個比較典型的例子作為講解。
例子1:將帶符號字節整型轉換為無符號字節整型
UINT8 a=0;
INT8 b=-3;
a=(UINT8)b;
例子2:在大端模式下(8051 系列單片機是大端模式),將數組a[2]轉化為無符號16 位整型值。
方法1:采用位移方法。
UINT8 a[2]={0x12,0x34};
UINT16 b=0;
b=(a[0]<<8)|a[1];
結果:b=0x1234
方法2:強制類型轉換。
UINT8 a[2]={0x12,0x34};
UINT16 b=0;
b= *(UINT16 *)a; //強制轉換
結果:b=0x1234
例子3:保存結構體數據內容。
方法1:逐個保存。
typedef struct _ST
{
UINT8 a;
UINT8 b;
UINT8 c;
UINT8 d;
UINT8 e;
}ST;
ST s;
UINT8 a[5]={0};
s.a=1;
s.b=2;
s.c=3;
s.d=4;
s.e=5;
a[0]=s.a;
a[1]=s.b;
a[2]=s.c;
a[3]=s.d;
a[4]=s.e;
結果:數組a 存儲的內容是1、2、3、4、5。
方法2:強制類型轉換。
typedef struct _ST
{
UINT8 a;
UINT8 b;
UINT8 c;
UINT8 d;
UINT8 e;
}ST;
ST s;
UINT8 a[5]={0};
UINT8 *p=(UINT8 *)&s;//強制轉換
UINT8 i=0;
s.a=1;
s.b=2;
s.c=3;
s.d=4;
s.e=5;
for(i=0;i<sizeof(s);i++)
{
a=*p++;
}
結果:數組a 存儲的內容是1、2、3、4、5。
例子4:在大端模式下(8051 系列單片機是大端模式)將含有位域的結構體賦給無符號字節整型值
方法1:逐位賦值。
typedef struct __BYTE2BITS
{
UINT8 _bit7:1;
UINT8 _bit6:1;
UINT8 _bit5:1;
UINT8 _bit4:1;
UINT8 _bit3:1;
UINT8 _bit2:1;
UINT8 _bit1:1;
UINT8 _bit0:1;
}BYTE2BITS;
BYTE2BITS Byte2Bits;
Byte2Bits._bit7=0;
Byte2Bits._bit6=0;
Byte2Bits._bit5=1;
Byte2Bits._bit4=1;
Byte2Bits._bit3=1;
Byte2Bits._bit2=1;
Byte2Bits._bit1=0;
Byte2Bits._bit0=0;
UINT8 a=0;
a|= Byte2Bits._bit7<<7;
a|= Byte2Bits._bit6<<6;
a|= Byte2Bits._bit5<<5;
a|= Byte2Bits._bit4<<4;
a|= Byte2Bits._bit3<<3;
a|= Byte2Bits._bit2<<2;
a|= Byte2Bits._bit1<<1;
a|= Byte2Bits._bit0<<0;
結果:a=0x3C
方法2:強制轉換。
typedef struct __BYTE2BITS
{
UINT8 _bit7:1;
UINT8 _bit6:1;
UINT8 _bit5:1;
UINT8 _bit4:1;
UINT8 _bit3:1;
UINT8 _bit2:1;
UINT8 _bit1:1;
UINT8 _bit0:1;
}BYTE2BITS;
BYTE2BITS Byte2Bits;
Byte2Bits._bit7=0;
Byte2Bits._bit6=0;
Byte2Bits._bit5=1;
Byte2Bits._bit4=1;
Byte2Bits._bit3=1;
Byte2Bits._bit2=1;
Byte2Bits._bit1=0;
Byte2Bits._bit0=0;
UINT8 a=0;
a = *(UINT8 *)&Byte2Bits
結果:a=0x3C
例子5:在大端模式下(8051 系列單片機是大端模式)將無符號字節整型值賦給含有位域的結構體。
方法1:逐位賦值。
typedef struct __BYTE2BITS
{
UINT8 _bit7:1;
UINT8 _bit6:1;
UINT8 _bit5:1;
UINT8 _bit4:1;
UINT8 _bit3:1;
UINT8 _bit2:1;
UINT8 _bit1:1;
UINT8 _bit0:1;
}BYTE2BITS;
BYTE2BITS Byte2Bits;
UINT8 a=0x3C;
Byte2Bits._bit7=a&0x80;
Byte2Bits._bit6=a&0x40;
Byte2Bits._bit5=a&0x20;
Byte2Bits._bit4=a&0x10;
Byte2Bits._bit3=a&0x08;
Byte2Bits._bit2=a&0x04;
Byte2Bits._bit1=a&0x02;
Byte2Bits._bit0=a&0x01;
方法2:強制轉換。
typedef struct __BYTE2BITS
{
UINT8 _bit7:1;
UINT8 _bit6:1;
UINT8 _bit5:1;
UINT8 _bit4:1;
UINT8 _bit3:1;
UINT8 _bit2:1;
UINT8 _bit1:1;
UINT8 _bit0:1;
}BYTE2BITS;
BYTE2BITS Byte2Bits;
UINT8 a=0x3C;
Byte2Bits= *(BYTE2BITS *)&a;
12. 減少函數調用參數
使用全局變量比函數傳遞參數更加有效率。這樣做去除了函數調用參數入棧和函數完成後參數出棧所
需要的時間。然而決定使用全局變量會影響程序的模塊化和重入,故要慎重使用。
13. switch 語句中根據發生頻率來進行case 排序
switch 語句是一個普通的編程技術,編譯器會產生if-else-if 的嵌套代碼,並按照順序進行比較,
發現匹配時,就跳轉到滿足條件的語句執行。使用時需要註意。每一個由機器語言實現的測試和跳轉僅僅
是為了決定下一步要做什麽,就把寶貴的處理器時間耗盡。為了提高速度,沒法把具體的情況按照它們發
生的相對頻率排序。換句話說,把最可能發生的情況放在第一位,最不可能的情況放在最後。
14. 將大的switch 語句轉為嵌套switch 語句
當switch 語句中的case 標號很多時,為了減少比較的次數,明智的做法是把大switch 語句轉為嵌
套switch 語句。把發生頻率高的case 標號放在一個switch 語句中,並且是嵌套switch 語句的最外
層,發生相對頻率相對低的case 標號放在另一個switch 語句中。比如,下面的程序段把相對發生頻率
低的情況放在缺省的case 標號內。
UINT8 ucCurTask=1;
void Task1(void);
void Task2(void);
void Task3(void);
void Task4(void);
……………
void Task16(void);
switch(ucCurTask)
{
case 1: Task1();break;
case 2: Task2();break;
case 3: Task3();break;
case 4: Task4();break;
………………………
case 16: Task16();break;
default:break;
}
可以改為
UINT8 ucCurTask=1;
void Task1(void);
void Task2(void);
void Task3(void);
void Task4(void);
……………
void Task16(void);
switch(ucCurTask)
{
case 1: Task1();break;
case 2: Task2();break;
default:
switch(ucCurTask)
{
case 3: Task3();break;
case 4: Task4();break;
………………………
case 16: Task16();break;
default:break;
}
Break;
}
由於switch 語句等同於if-else-if 的嵌套代碼,如果大的if 語句同樣要轉換為嵌套的if 語句。
UINT8 ucCurTask=1;
void Task1(void);
void Task2(void);
void Task3(void);
void Task4(void);
……………
void Task16(void);
if (ucCurTask==1) Task1();
else if(ucCurTask==2) Task2();
else
{
if (ucCurTask==3) Task3();
else if(ucCurTask==4) Task4();
………………
else Task16();
}
15. 函數指針妙用
當switch 語句中的case 標號很多時,或者if 語句的比較次數過多時,為了提高程序執行速度,
可以運用函數指針來取代switch 或if 語句的用法,這些用法可以參考電子菜單實驗代碼、USB 實驗代碼
和網絡實驗代碼。
UINT8 ucCurTask=1;
void Task1(void);
void Task2(void);
void Task3(void);
void Task4(void);
……………
void Task16(void);
switch(ucCurTask)
{
case 1: Task1();break;
case 2: Task2();break;
case 3: Task3();break;
case 4: Task4();break;
………………………
case 16: Task16();break;
default:break;
}
可以改為
UINT8 ucCurTask=1;
void Task1(void);
void Task2(void);
void Task3(void);
void Task4(void);
……………
void Task16(void);
void (*szTaskTbl)[16])(void)={Task1,Task2,Task3,Task4,…,Task16};
調用方法1:(*szTaskTbl[ucCurTask])();
調用方法2: szTaskTbl[ucCurTask]();
16. 循環嵌套
循環在編程中經常用到的,往往會出現循環嵌套。現在就已for 循環為例。
UINT8 i,j;
for(i=0;i<255;i++)
{
for(j=0;j<25;j++)
{
………………
}
}
較大的循環嵌套較小的循環編譯器會浪費更加多的時間,推薦的做法就是較小的循環嵌套較大的循環。
UINT8 i,j;
for(j=0;j<25;j++)
{
for(i=0;i<255;i++)
{
………………
}
}
17. 內聯函數
在C++中,關鍵字inline 可以被加入到任何函數的聲明中。這個關鍵字請求編譯器用函數內部的代
碼替換所有對於指出的函數的調用。這樣做在兩個方面快於函數調用。這樣做在兩個方面快於函數調用:
第一,省去了調用指令需要的執行時間;第二,省去了傳遞變元和傳遞過程需要的時間。但是使用這種方
法在優化程序速度的同時,程序長度變大了,因此需要更多的ROM。使用這種優化在inline 函數頻繁調
用並且只包含幾行代碼的時候是最有效的。
如果編譯器允許在C 語言編程中能夠支持inline 關鍵字,註意不是C++語言編程,而且單片機的ROM
足夠大,就可以考慮加上inline 關鍵字。支持inline 關鍵字的編譯器如ADS1.2,RealView MDK 等。
18. 從編譯器著手
很多編譯器都具有偏向於代碼執行速度上的優化、代碼占用空閑太小的優化。例如Keil 開發環境編
譯時可以選擇偏向於代碼執行速度上的優化(Favor Speed)還是代碼占用空間太小的優化(Favor
Size)。還有其他基於GCC 的開發環境一般都會提供-O0、-O1、-O2、—O3、-Os 的優化選項,而使用
-O2 的優化代碼執行速度上最理想,使用-Os 優化代碼占用空間大小最小。
19. 嵌入匯編---**鐧
匯編語言是效率最高的計算機語言,在一般項目開發當中一般都采用C 語言來開發的,因為嵌入匯編
之後會影響平臺的移植性和可讀性,不同平臺的匯編指令是不兼容的。但是對於一些執著的程序員要求程
序獲得極致的運行的效率,他們都在C 語言中嵌入匯編,即“混合編程”。
註意:如果想嵌入匯編,一定要對匯編有深刻的了解。不到萬不得已的情況,不要使用嵌入匯編
由於單片機的性能同電腦的性能是天淵之別的,無論從空間資源上、內存資源、工作頻率,都是無法
與之比較的。PC 機編程基本上不用考慮空間的占用、內存的占用的問題,最終目的就是實現功能就可以了。
對於單片機來說就截然不同了,一般的單片機的Flash 和Ram 的資源是以KB 來衡量的,可想而知,單片
機的資源是少得可憐,為此我們必須想法設法榨盡其所有資源,將它的性能發揮到最佳,程序設計時必須
遵循以下幾點進行優化:
1. 使用盡量小的數據類型
能夠使用字符型(char)定義的變量,就不要使用整型(int)變量來定義;能夠使用整型變量定義的變
量就不要用長整型(long int),能不使用浮點型(float)
量後不要超過變量的作用範圍,如果超過變量的範圍賦值,C 編譯器並不報錯,但程序運行結果卻錯了,
而且這樣的錯誤很難發現。
2. 使用自加、自減指令
通常使用自加、自減指令和復合賦值表達式(如a-=1 及a+=1 等)都能夠生成高質量的
程序代碼,編譯器通常都能夠生成inc 和dec 之類的指令,而使用a=a+1 或a=a-1 之類
的指令,有很多C 編譯器都會生成二到三個字節的指令。
3. 減少運算的強度
可以使用運算量小但功能相同的表達式替換原來復雜的的表達式。
(1) 求余運算
N= N %8 可以改為N = N &7
說明:位操作只需一個指令周期即可完成,而大部分的C
完成,代碼長、執行速度慢。通常,只要求是求2n 方的余數,均可使用位操作的方法來代替。
(2) 平方運算
N=Pow(3,2) 可以改為N=3*3
說明:在有內置硬件乘法器的單片機中(如51 系列),乘法運算比求平方運算快得多, 因為浮點數
的求平方是通過調用子程序來實現的,乘法運算的子程序比平方運算的子程序代碼短,執行速度快。
(3) 用位移代替乘法除法
N=M*8 可以改為N=M<<3
N=M/8 可以改為N=M>>3
說明:通常如果需要乘以或除以2n,都可以用移位的方法代替。如果乘以2n,都可以生成左移
的代碼,而乘以其它的整數或除以任何數,均調用乘除法子程序。用移位的方法得到代碼比調用乘除法子
程序生成的代碼效率高。實際上,只要是乘以或除以一個整數,均可以用移位的方法得到結果。如N=M*9
可以改為N=(M<<3)+M;
(4) 自加自減的區別
例如我們平時使用的延時函數都是通過采用自加的方式來實現。
void DelayNms(UINT16 t)
{
UINT16 i,j;
for(i=0;i<t;i++)
for(j=0;i<1000;j++)
}
可以改為
void DelayNms(UINT16 t)
{
UINT16 i,j;
for(i=t;i>=0;i--)
for(j=1000;i>=0;j--)
}
說明:兩個函數的延時效果相似,但幾乎所有的C 編譯對後一種函數生成的代碼均比前一種代碼少1~3
個字節,因為幾乎所有的MCU 均有為0 轉移的指令,采用後一種方式能夠生成這類指令。
4. while 與do...while 的區別
void DelayNus(UINT16 t)
{
while(t--)
{
NOP();
}
}
可以改為
void DelayNus(UINT16 t)
{
do
{
NOP();
}while(--t)
}
說明:使用do…while 循環編譯後生成的代碼的長度短於while 循環。
5. register 關鍵字
void UARTPrintfString(INT8 *str)
{
while(*str && str)
{
UARTSendByte(*str++)
}
}
可以改為
void UARTPrintfString(INT8 *str)
{
register INT8 *pstr=str;
while(*pstr && pstr)
{
UARTSendByte(*pstr++)
}
}
說明:在聲明局部變量的時候可以使用register 關鍵字。這就使得編譯器把變量放入一個多用途的寄存
器中,而不是在堆棧中,合理使用這種方法可以提高執行速度。函數調用越是頻繁,越是可能提高代碼的
速度,註意register 關鍵字只是建議編譯器而已。
6. volatile 關鍵字
volatile 總是與優化有關,編譯器有一種技術叫做數據流分析,分析程序中的變量在哪裏賦值、在
哪裏使用、在哪裏失效,分析結果可以用於常量合並,常量傳播等優化,進一步可以死代碼消除。一般來
說,volatile 關鍵字只用在以下三種情況:
a) 中斷服務函數中修改的供其它程序檢測的變量需要加volatile(參考本書高級實驗程序)
b) 多任務環境下各任務間共享的標誌應該加volatile
c) 存儲器映射的硬件寄存器通常也要加volatile 說明,因為每次對它的讀寫都可能由不同意義
總之,volatile 關鍵字是一種類型修飾符,用它聲明的類型變量表示可以被某些編譯器未知的因素
更改,比如:操作系統、硬件或者其它線程等。遇到這個關鍵字聲明的變量,編譯器對訪問該變量的代碼
就不再進行優化,從而可以提供對特殊地址的穩定訪問。
7. 以空間換時間
在數據校驗實戰當中,CRC16 循環冗余校驗其實還有一種方法是查表法,通過查表可以更加快獲得
校驗值,效率更高,當校驗數據量大的時候,使用查表法優勢更加明顯,不過唯一的缺點是占用大量的空
間。
//查表法:
code UINT16 szCRC16Tbl[256] = {
0x0000, 0x1021, 0x2042, 0x3063, 0x4084, 0x50a5, 0x60c6, 0x70e7,
0x8108, 0x9129, 0xa14a, 0xb16b, 0xc18c, 0xd1ad, 0xe1ce, 0xf1ef,
0x1231, 0x0210, 0x3273, 0x2252, 0x52b5, 0x4294, 0x72f7, 0x62d6,
0x9339, 0x8318, 0xb37b, 0xa35a, 0xd3bd, 0xc39c, 0xf3ff, 0xe3de,
0x2462, 0x3443, 0x0420, 0x1401, 0x64e6, 0x74c7, 0x44a4, 0x5485,
0xa56a, 0xb54b, 0x8528, 0x9509, 0xe5ee, 0xf5cf, 0xc5ac, 0xd58d,
0x3653, 0x2672, 0x1611, 0x0630, 0x76d7, 0x66f6, 0x5695, 0x46b4,
0xb75b, 0xa77a, 0x9719, 0x8738, 0xf7df, 0xe7fe, 0xd79d, 0xc7bc,
0x48c4, 0x58e5, 0x6886, 0x78a7, 0x0840, 0x1861, 0x2802, 0x3823,
0xc9cc, 0xd9ed, 0xe98e, 0xf9af, 0x8948, 0x9969, 0xa90a, 0xb92b,
0x5af5, 0x4ad4, 0x7ab7, 0x6a96, 0x1a71, 0x0a50, 0x3a33, 0x2a12,
0xdbfd, 0xcbdc, 0xfbbf, 0xeb9e, 0x9b79, 0x8b58, 0xbb3b, 0xab1a,
0x6ca6, 0x7c87, 0x4ce4, 0x5cc5, 0x2c22, 0x3c03, 0x0c60, 0x1c41,
0xedae, 0xfd8f, 0xcdec, 0xddcd, 0xad2a, 0xbd0b, 0x8d68, 0x9d49,
0x7e97, 0x6eb6, 0x5ed5, 0x4ef4, 0x3e13, 0x2e32, 0x1e51, 0x0e70,
0xff9f, 0xefbe, 0xdfdd, 0xcffc, 0xbf1b, 0xaf3a, 0x9f59, 0x8f78,
0x9188, 0x81a9, 0xb1ca, 0xa1eb, 0xd10c, 0xc12d, 0xf14e, 0xe16f,
0x1080, 0x00a1, 0x30c2, 0x20e3, 0x5004, 0x4025, 0x7046, 0x6067,
0x83b9, 0x9398, 0xa3fb, 0xb3da, 0xc33d, 0xd31c, 0xe37f, 0xf35e,
0x02b1, 0x1290, 0x22f3, 0x32d2, 0x4235, 0x5214, 0x6277, 0x7256,
0xb5ea, 0xa5cb, 0x95a8, 0x8589, 0xf56e, 0xe54f, 0xd52c, 0xc50d,
0x34e2, 0x24c3, 0x14a0, 0x0481, 0x7466, 0x6447, 0x5424, 0x4405,
0xa7db, 0xb7fa, 0x8799, 0x97b8, 0xe75f, 0xf77e, 0xc71d, 0xd73c,
0x26d3, 0x36f2, 0x0691, 0x16b0, 0x6657, 0x7676, 0x4615, 0x5634,
0xd94c, 0xc96d, 0xf90e, 0xe92f, 0x99c8, 0x89e9, 0xb98a, 0xa9ab,
0x5844, 0x4865, 0x7806, 0x6827, 0x18c0, 0x08e1, 0x3882, 0x28a3,
0xcb7d, 0xdb5c, 0xeb3f, 0xfb1e, 0x8bf9, 0x9bd8, 0xabbb, 0xbb9a,
0x4a75, 0x5a54, 0x6a37, 0x7a16, 0x0af1, 0x1ad0, 0x2ab3, 0x3a92,
0xfd2e, 0xed0f, 0xdd6c, 0xcd4d, 0xbdaa, 0xad8b, 0x9de8, 0x8dc9,
0x7c26, 0x6c07, 0x5c64, 0x4c45, 0x3ca2, 0x2c83, 0x1ce0, 0x0cc1,
0xef1f, 0xff3e, 0xcf5d, 0xdf7c, 0xaf9b, 0xbfba, 0x8fd9, 0x9ff8,
0x6e17, 0x7e36, 0x4e55, 0x5e74, 0x2e93, 0x3eb2, 0x0ed1, 0x1ef0
};
UINT16 CRC16CheckFromTbl(UINT8 *buf,UINT8 len)
{
UINT16 i;
UINT16 uncrcReg = 0, uncrcConst = 0xffff;
for(i = 0;i < len;i ++)
{
uncrcReg = (uncrcReg << 8) ^ szCRC16Tbl[(((uncrcConst ^ uncrcReg) >> 8)
^ *buf++) & 0xFF];
uncrcConst <<= 8;
}
return uncrcReg;
}
如果系統要求實時性比較強,在CRC16 循環冗余校驗當中,推薦使用查表法,以空間換時間。
8. 宏函數取代函數
首先不推薦所有函數改為宏函數,以免出現不必要的錯誤。但是一些基本功能的函數很有必要使用宏
函數來代替。
UINT8 Max(UINT8 A,UINT8 B)
{
return (A>B?A:B)
}
可以改為
#define MAX(A,B) {(A)>(B)?(A):(B)}
說明:函數和宏函數的區別就在於,宏函數占用了大量的空間,而函數占用了時間。大家要知道的是,函
數調用是要使用系統的棧來保存數據的,如果編譯器裏有棧檢查選項,一般在函數的頭會嵌入一些匯編語
句對當前棧進行檢查;同時,cpu 也要在函數調用時保存和恢復當前的現場,進行壓棧和彈棧操作,所以,
函數調用需要一些cpu 時間。而宏函數不存在這個問題。宏函數僅僅作為預先寫好的代碼嵌入到當前程序,
不會產生函數調用,所以僅僅是占用了空間,在頻繁調用同一個宏函數的時候,該現象尤其突出。
9. 適當地使用算法
假如有一道算術題,求1~100 的和。
作為程序員的我們會毫不猶豫地點擊鍵盤寫出以下的計算方法:
UINT16 Sum(void)
{
UINT8 i,s;
for(i=1;i<=100;i++)
{
s+=i;
}
return s;
}
很明顯大家都會想到這種方法,但是效率方面並不如意,我們需要動腦筋,就是采用數學算法解決問題,
使計算效率提升一個級別。
UINT16 Sum(void)
{
UINT16 s;
s=(100 *(100+1))>>1;
return s;
}
結果很明顯,同樣的結果不同的計算方法,運行效率會有大大不同,所以我們需要最大限度地通過數
學的方法提高程序的執行效率。
10. 用指針代替數組
在許多種情況下,可以用指針運算代替數組索引,這樣做常常能產生又快又短的代碼。與數組索引相
比,指針一般能使代碼速度更快,占用空間更少。使用多維數組時差異更明顯。下面的代碼作用是相同的,
但是效率不一樣。
UINT8 szArrayA[64];
UINT8 szArrayB[64];
UINT8 i;
UINT8 *p=szArray;
for(i=0;i<64;i++)szArrayB=szArrayA;
for(i=0;i<64;i++)szArrayB=*p++;
指針方法的優點是,szArrayA 的地址裝入指針p 後,在每次循環中只需對p 增量操作。在數組索引
方法中,每次循環中都必須進行基於i 值求數組下標的復雜運算。
11. 強制轉換
C 語言精髓第一精髓就是指針的使用,第二精髓就是強制轉換的使用,恰當地利用指針和強制轉換不但
可以提供程序效率,而且使程序更加之簡潔,由於強制轉換在C 語言編程中占有重要的地位,下面將已五
個比較典型的例子作為講解。
例子1:將帶符號字節整型轉換為無符號字節整型
UINT8 a=0;
INT8 b=-3;
a=(UINT8)b;
例子2:在大端模式下(8051 系列單片機是大端模式),將數組a[2]轉化為無符號16 位整型值。
方法1:采用位移方法。
UINT8 a[2]={0x12,0x34};
UINT16 b=0;
b=(a[0]<<8)|a[1];
結果:b=0x1234
方法2:強制類型轉換。
UINT8 a[2]={0x12,0x34};
UINT16 b=0;
b= *(UINT16 *)a; //強制轉換
結果:b=0x1234
例子3:保存結構體數據內容。
方法1:逐個保存。
typedef struct _ST
{
UINT8 a;
UINT8 b;
UINT8 c;
UINT8 d;
UINT8 e;
}ST;
ST s;
UINT8 a[5]={0};
s.a=1;
s.b=2;
s.c=3;
s.d=4;
s.e=5;
a[0]=s.a;
a[1]=s.b;
a[2]=s.c;
a[3]=s.d;
a[4]=s.e;
結果:數組a 存儲的內容是1、2、3、4、5。
方法2:強制類型轉換。
typedef struct _ST
{
UINT8 a;
UINT8 b;
UINT8 c;
UINT8 d;
UINT8 e;
}ST;
ST s;
UINT8 a[5]={0};
UINT8 *p=(UINT8 *)&s;//強制轉換
UINT8 i=0;
s.a=1;
s.b=2;
s.c=3;
s.d=4;
s.e=5;
for(i=0;i<sizeof(s);i++)
{
a=*p++;
}
結果:數組a 存儲的內容是1、2、3、4、5。
例子4:在大端模式下(8051 系列單片機是大端模式)將含有位域的結構體賦給無符號字節整型值
方法1:逐位賦值。
typedef struct __BYTE2BITS
{
UINT8 _bit7:1;
UINT8 _bit6:1;
UINT8 _bit5:1;
UINT8 _bit4:1;
UINT8 _bit3:1;
UINT8 _bit2:1;
UINT8 _bit1:1;
UINT8 _bit0:1;
}BYTE2BITS;
BYTE2BITS Byte2Bits;
Byte2Bits._bit7=0;
Byte2Bits._bit6=0;
Byte2Bits._bit5=1;
Byte2Bits._bit4=1;
Byte2Bits._bit3=1;
Byte2Bits._bit2=1;
Byte2Bits._bit1=0;
Byte2Bits._bit0=0;
UINT8 a=0;
a|= Byte2Bits._bit7<<7;
a|= Byte2Bits._bit6<<6;
a|= Byte2Bits._bit5<<5;
a|= Byte2Bits._bit4<<4;
a|= Byte2Bits._bit3<<3;
a|= Byte2Bits._bit2<<2;
a|= Byte2Bits._bit1<<1;
a|= Byte2Bits._bit0<<0;
結果:a=0x3C
方法2:強制轉換。
typedef struct __BYTE2BITS
{
UINT8 _bit7:1;
UINT8 _bit6:1;
UINT8 _bit5:1;
UINT8 _bit4:1;
UINT8 _bit3:1;
UINT8 _bit2:1;
UINT8 _bit1:1;
UINT8 _bit0:1;
}BYTE2BITS;
BYTE2BITS Byte2Bits;
Byte2Bits._bit7=0;
Byte2Bits._bit6=0;
Byte2Bits._bit5=1;
Byte2Bits._bit4=1;
Byte2Bits._bit3=1;
Byte2Bits._bit2=1;
Byte2Bits._bit1=0;
Byte2Bits._bit0=0;
UINT8 a=0;
a = *(UINT8 *)&Byte2Bits
結果:a=0x3C
例子5:在大端模式下(8051 系列單片機是大端模式)將無符號字節整型值賦給含有位域的結構體。
方法1:逐位賦值。
typedef struct __BYTE2BITS
{
UINT8 _bit7:1;
UINT8 _bit6:1;
UINT8 _bit5:1;
UINT8 _bit4:1;
UINT8 _bit3:1;
UINT8 _bit2:1;
UINT8 _bit1:1;
UINT8 _bit0:1;
}BYTE2BITS;
BYTE2BITS Byte2Bits;
UINT8 a=0x3C;
Byte2Bits._bit7=a&0x80;
Byte2Bits._bit6=a&0x40;
Byte2Bits._bit5=a&0x20;
Byte2Bits._bit4=a&0x10;
Byte2Bits._bit3=a&0x08;
Byte2Bits._bit2=a&0x04;
Byte2Bits._bit1=a&0x02;
Byte2Bits._bit0=a&0x01;
方法2:強制轉換。
typedef struct __BYTE2BITS
{
UINT8 _bit7:1;
UINT8 _bit6:1;
UINT8 _bit5:1;
UINT8 _bit4:1;
UINT8 _bit3:1;
UINT8 _bit2:1;
UINT8 _bit1:1;
UINT8 _bit0:1;
}BYTE2BITS;
BYTE2BITS Byte2Bits;
UINT8 a=0x3C;
Byte2Bits= *(BYTE2BITS *)&a;
12. 減少函數調用參數
使用全局變量比函數傳遞參數更加有效率。這樣做去除了函數調用參數入棧和函數完成後參數出棧所
需要的時間。然而決定使用全局變量會影響程序的模塊化和重入,故要慎重使用。
13. switch 語句中根據發生頻率來進行case 排序
switch 語句是一個普通的編程技術,編譯器會產生if-else-if 的嵌套代碼,並按照順序進行比較,
發現匹配時,就跳轉到滿足條件的語句執行。使用時需要註意。每一個由機器語言實現的測試和跳轉僅僅
是為了決定下一步要做什麽,就把寶貴的處理器時間耗盡。為了提高速度,沒法把具體的情況按照它們發
生的相對頻率排序。換句話說,把最可能發生的情況放在第一位,最不可能的情況放在最後。
14. 將大的switch 語句轉為嵌套switch 語句
當switch 語句中的case 標號很多時,為了減少比較的次數,明智的做法是把大switch 語句轉為嵌
套switch 語句。把發生頻率高的case 標號放在一個switch 語句中,並且是嵌套switch 語句的最外
層,發生相對頻率相對低的case 標號放在另一個switch 語句中。比如,下面的程序段把相對發生頻率
低的情況放在缺省的case 標號內。
UINT8 ucCurTask=1;
void Task1(void);
void Task2(void);
void Task3(void);
void Task4(void);
……………
void Task16(void);
switch(ucCurTask)
{
case 1: Task1();break;
case 2: Task2();break;
case 3: Task3();break;
case 4: Task4();break;
………………………
case 16: Task16();break;
default:break;
}
可以改為
UINT8 ucCurTask=1;
void Task1(void);
void Task2(void);
void Task3(void);
void Task4(void);
……………
void Task16(void);
switch(ucCurTask)
{
case 1: Task1();break;
case 2: Task2();break;
default:
switch(ucCurTask)
{
case 3: Task3();break;
case 4: Task4();break;
………………………
case 16: Task16();break;
default:break;
}
Break;
}
由於switch 語句等同於if-else-if 的嵌套代碼,如果大的if 語句同樣要轉換為嵌套的if 語句。
UINT8 ucCurTask=1;
void Task1(void);
void Task2(void);
void Task3(void);
void Task4(void);
……………
void Task16(void);
if (ucCurTask==1) Task1();
else if(ucCurTask==2) Task2();
else
{
if (ucCurTask==3) Task3();
else if(ucCurTask==4) Task4();
………………
else Task16();
}
15. 函數指針妙用
當switch 語句中的case 標號很多時,或者if 語句的比較次數過多時,為了提高程序執行速度,
可以運用函數指針來取代switch 或if 語句的用法,這些用法可以參考電子菜單實驗代碼、USB 實驗代碼
和網絡實驗代碼。
UINT8 ucCurTask=1;
void Task1(void);
void Task2(void);
void Task3(void);
void Task4(void);
……………
void Task16(void);
switch(ucCurTask)
{
case 1: Task1();break;
case 2: Task2();break;
case 3: Task3();break;
case 4: Task4();break;
………………………
case 16: Task16();break;
default:break;
}
可以改為
UINT8 ucCurTask=1;
void Task1(void);
void Task2(void);
void Task3(void);
void Task4(void);
……………
void Task16(void);
void (*szTaskTbl)[16])(void)={Task1,Task2,Task3,Task4,…,Task16};
調用方法1:(*szTaskTbl[ucCurTask])();
調用方法2: szTaskTbl[ucCurTask]();
16. 循環嵌套
循環在編程中經常用到的,往往會出現循環嵌套。現在就已for 循環為例。
UINT8 i,j;
for(i=0;i<255;i++)
{
for(j=0;j<25;j++)
{
………………
}
}
較大的循環嵌套較小的循環編譯器會浪費更加多的時間,推薦的做法就是較小的循環嵌套較大的循環。
UINT8 i,j;
for(j=0;j<25;j++)
{
for(i=0;i<255;i++)
{
………………
}
}
17. 內聯函數
在C++中,關鍵字inline 可以被加入到任何函數的聲明中。這個關鍵字請求編譯器用函數內部的代
碼替換所有對於指出的函數的調用。這樣做在兩個方面快於函數調用。這樣做在兩個方面快於函數調用:
第一,省去了調用指令需要的執行時間;第二,省去了傳遞變元和傳遞過程需要的時間。但是使用這種方
法在優化程序速度的同時,程序長度變大了,因此需要更多的ROM。使用這種優化在inline 函數頻繁調
用並且只包含幾行代碼的時候是最有效的。
如果編譯器允許在C 語言編程中能夠支持inline 關鍵字,註意不是C++語言編程,而且單片機的ROM
足夠大,就可以考慮加上inline 關鍵字。支持inline 關鍵字的編譯器如ADS1.2,RealView MDK 等。
18. 從編譯器著手
很多編譯器都具有偏向於代碼執行速度上的優化、代碼占用空閑太小的優化。例如Keil 開發環境編
譯時可以選擇偏向於代碼執行速度上的優化(Favor Speed)還是代碼占用空間太小的優化(Favor
Size)。還有其他基於GCC 的開發環境一般都會提供-O0、-O1、-O2、—O3、-Os 的優化選項,而使用
-O2 的優化代碼執行速度上最理想,使用-Os 優化代碼占用空間大小最小。
19. 嵌入匯編---**鐧
匯編語言是效率最高的計算機語言,在一般項目開發當中一般都采用C 語言來開發的,因為嵌入匯編
之後會影響平臺的移植性和可讀性,不同平臺的匯編指令是不兼容的。但是對於一些執著的程序員要求程
序獲得極致的運行的效率,他們都在C 語言中嵌入匯編,即“混合編程”。
註意:如果想嵌入匯編,一定要對匯編有深刻的了解。不到萬不得已的情況,不要使用嵌入匯編
單片機程序優化經驗