1. 程式人生 > 實用技巧 >每日一摘:流水線

每日一摘:流水線

一、什麼是流水線?

流水線設計就是將組合邏輯系統地分割,並在各個部分(分級)之間插入暫存器,並暫存中間資料的方法。目的是將一個大操作分解成若干的小操作,每一步小操作的時間較小,所以能提高頻率,各小操作能並行執行,所以能提高資料吞吐率(提高處理速度)。

二、什麼時候用流水線設計?

使用流水線一般是時序比較緊張,對電路工作頻率較高的時候。典型情況如下:
1)功能模組之間的流水線,用乒乓 buffer 來互動資料。代價是增加了 memory 的數量,但是和獲得的巨大效能提升相
比,可以忽略不計。
2) I/O 瓶頸,比如某個運算需要輸入 8 個數據,而 memroy 只能同時提供 2 個數據,如果通過適當劃分運算步驟,使用
流水線反而會減少面積。
3)片內 sram 的讀操作,因為 sram 的讀操作本身就是兩極流水線,除非下一步操作依賴讀結果,否則使用流水線是自
然而然的事情。
4)組合邏輯太長,比如(a+b)*c,那麼在加法和乘法之間插入暫存器是比較穩妥的做法。

三、流水線的優缺點

1)優點: 流水線縮短了在一個時鐘週期內給的那個訊號必須通過的通路長度,增加了資料吞吐量,從而可以提高時鐘
頻率,但也導致了資料的延時。舉例如下:
例如:一個 2 級組合邏輯,假定每級延遲相同為 Tpd,

1.無流水線的總延遲就是 2Tpd,可以在一個時鐘週期完成,但是時鐘週期受限制在 2Tpd;

2.流水線:

每一級加入暫存器(延遲為 Tco)後,單級的延遲為 Tpd+Tco,每級消耗一個時鐘週期,流水線需要 2 個時鐘週期來獲得第一個計算結果,稱 為首次延遲,它要 2*( Tpd+Tco),但是執行重複操作時,只要一個時鐘週期來獲得最後的計算結果,稱為吞吐延遲( Tpd+Tco)。可見只要 Tco 小於 Tpd,流水線就可以提高速度。 特別需要說明的是,流水線並不減小單次操作的時間,減小的是整個資料的操作時間,請大家認真體會。

2) 缺點: 功耗增加,面積增加,硬體複雜度增加,特別對於複雜邏輯如 cpu 的流水線而言,流水越深,發生需要 hold 流水線或 reset 流水線的情況時,時間損失越大。 所以使用流水線並非有利無害,大家需權衡考慮。

四、一個 8bit 流水線加法器的小例子

非流水線:

module add8( a, b, c);

input [7:0] a;

input [7:0] b;

output [8:0] c;

assign c[8:0] = {1'd0, a} + {1'd0, b};

endmodule

採用兩級流水線:第一級低 4bit,第二級高 4bit,所以第一個輸出需要 2 個時鐘週期有效,後面的資料都是 1 個週期之後有效。

module adder8_2(
  clk,
  cin,
  cina,
  cinb,
  
  sum,
  cout);
  
  input          clk;
  input          cin;
  input  [7:0]   cina;
  input  [7:0]   cinb;
  
  output [7:0]   sum;
  output         cout;
  
  reg            cout;
  reg            cout1; //插入的暫存器
  reg   [3 :0 ]  sum1 ; //插入的暫存器
  reg   [7 :0 ]  sum;
  reg   [3:0]    cina_reg;
  reg   [3:0]    cinb_reg;//插入的暫存器
  
always @(posedge clk) //第一級流水
  begin
    {cout1 , sum1} <= cina[3:0] + cinb [3:0] + cin ;
  end
  
  always @(posedge clk)
  begin
    cina_reg <= cina[7:4];
    cinb_reg <= cinb[7:4];
  end
  
always @(posedge clk) //第二級流水
  begin
    {cout ,sum[7:0]} <= {<!-- -->{1'b0,cina_reg[3:0]} + {1'b0,cinb_reg[3:0]} + cout1 ,sum1[3:0]} ;
  end
endmodule

這裡講到的流水線,主要是一種硬體設計的演算法,如第一條中表述的流水線設計就是將組合邏輯系統地分割,並在各個部分(分級)之間插入暫存器,並暫存中間資料的方法。針對處理器中的流水線結構。比如,比如 5—6 個不同功能的電路單元組成一條指令處理流水線,然後將一條指令分成 5—6 步後再由這些電路單元分別執行,這樣就能實現在一個 CPU 時鐘週期完成一條指令,因此提高 CPU 的運算速度。 一般的 CPU 中,每條整數流水線都分為四級流水, 即指令預取、 譯碼、 執行、 寫回結果,openrisc採用的是 5 級整數流水線。當然它們的核心思想都是利用並行執行提高效率。

總結一下,流水線就是插入暫存器,以面積換取速度。