DirectX 9高效渲染之利用Constant構建渲染資料
偶然一次檢視RenderMonkey例子中的Particle System.rfx 的 FireParticleSystem 中發現了一種提高DX9渲染效率的設計方法
這裡僅列出Vertex Shader參考:
1: float4x4 view_proj_matrix: register(c0);
2: float4x4 view_matrix: register(c4);
3: float time_0_X: register(c8);
4: float4 particleSystemPosition: register(c9);
5: float particleSystemShape: register(c10);
6: float particleSpread: register(c11);
7: float particleSpeed: register(c12);
8: float particleSystemHeight: register(c13);
9: float particleSize: register(c14);
10: // The model for the particle system consists of a hundred quads.
11: // These quads are simple (-1,-1) to (1,1) quads where each quad
12: // has a z ranging from 0 to 1. The z will be used to differenciate
13: // between different particles
14:
15: struct VS_OUTPUT {
16: float4 Pos: POSITION;
17: float2 texCoord: TEXCOORD0;
18: float color: TEXCOORD1;
19: };
20:
21: VS_OUTPUT main(float4 Pos: POSITION){
22:VS_OUTPUT Out;
23:
24: // Loop particles
25: float t = frac(Pos.z + particleSpeed * time_0_X);
26: // Determine the shape of the system
27: float s = pow(t, particleSystemShape);
28:
29: float3 pos;
30: // Spread particles in a semi-random fashion
31: pos.x = particleSpread * s * cos(62 * Pos.z);
32: pos.z = particleSpread * s * sin(163 * Pos.z);
33: // Particles goes up
34: pos.y = particleSystemHeight * t;
35:
36: // Billboard the quads.
37: // The view matrix gives us our right and up vectors.
38: pos += particleSize * (Pos.x * view_matrix[0] + Pos.y * view_matrix[1]);
39: // And put the system into place
40: pos += particleSystemPosition;
41:
42: Out.Pos = mul(view_proj_matrix, float4(pos, 1));
43: Out.texCoord = Pos.xy;
44: Out.color = 1 - t;
45:
46: return Out;
47: }
由於RenderMonkey本身只能使用Shader,而不能進行任何CPU方的演算法設計,因此要實現一個例子系統,只能使用另外的方法,這個例子就是使用純Shader來實現了一個粒子系統的效果。
注意第31,32行中出現的Pos.z,這是本例子最有參考價值的地方。如果把Particles這個模型引用的QuadArray.3ds用MAX開啟你就能發現,這其實是一個多層疊出來的片, 每個片的間隔就是Pos.z。讓我們來整理下渲染出例子的整個流程:
由QuadArray.3ds提供Vertex資料,也就是VertexBuffer.片狀的VB資料被送入管線,然後由上面的VertexShader程式,通過Pos.z將他們切開,控制這些片的頂點重塑例子的外觀。最後的PS只是簡單的將光柵化後的畫素點根據紋理取樣顯示出來。
2008年時,我曾經根據這個原理,設計了一套粒子系統,原理與這個差不多,只不過VB是由Constant設定進來,在DX10/11以上就叫ConstantBuffer。測試了下,傳統的粒子系統,在我的本子上大約只能跑60多幀,但是這個不鎖定VB的粒子系統卻可以跑300多幀。
最近決定使用這個技術優化下我的引擎中繪製線段及片的系統,以下是VertexShader的程式碼:
#define VERTEX_COUNT 80
float4 PositionBuffer[VERTEX_COUNT];
float2 UVBuffer[VERTEX_COUNT];
float4 ColorBuffer[VERTEX_COUNT];
float4x4 Transform;
void Main(
in float InIndex : TEXCOORD0,
out float4 OutPosition : POSITION,
out float2 OutTexCoord : TEXCOORD1,
out float4 OutColor : COLOR0
)
{
OutPosition = mul( PositionBuffer[ InIndex ] , Transform );
OutColor = ColorBuffer[ InIndex ];
OutTexCoord = UVBuffer[ InIndex ];
}
這裡有個細節需要注意。從最初分析看來,多邊形的構造都是由Constant輸入,並由VS程式碼構造,在VB中的資料好像只需要一個Index就夠了。但是實際測試下來發現,這樣是錯誤的,還是必須在頂點定義中新增繪製的基本元素,例如位置和紋理座標。
DX9因為不開源,我們並不瞭解下面3種繪製方式的效能差異:
1. Constant傳送
2. 鎖定VB傳送
3. DrawPrimitiveUP系列使用系統內建緩衝渲染
經過測試發現,DrawPrimitive在資料量小時,比鎖定VB快些,而Constant傳送方式沒有DrawPrimitiveUP快。
因此,使用Constant傳送多邊形資料進行構造的方法在量小且固定的情況下對於效能提升是很有幫助的,但大量的頂點及變化的資料還是必須使用傳統的方法。