» 您尚未登录:请 登录 | 注册 | 标签 | 帮助 | 小黑屋 |


发新话题
打印

30系的浮点疑问

posted by wap, platform: iPhone
u / redsunstar :
Ampere 30系列SM的主要設計目標之一是,與Turing SM相比,使FP32操作的吞吐量提高一倍。為了實現此目標,Ampere SM包括針對FP32和INT32操作的新數據路徑設計。每個分區中的一個數據路徑由16個FP32 CUDA內核組成,每個時鐘能夠執行16個FP32操作。另一個數據路徑包括16個FP32 CUDA內核和16個INT32內核。作為這種新設計的結果,每個Ampere SM分區每個時鐘能夠執行32個FP32操作,或者每個時鐘能夠執行16個FP32和16 INT32操作。所有四個SM分區組合在一起,每個時鐘可執行128 FP32操作,這是Turing SM FP32速率的兩倍,或者每個時鐘執行64 FP32和64 INT32操作。

將FP32的處理速度提高一倍,可以提高許多常見圖形以及計算操作和算法的性能。現代著色器工作負載通常混合使用FP32算術指令(例如FFMA),浮點加法(FADD)或浮點乘法(FMUL),並結合更簡單的指令(例如用於地址和獲取數據的整數加法,浮點比較或最小) / max用於處理結果等。根據指令的混合,在著色器和應用程序級別上的性能提升將有所不同。光線跟踪降噪著色器是很好的示例,可以通過使FP32吞吐量增加一倍而大大受益。

要使數學吞吐量增加一倍,就需要將支持它的數據路徑增加一倍,這就是為什麼Ampere SM還將SM的共享內存和L1緩存性能提高一倍的原因。 (每個Ampere SM為128字節/時鐘,而在Turing中為64字節/時鐘)。 GeForce RTX 3080的總L1帶寬為219 GB /秒,而GeForce RTX 2080 Super則為116 GB /秒。

像以前的NVIDIA GPU一樣,Ampere由圖形處理群集(GPC),紋理處理群集(TPC),流式多處理器(SM),光柵運算符(ROPS)和內存控制器組成。

GPC是主要的高級硬件模塊,所有關鍵圖形處理單元都位於GPC內部。每個GPC都包含一個專用的Raster Engine,現在還包括兩個ROP分區(每個分區包含八個ROP單元),這是NVIDIA Ampere Architecture GA10x GPU的新功能。有關NVIDIA Ampere架構的更多詳細信息,請參見NVIDIA的Ampere架構白皮書,該白皮書將在未來幾天內發布。


TOP

发新话题
     
官方公众号及微博