30系的浮点疑问

phoenix300a

魔头

帖子: 1768
精华: 0
积分: 2347
激骚: 68 度
爱车
主机
相机
手机
注册时间: 2012-5-24

发短消息
加为好友
当前离线

1^# 大中小发表于 2020-9-4 19:45 显示全部帖子

posted by wap, platform: iPhone
u / redsunstar :
Ampere 30系列SM的主要設計目標之一是，與Turing SM相比，使FP32操作的吞吐量提高一倍。為了實現此目標，Ampere SM包括針對FP32和INT32操作的新數據路徑設計。每個分區中的一個數據路徑由16個FP32 CUDA內核組成，每個時鐘能夠執行16個FP32操作。另一個數據路徑包括16個FP32 CUDA內核和16個INT32內核。作為這種新設計的結果，每個Ampere SM分區每個時鐘能夠執行32個FP32操作，或者每個時鐘能夠執行16個FP32和16 INT32操作。所有四個SM分區組合在一起，每個時鐘可執行128 FP32操作，這是Turing SM FP32速率的兩倍，或者每個時鐘執行64 FP32和64 INT32操作。

將FP32的處理速度提高一倍，可以提高許多常見圖形以及計算操作和算法的性能。現代著色器工作負載通常混合使用FP32算術指令（例如FFMA），浮點加法（FADD）或浮點乘法（FMUL），並結合更簡單的指令（例如用於地址和獲取數據的整數加法，浮點比較或最小） / max用於處理結果等。根據指令的混合，在著色器和應用程序級別上的性能提升將有所不同。光線跟踪降噪著色器是很好的示例，可以通過使FP32吞吐量增加一倍而大大受益。

要使數學吞吐量增加一倍，就需要將支持它的數據路徑增加一倍，這就是為什麼Ampere SM還將SM的共享內存和L1緩存性能提高一倍的原因。（每個Ampere SM為128字節/時鐘，而在Turing中為64字節/時鐘）。 GeForce RTX 3080的總L1帶寬為219 GB /秒，而GeForce RTX 2080 Super則為116 GB /秒。

像以前的NVIDIA GPU一樣，Ampere由圖形處理群集（GPC），紋理處理群集（TPC），流式多處理器（SM），光柵運算符（ROPS）和內存控制器組成。

GPC是主要的高級硬件模塊，所有關鍵圖形處理單元都位於GPC內部。每個GPC都包含一個專用的Raster Engine，現在還包括兩個ROP分區（每個分區包含八個ROP單元），這是NVIDIA Ampere Architecture GA10x GPU的新功能。有關NVIDIA Ampere架構的更多詳細信息，請參見NVIDIA的Ampere架構白皮書，該白皮書將在未來幾天內發布。

TOP