» 您尚未登录:请 登录 | 注册 | 标签 | 帮助 | 小黑屋 |


 17 12
发新话题
打印

30系的浮点疑问

posted by wap, platform: Android
3070 20t持平2080ti的13.4t,3080 30t 1.8倍于2080的10t。为什么浮点提升和性能提升比例相差这么多?


TOP

单SM的ALU翻倍 但是SM的其他参数没变



TOP

posted by wap, platform: Android
引用:
原帖由 @Nemo_theCaptain  于 2020-9-3 07:03 发表
单SM的ALU翻倍 但是SM的其他参数没变
那xsx的12t怎么理解,更接近20系的比例尺还是30系的?按20系算,那是2080s的性能,按30系算那只有3070的一半多点,换算到20系上连2070都够呛。


TOP

posted by edfc, platform: iPhone 8
XSX就是5700XT魔改,PS5就是5700魔改。

这么理解不就行了。

TOP

所以我怀疑老黄夸大了宣传,用的是等效性能30t,实际跑起来可能就和超线程的效果一样。。。。。。。

TOP

posted by wap, platform: Chrome
引用:
原帖由 @北德文斯克  于 2020-9-3 08:11 发表
所以我怀疑老黄夸大了宣传,用的是等效性能30t,实际跑起来可能就和超线程的效果一样。。。。。。。
看了老外的2080原版和3080的评测,游戏帧数平均提高了80%, 主流游戏全部测了一遍,灰常灰常稳啊

TOP

引用:
原帖由 iceliker 于 2020-9-3 08:13 发表
posted by wap, platform: Chrome
看了老外的2080原版和3080的评测,游戏帧数平均提高了80%, 主流游戏全部测了一遍,灰常灰常稳啊
目前评测的貌似都是4k下。。。感觉是把2系的显存瓶颈问题解决了

就rdna那个水样,我是不相信老黄因为对手而大发善心,而是ampere才是turing的完全版

TOP

posted by wap, platform: Samsung
等卡出来再看

TOP

3080显存才10G,怎么碾压12G 的2080ti的?

TOP

说明瓶颈不同,这种需要profile才能知道。这也说明一个问题,有时候SM/CU的算力可能不是最重要的

TOP

posted by wap, platform: iPhone
引用:
原帖由 @ydy135  于 2020-9-3 09:58 发表
3080显存才10G,怎么碾压12G 的2080ti的?
2080ti显存12g???什么时候游戏性能靠显存来衡量了?

TOP

显存跟内存不一样吗? 游戏的话不爆的话 16G跟32G没区别吧

TOP

posted by wap, platform: iPhone
引用:
原帖由 @hjwwei  于 2020-9-4 08:08 发表
显存跟内存不一样吗? 游戏的话不爆的话 16G跟32G没区别吧
爆了不是太多内存够大的话差距也不是非常大

TOP

posted by wap, platform: iPhone
u / redsunstar :
Ampere 30系列SM的主要設計目標之一是,與Turing SM相比,使FP32操作的吞吐量提高一倍。為了實現此目標,Ampere SM包括針對FP32和INT32操作的新數據路徑設計。每個分區中的一個數據路徑由16個FP32 CUDA內核組成,每個時鐘能夠執行16個FP32操作。另一個數據路徑包括16個FP32 CUDA內核和16個INT32內核。作為這種新設計的結果,每個Ampere SM分區每個時鐘能夠執行32個FP32操作,或者每個時鐘能夠執行16個FP32和16 INT32操作。所有四個SM分區組合在一起,每個時鐘可執行128 FP32操作,這是Turing SM FP32速率的兩倍,或者每個時鐘執行64 FP32和64 INT32操作。

將FP32的處理速度提高一倍,可以提高許多常見圖形以及計算操作和算法的性能。現代著色器工作負載通常混合使用FP32算術指令(例如FFMA),浮點加法(FADD)或浮點乘法(FMUL),並結合更簡單的指令(例如用於地址和獲取數據的整數加法,浮點比較或最小) / max用於處理結果等。根據指令的混合,在著色器和應用程序級別上的性能提升將有所不同。光線跟踪降噪著色器是很好的示例,可以通過使FP32吞吐量增加一倍而大大受益。

要使數學吞吐量增加一倍,就需要將支持它的數據路徑增加一倍,這就是為什麼Ampere SM還將SM的共享內存和L1緩存性能提高一倍的原因。 (每個Ampere SM為128字節/時鐘,而在Turing中為64字節/時鐘)。 GeForce RTX 3080的總L1帶寬為219 GB /秒,而GeForce RTX 2080 Super則為116 GB /秒。

像以前的NVIDIA GPU一樣,Ampere由圖形處理群集(GPC),紋理處理群集(TPC),流式多處理器(SM),光柵運算符(ROPS)和內存控制器組成。

GPC是主要的高級硬件模塊,所有關鍵圖形處理單元都位於GPC內部。每個GPC都包含一個專用的Raster Engine,現在還包括兩個ROP分區(每個分區包含八個ROP單元),這是NVIDIA Ampere Architecture GA10x GPU的新功能。有關NVIDIA Ampere架構的更多詳細信息,請參見NVIDIA的Ampere架構白皮書,該白皮書將在未來幾天內發布。

TOP

倍增浮点单元,是不是意味着3系是挖矿神器

TOP

 17 12
发新话题
     
官方公众号及微博