打印

30系的浮点疑问

waller

天外飞仙

帖子: 12679
精华: 0
积分: 32369
激骚: 1134 度
爱车
主机
相机
手机
注册时间: 2007-8-14

TGFC 2014新年勋章☆☆☆☆ TGFC 2015新年勋章☆☆☆☆ TGFC 2016新年勋章☆☆☆☆ TGFC 2018新年勋章☆☆☆☆ TGFC 2020年度勋章☆☆☆☆

发短消息
加为好友
当前在线

1^# 大中小发表于 2020-9-3 07:03 只看该作者

posted by wap, platform: Android
3070 20t持平2080ti的13.4t，3080 30t 1.8倍于2080的10t。为什么浮点提升和性能提升比例相差这么多？

TOP

Nemo_theCaptain

元始天尊

帖子: 45163
精华: 16
积分: 62431
激骚: 6961 度
爱车
主机
相机
手机
注册时间: 2013-7-7

发短消息
加为好友
当前离线

2^# 大中小发表于 2020-9-3 07:03 只看该作者

单SM的ALU翻倍但是SM的其他参数没变

TOP

waller

天外飞仙

帖子: 12679
精华: 0
积分: 32369
激骚: 1134 度
爱车
主机
相机
手机
注册时间: 2007-8-14

TGFC 2014新年勋章☆☆☆☆ TGFC 2015新年勋章☆☆☆☆ TGFC 2016新年勋章☆☆☆☆ TGFC 2018新年勋章☆☆☆☆ TGFC 2020年度勋章☆☆☆☆

发短消息
加为好友
当前在线

3^# 大中小发表于 2020-9-3 07:37 只看该作者

posted by wap, platform: Android

引用:

原帖由 @Nemo_theCaptain 于 2020-9-3 07:03 发表
单SM的ALU翻倍但是SM的其他参数没变

那xsx的12t怎么理解，更接近20系的比例尺还是30系的？按20系算，那是2080s的性能，按30系算那只有3070的一半多点，换算到20系上连2070都够呛。

TOP

majian1

船鞋爱好者

银河飞将

凤凰

帖子: 39650
精华: 0
积分: 83196
激骚: 1583 度
爱车: 两条腿
主机: FC
相机: 手机能照相
手机
注册时间: 2003-10-23

TGFC 2014新年勋章☆☆☆☆ TGFC 2015新年勋章☆☆☆☆ TGFC 2018新年勋章☆☆☆☆ TGFC 2020年度勋章☆☆☆☆

发短消息
加为好友
当前在线

4^# 大中小发表于 2020-9-3 07:45 只看该作者

posted by edfc, platform: iPhone 8
XSX就是5700XT魔改，PS5就是5700魔改。

这么理解不就行了。

TOP

北德文斯克

魔王撒旦

帖子: 7677
精华: 0
积分: 2650
激骚: 291 度
爱车
主机
相机
手机
注册时间: 2014-9-5

TGFC 2015新年勋章☆☆☆☆ TGFC 2019新年勋章☆☆☆☆ TGFC 2020年度勋章☆☆☆☆

发短消息
加为好友
当前离线

5^# 大中小发表于 2020-9-3 08:11 只看该作者

所以我怀疑老黄夸大了宣传，用的是等效性能30t，实际跑起来可能就和超线程的效果一样。。。。。。。

TOP

iceliker

魔王撒旦

帖子: 5449
精华: 0
积分: 15938
激骚: 456 度
爱车
主机
相机
手机
注册时间: 2005-2-20

TGFC 2020年度勋章☆☆☆☆

发短消息
加为好友
当前在线

6^# 大中小发表于 2020-9-3 08:13 只看该作者

posted by wap, platform: Chrome

引用:

原帖由 @北德文斯克于 2020-9-3 08:11 发表
所以我怀疑老黄夸大了宣传，用的是等效性能30t，实际跑起来可能就和超线程的效果一样。。。。。。。

看了老外的2080原版和3080的评测，游戏帧数平均提高了80%, 主流游戏全部测了一遍，灰常灰常稳啊

TOP

北德文斯克

魔王撒旦

帖子: 7677
精华: 0
积分: 2650
激骚: 291 度
爱车
主机
相机
手机
注册时间: 2014-9-5

TGFC 2015新年勋章☆☆☆☆ TGFC 2019新年勋章☆☆☆☆ TGFC 2020年度勋章☆☆☆☆

发短消息
加为好友
当前离线

7^# 大中小发表于 2020-9-3 08:24 只看该作者

引用:

原帖由 iceliker 于 2020-9-3 08:13 发表
posted by wap, platform: Chrome
看了老外的2080原版和3080的评测，游戏帧数平均提高了80%, 主流游戏全部测了一遍，灰常灰常稳啊

目前评测的貌似都是4k下。。。感觉是把2系的显存瓶颈问题解决了

就rdna那个水样，我是不相信老黄因为对手而大发善心，而是ampere才是turing的完全版

TOP

grammyliu

Flora's Proust

元始天尊

Mimi's Guardian

帖子: 43021
精华: 1
积分: 24919
激骚: 1246 度
爱车: Public Transport
主机: PC Master Race
相机: Leica M Monochrom
手机: Galaxy S10
来自: Mukden
注册时间: 2001-2-8

PS区 PS4主机首发纪念奖★ PS区大收藏家奖☆☆☆ TGFC 2015新年勋章☆☆☆☆ TGFC 2018新年勋章☆☆☆☆ TGFC 2020年度勋章☆☆☆☆

发短消息
加为好友
当前在线

8^# 大中小发表于 2020-9-3 09:39 只看该作者

posted by wap, platform: Samsung
等卡出来再看

TOP

ydy135

天外飞仙

知识不是财富

帖子: 14435
精华: 0
积分: 13917
激骚: 1662 度
爱车
主机
相机
手机
注册时间: 2013-1-22

TGFC 2018新年勋章☆☆☆☆ TGFC 2020年度勋章☆☆☆☆

发短消息
加为好友
当前在线

9^# 大中小发表于 2020-9-3 09:58 只看该作者

3080显存才10G，怎么碾压12G 的2080ti的？

TOP

mjnaur

魔头

帖子: 1465
精华: 0
积分: 16102
激骚: 1120 度
爱车: 荣威550
主机: PC, PS3, 3DS, Wii, PS2, PSP, NDSL
相机: 穷逼买不起
手机: 诺基亚某功能机
注册时间: 2009-4-29

TGFC 2014新年勋章☆☆☆☆ TGFC 2015新年勋章☆☆☆☆ TGFC 2017新年勋章☆☆☆☆ TGFC 2018新年勋章☆☆☆☆ TGFC 2019新年勋章☆☆☆☆ 主机区 PS4 pro首发纪念★

发短消息
加为好友
当前离线

10^# 大中小发表于 2020-9-3 10:02 只看该作者

说明瓶颈不同，这种需要profile才能知道。这也说明一个问题，有时候SM/CU的算力可能不是最重要的

TOP

xmfhell

魔王撒旦

帖子: 5950
精华: 0
积分: 14005
激骚: 1104 度
爱车
主机
相机
手机
注册时间: 2007-4-7

TGFC 2015新年勋章☆☆☆☆

发短消息
加为好友
当前离线

11^# 大中小发表于 2020-9-4 08:07 只看该作者

posted by wap, platform: iPhone

引用:

原帖由 @ydy135 于 2020-9-3 09:58 发表
3080显存才10G，怎么碾压12G 的2080ti的？

2080ti显存12g？？？什么时候游戏性能靠显存来衡量了？

TOP

hjwwei

魔王撒旦

帖子: 5364
精华: 0
积分: 7960
激骚: 31 度
爱车
主机
相机
手机
来自: Canton
注册时间: 2005-4-9

发短消息
加为好友
当前离线

12^# 大中小发表于 2020-9-4 08:08 只看该作者

显存跟内存不一样吗？游戏的话不爆的话 16G跟32G没区别吧

TOP

xmfhell

魔王撒旦

帖子: 5950
精华: 0
积分: 14005
激骚: 1104 度
爱车
主机
相机
手机
注册时间: 2007-4-7

TGFC 2015新年勋章☆☆☆☆

发短消息
加为好友
当前离线

13^# 大中小发表于 2020-9-4 08:23 只看该作者

posted by wap, platform: iPhone

引用:

原帖由 @hjwwei 于 2020-9-4 08:08 发表
显存跟内存不一样吗？游戏的话不爆的话 16G跟32G没区别吧

爆了不是太多内存够大的话差距也不是非常大

TOP

phoenix300a

魔头

帖子: 1768
精华: 0
积分: 2347
激骚: 68 度
爱车
主机
相机
手机
注册时间: 2012-5-24

发短消息
加为好友
当前离线

14^# 大中小发表于 2020-9-4 19:45 只看该作者

posted by wap, platform: iPhone
u / redsunstar :
Ampere 30系列SM的主要設計目標之一是，與Turing SM相比，使FP32操作的吞吐量提高一倍。為了實現此目標，Ampere SM包括針對FP32和INT32操作的新數據路徑設計。每個分區中的一個數據路徑由16個FP32 CUDA內核組成，每個時鐘能夠執行16個FP32操作。另一個數據路徑包括16個FP32 CUDA內核和16個INT32內核。作為這種新設計的結果，每個Ampere SM分區每個時鐘能夠執行32個FP32操作，或者每個時鐘能夠執行16個FP32和16 INT32操作。所有四個SM分區組合在一起，每個時鐘可執行128 FP32操作，這是Turing SM FP32速率的兩倍，或者每個時鐘執行64 FP32和64 INT32操作。

將FP32的處理速度提高一倍，可以提高許多常見圖形以及計算操作和算法的性能。現代著色器工作負載通常混合使用FP32算術指令（例如FFMA），浮點加法（FADD）或浮點乘法（FMUL），並結合更簡單的指令（例如用於地址和獲取數據的整數加法，浮點比較或最小） / max用於處理結果等。根據指令的混合，在著色器和應用程序級別上的性能提升將有所不同。光線跟踪降噪著色器是很好的示例，可以通過使FP32吞吐量增加一倍而大大受益。

要使數學吞吐量增加一倍，就需要將支持它的數據路徑增加一倍，這就是為什麼Ampere SM還將SM的共享內存和L1緩存性能提高一倍的原因。（每個Ampere SM為128字節/時鐘，而在Turing中為64字節/時鐘）。 GeForce RTX 3080的總L1帶寬為219 GB /秒，而GeForce RTX 2080 Super則為116 GB /秒。

像以前的NVIDIA GPU一樣，Ampere由圖形處理群集（GPC），紋理處理群集（TPC），流式多處理器（SM），光柵運算符（ROPS）和內存控制器組成。

GPC是主要的高級硬件模塊，所有關鍵圖形處理單元都位於GPC內部。每個GPC都包含一個專用的Raster Engine，現在還包括兩個ROP分區（每個分區包含八個ROP單元），這是NVIDIA Ampere Architecture GA10x GPU的新功能。有關NVIDIA Ampere架構的更多詳細信息，請參見NVIDIA的Ampere架構白皮書，該白皮書將在未來幾天內發布。

TOP

yfl2

五道杠

帖子: 57013
精华: 0
积分: 27951
激骚: 10427 度
爱车
主机
相机
手机
注册时间: 2013-3-17

发短消息
加为好友
当前离线

15^# 大中小发表于 2020-9-4 19:53 只看该作者

倍增浮点单元，是不是意味着3系是挖矿神器

TOP