»
首页
|
手机数码
|
汽车资讯
|
游戏硬件
|
评测专题
|
手机壁纸
|
海淘值得买
|
度假
|
求职招聘
|
广告联系
» 您尚未登录:请
登录
|
注册
|
标签
|
帮助
|
小黑屋
|
TGFC Lifestyle
»
游戏业界综合讨论区
» 30系的浮点疑问
发新话题
发布投票
发布商品
发布悬赏
发布活动
发布辩论
发布视频
公司招聘信息
打印
30系的浮点疑问
phoenix300a
魔头
帖子
1768
精华
0
积分
2347
激骚
68 度
爱车
主机
相机
手机
注册时间
2012-5-24
发短消息
加为好友
当前离线
1
#
大
中
小
发表于 2020-9-4 19:45
显示全部帖子
posted by wap, platform: iPhone
u / redsunstar :
Ampere 30系列SM的主要設計目標之一是,與Turing SM相比,使FP32操作的吞吐量提高一倍。為了實現此目標,Ampere SM包括針對FP32和INT32操作的新數據路徑設計。每個分區中的一個數據路徑由16個FP32 CUDA內核組成,每個時鐘能夠執行16個FP32操作。另一個數據路徑包括16個FP32 CUDA內核和16個INT32內核。作為這種新設計的結果,每個Ampere SM分區每個時鐘能夠執行32個FP32操作,或者每個時鐘能夠執行16個FP32和16 INT32操作。所有四個SM分區組合在一起,每個時鐘可執行128 FP32操作,這是Turing SM FP32速率的兩倍,或者每個時鐘執行64 FP32和64 INT32操作。
將FP32的處理速度提高一倍,可以提高許多常見圖形以及計算操作和算法的性能。現代著色器工作負載通常混合使用FP32算術指令(例如FFMA),浮點加法(FADD)或浮點乘法(FMUL),並結合更簡單的指令(例如用於地址和獲取數據的整數加法,浮點比較或最小) / max用於處理結果等。根據指令的混合,在著色器和應用程序級別上的性能提升將有所不同。光線跟踪降噪著色器是很好的示例,可以通過使FP32吞吐量增加一倍而大大受益。
要使數學吞吐量增加一倍,就需要將支持它的數據路徑增加一倍,這就是為什麼Ampere SM還將SM的共享內存和L1緩存性能提高一倍的原因。 (每個Ampere SM為128字節/時鐘,而在Turing中為64字節/時鐘)。 GeForce RTX 3080的總L1帶寬為219 GB /秒,而GeForce RTX 2080 Super則為116 GB /秒。
像以前的NVIDIA GPU一樣,Ampere由圖形處理群集(GPC),紋理處理群集(TPC),流式多處理器(SM),光柵運算符(ROPS)和內存控制器組成。
GPC是主要的高級硬件模塊,所有關鍵圖形處理單元都位於GPC內部。每個GPC都包含一個專用的Raster Engine,現在還包括兩個ROP分區(每個分區包含八個ROP單元),這是NVIDIA Ampere Architecture GA10x GPU的新功能。有關NVIDIA Ampere架構的更多詳細信息,請參見NVIDIA的Ampere架構白皮書,該白皮書將在未來幾天內發布。
UID
215964
帖子
1768
精华
0
积分
2347
交易积分
0
阅读权限
30
在线时间
5660 小时
注册时间
2012-5-24
最后登录
2025-1-5
查看详细资料
TOP
控制面板首页
密码修改
积分交易
积分记录
公众用户组
基本概况
版块排行
主题排行
发帖排行
积分排行
交易排行
在线时间
管理团队
管理统计