» 您尚未登录:请 登录 | 注册 | 标签 | 帮助 | 小黑屋 |


发新话题
打印

[业评] 论下一代主机加入固定逻辑深度学习单元能带来的优势

nv在发布RTX显卡的时候也提出了一个新的技术,DLSS,可以把1080P60帧的画面几乎无代价的提升到4K60帧。
不同于之前游戏机采用的机械的插帧算法,DLSS是通过比对原生渲染的1080p和4K的同一画面学习得出的,对每一个游戏会有自己的理解,会非常接近原生4K画面。
当时我就觉得这对游戏机很有意义,但是由于RTX显卡只知道整体功耗,里面到底有多少开支是来自深度学习单元还是未知的,而且是RTX是12nm,跟游戏机大概率采用的7nm还是有较大区别。

但是现在由于苹果a12的发布,有了一个大概可以估算的功耗。
虽然苹果没有直接给出a12深度学习单元的功耗,但苹果a11是使用gpu进行深度学习计算,所以深度学习满载功耗基本和图形满载一致,那大概要5w。根据功耗变为1/10可以估算出,a12里那个具备5tops的深度学习单元功耗大约为0.5w。也就是说在7nm下,使用专用深度计算单元,每1w可以获得10tops的性能。
那么如果440tops可以把1080p60帧插到4k60帧,220tops应该就足够满足1080p30帧插4k30帧的需求了(实际上是绰绰有余的,我认为150tops应该就足够插30帧了),换句话说22w的功耗代价。

如果当时存在两台主机,一台主机内的GPU模块占120w的功耗,一台占98w的功耗且附带了22w的深度学习单元。
那么前者图形性能单纯来看是后者的1.2倍出头,但是后者在输出4k的时候基本不需要增加开支,由于靠正经图形技术实现4倍像素输出是几何运算量基本不变但像素运算量翻4倍,大概需要一个略小于4倍的运算性能开支。
就算3倍吧,98w的gpu的3倍性能已经是120w的2倍以上了,这完全是碾压级的。
即使只用于1080p,还可以开启DLAA的免费抗锯齿,同级别的抗锯齿需要多消耗20%以上的性能,这也足够弥补98w和120w在原生性能上的差距了。
所以,加入深度学习单元对游戏机的意义是巨大的。

此外,这完全是可以做到的,虽然苹果和nv应该不会卖深度学习单元给索尼和微软,但也有不少直接对外授权ip的方案,比如华为自身没有深度学习技术,就是买了寒武纪的ip核。这些方案可以整合到当时定制的SOC里面,然后还有2年时间在软件上在开发工具上加把力,我认为完全有希望。而且考虑只有一家具备另一家的劣势,真的有足够的动力这么做。


TOP

PS5的芯片都快流片了,你等PS6吧



TOP

posted by wap, platform: iPhone
确实很超值,最适合游戏机了~
对了,amd最近在ai上有什么消息没有?


TOP

引用:
原帖由 倍舒爽 于 2018-9-13 22:59 发表
posted by wap, platform: iPhone
确实很超值,最适合游戏机了~
对了,amd最近在ai上有什么消息没有?
vega20要加入深度学习计算功能,靠通用管线实现,会有4倍于单精度性能的深度计算性能,大概250w下60tops,相比固定逻辑的实现能耗比非常惨。

TOP

水果那玩意又不能支持主流框架,自己玩玩的东西,能耗比没啥意义

以现在能耗比最高且支持框架最多的TPU2.0和turing构架来说,每瓦电力深度学习性能大约4-5Tops,换7nm撑死也就6-8Tops,游戏机赛150Tops就为了干AA和图像超采样啊?

绝壁没有赛更多的CU单元更划算,GPU和手机用深度学习是因为有大量游戏之外的用途能用到,游戏机除了玩游戏看碟子还能干吗?游戏机玩深度学习一点意义都没有

TOP

发新话题
     
官方公众号及微博