» 您尚未登录:请 登录 | 注册 | 标签 | 帮助 | 小黑屋 |


发新话题
打印

[新闻] NGP 又再吹牛 ?!!【转载】 PS3用RSX和 NGP 的 SGX543MP4+单精度浮点性能比较

引用:
原帖由 JimmyC 于 2011-2-4 23:25 发表


你先看一下Course-grained Z和Fine-grained Z的归类
Course-grained Z: Course Z, Hierarchical Z, Hi-Z, or ZCULL
Fine-grained Z: Fine Z, Early Z, Early Z Checking, Early Z Out
然後究竟G70有没有Fine- ...
原来你又发现了新大陆,呵呵,可惜的是你只知其一不知其二。
这个early-z rejection指的是一种行为——也就是把‘本来就通不过z-test的fragment在进入fragment shader之前预先cull掉,避免不必要的运算’。至于不同级别的功能命名那是次要的,我在37楼也说明了NV的这方面不如同期的ATI产品。NV的这个从级别上更类似于ATI命名的Hierarchical Z——也就是相对粗粒度的cull——4x4 pixel quad,也就是实质相当于4x4个fragment的Z都failed z test时这4x4个fragments才会被cull掉。因此效率不如同期的ATI产品,从37楼的GL_Reme测试也能看到这种差距。
但是,虽然效率不足够高,但是行为的性质依然是early-z rejection,因为它的行为同样是在fragment shader前cull掉必然会fail掉Z-test的fragments。因此,至于它是叫early-z还是叫Hierarchical-Z还是叫Hidden Surface Removal都只是一个命名的问题。事实上在NV的G70 Doc里写的就是‘Early-Z Optimization’。原文如下:
引用:
Early-Z Optimization
Early-z optimization (sometimes called “z-cull”) improves performance by avoiding the rendering of occluded surfaces. If the occluded surfaces have expensive shaders applied to them, z-cull can save a large amount of computation time. To take advantage of z-cull, follow these guidelines:
Don’t create triangles with holes in them (that is, avoid alpha test or texkill)
Don’t modify depth (that is, allow the GPU to use the interpolated depth value)
Violating these rules can invalidate the data the GPU uses for early optimization, and can disable z-cull until the depth buffer is cleared again
至于test func反转失效也并不是判断Early-Z与否的必要条件,充其量是判断‘G80级别Early-Z的必要条件’罢了。
至于你说GL_Reme的测试有做假于出错的嫌疑,该怀疑过于naive,不予评论。


TOP

引用:
原帖由 TG春上春 于 2011-2-4 23:53 发表
乃们还真能吵, 还吵得像模像样的. :D

Z-cull和early-z本来就不是一个咚咚. Z-cull是在raster里面的, 所谓coarse是因为它是逐tile做深度测试, 不是逐sample. 做逐sample深度测试的是ZROP, 所谓的fine-grained. ZRO ...
专家来了, 大好了
我搜到这个讨论
http://www.opengpu.org/forum.php ... p;extra=&page=1
那人说的, 到底是否事实?
(官方说有, 实际上没有)



TOP

引用:
原帖由 hourousha 于 2011-2-4 23:56 发表

原来你又发现了新大陆,呵呵,可惜的是你只知其一不知其二。
这个early-z rejection指的是一种行为——也就是把‘本来就通不过z-test的fragment在进入fragment shader之前预先cull掉,避免不必要的运算’。至于不 ...
以你的标准
现在连Tegra1也支援"真"HSR, "非阉割"HSR了...
(Tegra支援early-z rejection)
哎...

这样的话我也无话可说了...


TOP

引用:
原帖由 JimmyC 于 2011-2-5 00:15 发表


以你的标准
现在连Tegra1支援也真HSR, 非阉割HSR了...
(Tegra支援early-z rejection)
哎...

这样的话我也无话可说了...
Tegra细节是啥我不清楚别和我扯这个。
RacingPHT在本论坛也有账号你直接问他关于这问题不就OK了?
他在那贴里明明也说了‘因为首先z-cull也可以算是early-z’。换句话说,G70的Z-Cull本身也是Early-Z,只不过后来G80出来了做了重新的命名来区分罢了,R-PHT的测试也是旨在验证G70是否有NV在G80定义的Early-Z功能。
再说一次,你所说的NV在G70 Doc里写的Early-Z,就是在G80后定义的Z-Cull,不同于G80里重新定义的Early-Z,但是两者功能是非常类似的,使用上的区别主要在于G80里的Early-Z效率更高,限制更少。
但G70的Z-Cull效率也可以,有测试为证。
如果你还不能明白,那就算了~

还在扯真假HSR?你能不那么幽默么?定义性能的高低很容易,但你怎么定义真还是假?嗯,ATI HD5870速度比HD4870速度快,所以HD5870是真GPU,HD4870是假GPU?你是这意思吗?
说起来你直接去问问RacingPHT,他开发PS3游戏的,你问问他RSX的HSR功能到底是不是笑话,是不是基本没法用,是不是1/10fps不就得了?

[ 本帖最后由 hourousha 于 2011-2-5 00:40 编辑 ]

TOP

引用:
原帖由 hourousha 于 2011-2-5 00:25 发表

Tegra细节是啥我不清楚别和我扯这个。
RacingPHT在本论坛也有账号你直接问他关于这问题不就OK了?
他在那贴里明明也说了‘因为首先z-cull也可以算是early-z’。换句话说,G70的Z-Cull本身也是Early-Z,只不过后来 ...
刚又找到SCEE的官方开发文档PDF 2009年版
在适当环境下, 依足步骤, 没有违反建议下, RSX的Early Z-cull可以足足省回10%GPU!
哈哈, 好吧, 我认了
RSX的HSR是"真"HSR, "非阉割"HSR
虽然效率只有G8X的一半
TBDR的六分一(依x2.5计算)

RSX 2 z/stencil
SGX543MP4+ 64 z/stencil
两者的实际HSR效率差了32倍
就算RSX的HSR仅能省回10%也好,
总之RSX的是"真"HSR, "非阉割"HSR就是

话说回来, "PowerVR有TBDR有什麽了不起, RSX也有HSR"这话题呢是谁开的?
现在有答案了, 呵呵

RacingPHT我不熟, 你可以问问看

看你对CLX2在TBDR的同时对alpha test硬件加速一面怀疑
其实beyond3d的讨论区就有Imgtec的员工长驻
说CLX2有alpha test硬件加速, 同时脉性能比Neon250高一倍的就是他
你可以问他究竟十二年前是怎样做到的
(虽然随便下一个DC模拟器已经可看到zwrite/alpha test zwrite的选项)

[ 本帖最后由 JimmyC 于 2011-2-5 07:06 编辑 ]

TOP

引用:
原帖由 JimmyC 于 2011-2-5 00:55 发表
刚又找到SCEE的官方开发文档PDF 2009年版
在适当环境下, 依足步骤, 没有违反建议下, RSX的Early Z-cull可以足足省回10%GPU!
哈哈, 好吧, 我认了
RSX的HSR是"真"HSR, "非阉割"HSR
虽然效率只有G8X的一半
TBDR的六分一(依x2.5计算)
请贴10%的原文与前提条件,要是原场景的depth complexity就只有1或者渲染全是transparent obj,那还一点都省不了呢。少逗咳嗽了你

还乘2.5,还TBDR的六分之一喷了,你要不就是算术太棒,要不就是脑子太好,真是让人仰视。难怪得出200Mhz的SGXMP4+的4G填充率不是等效值这种神论。
我再义务教你一下数学,咱们假设(因为你没给出10%的前提)省10%前提是depth complexity也是2.5,且完全没有诸如alpha blending之类不能HSR的东西的干扰——这样才能充分体现RSX的HSR笑话水平么。
那么RSX的实际平均overdraw是2.5*(1-10%)=2.25,而TBDR的实际overdraw咱们按理想情况算是1,这时TBDR的HSR效率是RSX的2.25倍。2.5是这么用的你清楚了?
引用:
RSX 2 z/stencil
SGX543MP4+ 64 z/stencil
两者的实际HSR效率差了32倍
就算RSX的HSR仅能省回10%也好,
总之RSX的是"真"HSR, "非阉割"HSR就是
32倍原来是这么算,啧啧,看来你贴了半天都不清楚你说的coarse level Z and Stencil culling到底是啥意思。另外~你能解释一下2 z/stencil是什么么?是指z/stencil rop单元么呵呵……
引用:
话说回来, "PowerVR有TBDR有什麽了不起, RSX也有HSR"这话题呢是谁开的?
现在有答案了, 呵呵
是谁开的呢?你说一下呗,帖子都在这摆着。
引用:
RacingPHT我不熟, 你可以问问看
我搜了一下论坛短消息,这问题我在08年就和他聊过,结论当然和你相反。你还真以为能有正常人附和你啊?
引用:
看你对CLX2在TBDR的同时对alpha test硬件加速一面怀疑
给出我怀疑PVR CLX2的连接,别急了眼就信口胡说啊……
引用:
其实beyond3d的讨论区就有Imgtec的员工长驻
说CLX2有alpha test硬件加速, 同时脉性能比Neon250高一倍的就是他
你可以问他究竟十二年前是怎样做到的
(虽然随便下一个DC模拟器已经可看到zwrite/alpha test zwrite的选项)
SimonF说的话我信,不过我想问问,PVR CLX2有alpha test+HSR,和我贴出的SGX没有alphatest+HSR矛盾在哪啊?难道CLX2有了alpha test就能否定前面贴的Insider FAQ吗?我前面说了我贴Insider FAQ的目的就是说明alphatest/shader discard并不是判断HSR真假的依据。注意你的理解能力~

TOP

引用:
原帖由 hourousha 于 2011-2-5 11:31 发表

请贴10%的原文与前提条件,要是原场景的depth complexity就只有1或者渲染全是transparent obj,那还一点都省不了呢。少逗咳嗽了你

还乘2.5,还TBDR的六分之一喷了,你要不就是算术太棒,要不就是脑子太好,真是 ...
10%
没有, 原文那一頁, 就这六行, 你可以不信, 呵呵
Many games are fragment shaderbound
•Rendering Z only ‘primes’ the RSX™ Z-cull unit
–Very fast, 16 pixels/clock rather than 8
–Render entire scene,
–Or ‘large’ meshes only
–Easily save 10% GPU

怎样不直接计算SGX和RSX受惠於TBDR/z-cull能省掉多少GPU?
RSX方面SCEE已直接给了省10%GPU这答案
SGX将400MP/s当1000MP/s用对吧?
省多少?怎样计算?我不知道, 呵
引用:
SimonF说的话我信....给出我怀疑PVR CLX2的连接,别急了眼就信口胡说啊……
引用:
一样是MBX, Sega的Aurora(2005产品)就有专门优化透明/不完整三角形
当年PowerVR2代, Dreamcast也是alpha test with HW front, 效能比同时脉的电脑版快一倍
引用:
优化透明三角形么?还是看我给你的那个Insider FAQ,里面提到了,我再给你引用一下
....
是让开发者事先把blend的几何体给分割成不透明/半透明两大集合,尽量减小blend处理量,这就是你说的硬件优化透明/镂空三角形吗?喷了…
引用:
本来透明物体渲染就和HSR无缘。
引用:
看你对CLX2在TBDR的同时对alpha test硬件加速一面怀疑
拿十二年前的CLX2/六年前的MBX替USSE2说项不行
拿六年前的USSE喷USSE2就可以了, 呵呵
引用:
是谁开的呢?
你不会看?
引用:
这问题我在08年就和他聊过
就贴出来呀

TOP

引用:
原帖由 JimmyC 于 2011-2-5 15:08 发表
10%
没有, 原文那一頁, 就这六行, 你可以不信, 呵呵
Many games are fragment shaderbound
•Rendering Z only ‘primes’ the RSX™ Z-cull unit
–Very fast, 16 pixels/clock rather than 8
–Render entire scene,
–Or ‘large’ meshes only
–Easily save 10% GPU
从你这几句话能得到的情况就是,人家说的是在实际shader-bound的游戏应用中合理使用z-cull可以轻易节约10%的GPU。到了你这里就是z-cull的效率只有10%,你还真有才,58楼中间写的那段看来你又忽略了,竖子不可教也。
引用:
怎样不直接计算SGX和RSX受惠於TBDR/z-cull能省掉多少GPU?
RSX方面SCEE已直接给了省10%GPU这答案
SGX将400MP/s当1000MP/s用对吧?
省多少?怎样计算?我不知道, 呵
很简单的事实,理论测试是理论测试,实际应用是实际应用,那个2.5倍只是一个情况假设,不代表实际应用就可以节约60%的运算量——原因前面说了,一来不是所有render过程都可以HSR,诸如alpha blending肯定不行,大部分full screen post processing也不行,同时HSR无法降低VertexShader的工作负荷。这对unified shader结构的SGX系是有切实运算量影响的。所以实际情况是,绝对理想的HSR在整个渲染过程中对GPU消耗的降低也是低于不透明物体的depth complexity的。因此如Imgtec的假定不透明物体深度复杂性为2.5,但实际游戏使用中,哪怕不透明物体深度复杂性真是2.5,但最终也不可能达对比完全没有HSR硬件,到节省60%GPU资源或者说提速2.5倍的效果。
这是最后一次解释这个问题,还不明白的话你趁早闭嘴。
要想对比理论测试,那么37楼已经给出数据,你不去看我有何办法,就测试结果很明显,稍微算一下就能知道。
对于overdraw factor3的情况,等于z-cull起作用时渲染了(1+3)/(1+106%)= 194.1%的像素,也就是说cull效率是(400%-194.1%)/3 = 68.6%
对于overdraw factor8的情况,等于z-cull起作用时渲染了(1+8)/(1+265%)= 246.5%的像素,也就是说cull效率是(900%-246.5%)/8 = 81.6%
这个数字肯定不如TBDR接近100%的水平,也无法相比ATI同期产品X1800的水平(beyond3d同样有测试,计算后基本是92%+的效率),如果多边形极碎极小,那么效率还会下降。但你说这个数字很糟糕,是笑话,是假的形同于无。那也是纯粹扯淡。
咱可以假设个简单情况,在一个实际应用中,可HSR的solid obj在完全不使用HSR的情况中占用了60%的总渲染时间,这部分solid obj的深度复杂性是3。TBDR按100% HSR的效率计算,RSX按50%的效率计算。完全不考虑VertexShader的消耗。
那么对于TBDR HW,则开启HSR后时间变成了60%/3+40% = 60%
对于50% cull效率的HW,开启HSR后渲染时间变为原先的60%*(2/3)+0.4 = 80%
你不会算,我给你算了,在看懂前别再废话,OK?
引用:
拿十二年前的CLX2/六年前的MBX替USSE2说项不行
拿六年前的USSE喷USSE2就可以了, 呵呵
我只是说你拿老早的CLX2等给尚未具体出台的SGX543MP4+搅稀泥过于搞笑。你觉得行就行,嘿嘿。
请给出我拿USSE喷USSE2的证据。
‘alpha blend物体无法HSR’这是一个既成事实,在可预见的未来也将以事实继续存在,这和alpha blend的原理有关,和USSE或USSE2无关。这有什么问题?这叫拿USSE喷USSE2?稍微补点基础支持吧我说。
我引用Insider FAQ的那段你认为是针对USSE的透明物体优化tip,还真的就同样适用于任何GPU,你还别不信。
还有麻烦您别缩,我怀疑CLX2的证据在哪?
引用:
你不会看?
很简单,这话我没说也没传,所以谁说的让你不满意你找谁去,别跟我这递牙
引用:
就贴出来呀
没有贴私人聊天记录的习惯。也许这行为你擅长。那就请你去问他呗。

TOP

引用:
还有麻烦您别缩,我怀疑CLX2的证据在哪?
67楼我不就引了
引用:
一样是MBX, Sega的Aurora(2005产品)就有专门优化透明/不完整三角形
当年PowerVR2代, Dreamcast也是alpha test with HW front, 效能比同时脉的电脑版快一倍
我举了Sega DC用的CLX2(1998年)和Sega街机用的MBX(2005年)做例子,
说TBDR也可以有alpha test硬件加速, 效能增加一倍
这是我第一次提到alpha test硬件加速, 硬件优化透明三角形

你就给我看PowerVR Insider
之间我并没有再提过第二次alpha test硬件加速, 硬件优化透明三角形
可见你这段正在回我上面那段
引用:
优化透明三角形么?还是看我给你的那个Insider FAQ,里面提到了,我再给你引用一下
....
是让开发者事先把blend的几何体给分割成不透明/半透明两大集合,尽量减小blend处理量,这就是你说的硬件优化透明/镂空三角形吗?喷了…
这段根本就和CLX2/MBX的alpha test硬件加速, 硬件优化透明三角形无关
我根本不知你你这边是在喷什麽?
喷硬件优化透明/镂空三角形?
喷CLX2/MBX有alpha test硬件加速?
以为我误会PowerVR Indisder这段就是CLX2/MBX的alpha test硬件加速, 硬件优化透明三角形?
根本我从来都没举过PowerVR Insider的内容做例子
引用:
本来透明物体渲染就和HSR无缘。
这也是你说的, 你就是说CLX2/MBX能在使用TBDR(HSR)的同时对alpha test(透明物体渲染)硬件加速无缘吧?

然後我说既然你对CLX2的alpha test硬件加速这麽怀疑, 不如到beyond3d问Imgtec的员工好了
引用:
看你对CLX2在TBDR的同时对alpha test硬件加速一面怀疑
其实beyond3d的讨论区就有Imgtec的员工长驻
说CLX2有alpha test硬件加速, 同时脉性能比Neon250高一倍的就是他
你可以问他究竟十二年前是怎样做到的
然後你又喷我了
引用:
SimonF说的话我信....给出我怀疑PVR CLX2的连接,别急了眼就信口胡说啊……
[ 本帖最后由 JimmyC 于 2011-2-5 17:23 编辑 ]

TOP

我说你就不能去看看我引用的那段Insider FAQ的内容么?不识英文是咋的?就算不识我后面不也紧接着概括了一下文章的意思么——就是把整个sprite分成‘透明’和非透明的两部分多边形集合(还有事先把完全透明的空白部分直接剔除),非透明的部分直接使用HSR渲染,透明的部分由于是从原来的整个sprite分离出来的,所以blending的面积比原先小,对性能冲击不太大。
也就是说那段说的是alpha blending优化的方法是由开发者事先做工作减少alpha blending的像素,别无他法。那段说的是alpha test么我说……faint!果然是回帖不看帖的主。

TOP

问题1.
你信SimonF吗?

问题2.
CLX2/MBX到底有没有alpha test硬件加速?

问题3.
HSR渲染下能否对alpha test硬件加速?

问题4.
Imgtec是否曾经掌握HSR渲染下对alpha test硬件加速的设计?

问题5.
为什麽你要用PowerVR Insider那段软件解决方法
引用:
优化透明三角形么?还是看我给你的那个Insider FAQ,里面提到了,我再给你引用一下
引用:

    For sprites with transparent areas, create polygons that are optimal for the visible area and exclude fragments that are completely transparent. If an application was to render a simple triangular shaped tree texture on a quad polygon, there would be large, empty areas that would need to be blended. A better approach in this situation would be to use a triangle that tightly fits the shape of the texture. By doing so, most of the empty area that would have to be blended when using a quad to render the tree sprite can be removed, which means there are fewer fragments to blend. Geometry used to tightly fit sprites in a given application should be kept as simple as possible while eliminating as many unwanted fragments as possible. Finding the balance between geometric complexity and the empty space that will be removed by using more complex geometry is a balance that is very application and platform specific. A tool such as the one described here: http://www.humus.name/index.php?page=Cool&ID=8 can be used to generate the geometry required.

    For further optimisation, when rendering sprites with partially transparent areas, break each object down into an area that can be rendered as an opaque sprite and a second area of partially transparency that can be blended. By taking this approach, the number of fragments that need to be blended for each sprite can be significantly reduced, which allows the HSR process to provide a "super" fill rate. In order to maintain sprite ordering, use of the depth buffer will be required - each sprite will need a unique offset to avoid artefacts. Generating the areas for this technique can be done with a similar tool to that mentioned above, but this time looking for opaque pixels instead of completely transparent. As stated previously, the opaque objects should be drawn first followed by the blended objects as this will allow the blended objects to gain the most benefit possible from the hardware's HSR process.

是让开发者事先把blend的几何体给分割成不透明/半透明两大集合,尽量减小blend处理量,这就是你说的硬件优化透明/镂空三角形吗?喷了……
来喷我以下这段
引用:
一样是MBX, Sega的Aurora(2005产品)就有专门优化透明/不完整三角形
当年PowerVR2代, Dreamcast也是alpha test with HW front, 效能比同时脉的电脑版快一倍
你的动机不就是说只能靠软件"优化", 没有"alpha test硬件加速, 硬件优化透明三角形"这回事麽...

[ 本帖最后由 JimmyC 于 2011-2-5 17:42 编辑 ]

TOP

引用:
原帖由 JimmyC 于 2011-2-5 17:40 发表
问题1.
你信SimonF吗?
引用:
问题2.
CLX2/MBX到底有没有alpha test硬体加速?
MBX不清楚(是只是某个特别型号还是啥的没工夫去了解),CLX2可以。
引用:
问题3.
HSR渲染下能否对alpha test硬体加速?
有些硬件可以,有些硬件不成。
引用:
问题4.
Imgtec是否曾经掌握HSR渲染下对alpha test硬体加速的设计?
嗯,曾经掌握。
引用:
问题5.
为什麽你要用PowerVR Insider那段软件解决方法
因为那段说的是透明物体优化,也就是alpha blending物体优化。我为何不能引用,你前面不是也提到透明物体渲染了么?所以我说,alpha blending想用HSR优化还是省省吧。
顺便我提一句常识,在渲染流程中,alpha test物体是要是硬归类,也是归到在不透明物体范畴里的,或者单独一类,不应该归到透明物体范畴中。因为它们不像透明物体在渲染前需要按深度从后至前排序,互相之间也没有顺序依赖。明白?

TOP

因为数据和英文太多,没怎么细看,不过貌似张老师问SCE什么时候说NGP能和PS3媲美这种话,我来作证,SCE官方的确没有说过两者性能近似。而是NGP的技术还要更“进化”,能够提供“最高品质”“最真实的体验”等等,岂止是近似呢?

以下摘自SCE官方新闻稿(节选):
……(前略)
NGP的目标是,向世界呈现出前所未有的互动的娱乐体验。NGP是结合了PSP和PS3的已经实现了的最先进的娱乐体验技术,并且加以进化最终向世界提供最高品质最真实的体验,和最具有革新性的联动游玩方式。
……
另外,“可完美移植PS3游戏”不知能否算是SCE官方的态度。

TOP

较真你就输了
随他去吧,反正不是第一次了
对了,当初ps3是说能模拟地球
那这次:D :D
匿了

TOP

posted by wap, platform: Firefox

为还没有的东西也能吵起来,只能说时间太多了

TOP

发新话题
     
官方公众号及微博