打印

[新闻] NGP 又再吹牛 ?!!【转载】 PS3用RSX和 NGP 的 SGX543MP4+单精度浮点性能比较

JimmyC

小黑屋

帖子: 128
精华: 0
积分: 7488
激骚: 21 度
爱车
主机
相机
手机
注册时间: 2011-1-28

发短消息
加为好友
当前离线

1^# 大中小发表于 2011-2-1 09:14 显示全部帖子

SGX543的数值不对

每核SGX543应是USSE2x4
SGX543MP4+=USSE2x16
2FP32 x 16 x 550mhz = 17.6GFLOPS

而SGX543MP4+用的是TBDR架构
实际表现再乘三
(ARM的Mali GPU规格表直接将1.6G写成3.2G)

搜索更多相关主题的帖子: NGP

TOP

JimmyC

小黑屋

帖子: 128
精华: 0
积分: 7488
激骚: 21 度
爱车
主机
相机
手机
注册时间: 2011-1-28

发短消息
加为好友
当前离线

2^# 大中小发表于 2011-2-1 19:26 显示全部帖子

引用:

原帖由 u571 于 2011-2-1 11:50 发表

TBDR跟shader性能两码事，要这么算的话RSX的HSR岂不是能提升2.5倍效能了

ARM使用TBR架构的Mali官方一样将实际1600M Pix/s写成3200M Pix/s
你看ARM怎样解释
http://blogs.arm.com/multimedia/ ... -pixel-not-a-pixel/

设问
你认为一款要求2000M Pix/s才能以60fps运行的游戏
在以下两个GPU中
TBDR架构, 1000M Pix/s
非TBDR架构, 2500M Pix/s
那个的平均及最高fps会较高?
(fps无上限, 其馀规格不变)

RSX的HSR已经是历史的笑话
和AA同时开启後fps会降到1/7不是?

TOP

JimmyC

小黑屋

帖子: 128
精华: 0
积分: 7488
激骚: 21 度
爱车
主机
相机
手机
注册时间: 2011-1-28

发短消息
加为好友
当前离线

3^# 大中小发表于 2011-2-2 13:42 显示全部帖子

引用:

原帖由 u571 于 2011-2-2 07:34 发表

好笑，G70的HSR怎么叫笑话？所有G70跑DX9.0C游戏都是开HSR，请问哪个游戏开8AA能下降到七分之一？

TBR架构给ARM和powerVR吹的神乎其神，那intel怎么不在桌面继续用这个构架呢？

而且TBR架构所谓消除不可 ...

无论RSX/G70那个HSR都是假HSR
开真HSR的结果就是效能降到1/7
真假有什麽分别你直接去某N粉讨论区问好了
那边的管理员回覆了RSX和SGX543MP4+的比较文
可以顺便问一下TBDR有什麽优势,
1000MP/sTBDR和2000MP/s非TBDR那个fps会较高?
那人还算客观

Intel的Larrabee就是TBR

另外要说SGX543MP4+@200MHz的4000MP/s不是等效数字
4000MP/s是还没乘以2.5的真际数字
OMAP4430/OMAP4440的规格PDF有说

[ 本帖最后由 JimmyC 于 2011-2-2 13:46 编辑 ]

TOP

JimmyC

小黑屋

帖子: 128
精华: 0
积分: 7488
激骚: 21 度
爱车
主机
相机
手机
注册时间: 2011-1-28

发短消息
加为好友
当前离线

4^# 大中小发表于 2011-2-3 19:27 显示全部帖子

引用:

原帖由 hourousha 于 2011-2-2 14:29 发表
HSR效能1/7？喷了，转个7800的review，包括z-rejection performance
http://www.beyond3d.com/content/reviews/38/8
稍微解释一下，render order为Back to Front时，Early-Z-Rejection没有工作。因此pixel pipelin ...

要到G80才算真正支援early z-rejection
http://www.gamedev.net/topic/576 ... on-on-g70-hardware/

[ 本帖最后由 JimmyC 于 2011-2-3 19:31 编辑 ]

TOP

JimmyC

小黑屋

帖子: 128
精华: 0
积分: 7488
激骚: 21 度
爱车
主机
相机
手机
注册时间: 2011-1-28

发短消息
加为好友
当前离线

5^# 大中小发表于 2011-2-4 14:30 显示全部帖子

引用:

原帖由 hourousha 于 2011-2-4 01:34 发表

喷了，你给出的链接只是说明在alpha test时early-z会失效罢了（大多数正常情况不会失效）。这和你说的‘G70的HSR是历史笑话’‘fps会降到1/7’之类的逻辑联系在哪？

要说起来，你不如去关心PVR中你引以为豪的TB ...

不止, 至少在这些情况下也会失效(fps降至1/10~30)
-use kill/clip in pixelshader
-change compare func
-modify depth
好吧, 你要说这也算是完整的HSR我也没办法
那G80的官方文档和Nvidia GPU Programming Guide还真是写心酸的

USSE2的TBDR效能已经比USSE好了一倍(16z:8z)
一样是MBX, Sega的Aurora(2005产品)就有专门优化透明/不完整三角形
当年PowerVR2代, Dreamcast也是alpha test with HW front, 效能比同时脉的电脑版快一倍
难保SGX543MP4+不会有硬件加速alpha test, 就算没有, 也有64z, 即是Galaxy S的八倍
200MHz的Galaxy S(SGX540)比起240MHz的Tegra2 GPU效能差距多少?
就算不是N粉也可以参考Nvidia今年1月26日发出的宣传PDF, 说是110~150%, 实际约110~125%
然後Nvidia声称Tegra2的GPU效能是低阶G80(Tegra1是低阶Geforce6)
要喷, 请连NV一起喷, 好歹SGX543MP4+的同时脉效能是这"低阶G80"的八倍以上

[ 本帖最后由 JimmyC 于 2011-2-4 15:36 编辑 ]

TOP

JimmyC

小黑屋

帖子: 128
精华: 0
积分: 7488
激骚: 21 度
爱车
主机
相机
手机
注册时间: 2011-1-28

发短消息
加为好友
当前离线

6^# 大中小发表于 2011-2-4 16:39 显示全部帖子

引用:

原帖由 hourousha 于 2011-2-4 15:33 发表

1：请给出fps降至1/10至1/30的出处，说起来你这个结论就很神，降至1/10的原始参照物在哪里？前提条件是什么？仅仅是一个alpha test时HSR失效就会让fps降到1/10，那岂不是说alpha test占了总渲染成本的90%以上且alp ...

early-z exists since gf3, like mentioned before. it is disabled if you
-enable alpha test
-use kill/clip in pixelshader
-change compare func

in order to get speed again on G70, you need to work around your alpha-testing.
this is critical, otherwise you pretty much run without optimization and then you're easily 10 to 30 times slower.

你自己搜索一下随便一个Dreamcast模拟器的说明
DC用的PowerVR2的指令分ZWrite和Alpha ZWrite等
後者可大幅强化fps数倍,
这硬体加速指令可是DC版的PowerVR2才有, 显卡的Neon250没有
Sega街机用的MBX也有这个指令, 但iphone2G/3G用的就没有
证明Imgtec一早就有解决方法但没全部采用
在还没清楚SGX543MP4+的规格前就喷这点会不会太早?

PowerVR Insider那边的资料别说SGX543MP4+, 连SGX543的也没有, 也没有家用机芯片的资料
最近期的就是2007年发表的SGX540的开发建议
比起USSE, USSE2每管线shader/TBDR/隐面处理性能增加一倍, 8z>16z, 1D>2D, Vec2>Vec4, 同时支援更多硬体加速
难为你可以面不红气不喘地用2005年USSE的资料来喷2009年的USSE2

跑什麽题?
RSX:G70(7800)阉割版(8:24:24:8)
时脉比SGX543MP4+高20%, 效能高10~25%的240MHz Tegra2:低阶G80, 最低阶的G80为8300GS(8:8:4)
前一点不敢喷,
说到同时脉效能为Tegra2八倍以上的SGX543MP4+效能接近8600GT(32:16:8)/RSX就要喷了
可笑的是连SGX543MP4+时脉多少还未知道
当2011Q1的OMAP4440(45nm)用的已是380MHz
还要拿着200MHz的数据来喷

TOP

JimmyC

小黑屋

帖子: 128
精华: 0
积分: 7488
激骚: 21 度
爱车
主机
相机
手机
注册时间: 2011-1-28

发短消息
加为好友
当前离线

7^# 大中小发表于 2011-2-4 17:27 显示全部帖子

引用:

原帖由 GTFC 于 2011-2-4 17:09 发表
技术大拿们能解释下怎么用7800阉割版做出战神3 GT5 KZ3 这些画面吗
纯为这些技术参数来喷有什么意义

简单而言
1.低阶API
2.对同一GPU的不断优化
3.电脑上有多少游戏的最低要求是用7800?, 游戏设计者一定要照顾低阶硬件玩家

John Carmack在推特上用這形容NGP的性能
Low level APIs will allow the Sony NGP to perform about a generation beyond smart phones with comparable specs.

即大约手机上Tegra4.5的程度, 约2014年初, NGP的性能优势应能维持两年半

TOP

JimmyC

小黑屋

帖子: 128
精华: 0
积分: 7488
激骚: 21 度
爱车
主机
相机
手机
注册时间: 2011-1-28

发短消息
加为好友
当前离线

8^# 大中小发表于 2011-2-4 20:21 显示全部帖子

引用:

原帖由 hourousha 于 2011-2-4 18:40 发表

敢情1/10-1/30是这么来的，彻底喷了，那人在论坛上红口白牙地一说，一无数据支持，二无环境说明，三无法证明此问题是由HSR失效导致，到了你这里就当真理宣传了，你真行……
说RSX的HSR是笑话是假HSR的是你不是我； ...

Nvidia的官方G70 Nvidia GPU Programming Guide HSR的部份说明
http://developer.download.nvidia ... ogramming_Guide.pdf

Early-z optimization (sometimes called “z-cull”) improves performance by avoiding the rendering of occluded surfaces. If the occluded surfaces have expensive shaders applied to them, z-cull can save a large amount of computation time. To take advantage of z-cull, follow these guidelines:

􀂉 Don’t create triangles with holes in them (that is, avoid alpha test or texkill)
􀂉 Don’t modify depth (that is, allow the GPU to use the interpolated depth value)

Violating these rules can invalidate the data the GPU uses for early optimization, and can disable z-cull until the depth buffer is cleared again.

Nvidia的官方G80 Nvidia GPU Programming Guide HSR的部份说明
http://developer.download.nvidia ... mming_Guide_G80.pdf

NVIDIA GeForce 6 series and later GPUs can perform a coarse level Z and
Stencil culling. Thanks to this optimization large blocks of pixels will not be
scheduled for pixel shading if they are determined to be definitely occluded.
In addition, GeForce 8 series and later GPUs can also perform fine-grained Z
and Stencil culling, which allow the GPU to skip the shading of occluded pixels.
These hardware optimizations are automatically enabled when possible, so they
are mostly transparent to developers. However, it is good to know when they
cannot be enabled or when they can underperform to ensure that you are taking
advantage of them.

G70及之前的只能coarse level Z and Stencil culling
G80及以後的才能fine-grained Z and Stencil culling
Course-grained Z: Course Z, Hierarchical Z, Hi-Z, or ZCULL
Fine-grained Z: Fine Z, Early Z, Early Z Checking, Early Z Out
好吧, 这不是阉割,
fine-grained Z and Stencil culling是多馀的
skip the shading of occluded pixels其实是没有用的垃圾功能
没有这的G70已经是完整的HSR
没有这的G70才是真HSR
有这的G80反而是假HSR
我这样说没错吧?

1/7, 1/10-30都是别人在G70使用HSR实际编程的结果,
Nvidia自然不会说白慢多少, 但随便搜一下也有很多这方面的讨论
我放出讨论链结又被喷是搜回来的, 非官方不能作准
但我又不会写, 你怎样不自己写一点看看?

还有, MBX是五年前的产品
拿2005年USSE来喷2009年USSE2的不是你?

[ 本帖最后由 JimmyC 于 2011-2-4 21:20 编辑 ]

TOP

JimmyC

小黑屋

帖子: 128
精华: 0
积分: 7488
激骚: 21 度
爱车
主机
相机
手机
注册时间: 2011-1-28

发短消息
加为好友
当前离线

9^# 大中小发表于 2011-2-4 20:41 显示全部帖子

引用:

原帖由 qjw363924793 于 2011-2-4 18:45 发表
ngp能领先手机2年半？的确啊因为ngp2年半后上市，所以yy的东西总是无比强大，2014年初，ngp机能如果能领先最高端手机，我死，如果没有领先楼上死，楼上的2b敢赌命不？2014年挖坟来

我说的是实际游戏表现
id的头子说受惠於低阶API, NGP实际游戏表现比同规格手机好一代(一年)

NGP是4核A9
4核的Tegra3产品要明年(2012)Q3才上市
Nvidia官方说Tegra3 3D效能是Tegra2的三倍
Nvidia官方说时脉高出20%状态下Tegra2效能是SGX540的110~125%
Imgtec官方说SGX543的同时脉效能是SGX540的一倍
Imgtec官方说SGX543的多核心效率为95%

由此可得出当SGX540性能为1时
Tegra2约是1.1~1.25
Tegra3约是3.3~3.75
和SGX540同时脉的SGX543MP4+为7.6

即是说至少要2013年的Tegra4规格才有机会能超前SGX543MP4+
但id头子说NGP实际游戏表现比同规格手机好一代(一年)
即是说至少要2014年的Tegra5才能在游戏中真正超前
因此我才说是Tegra4.5代(2013年末)

要赌可以,
实际规格领先到2013年初, 之後打平甚至超前(基於id头子没说错的状况)
游戏表现领先到2014年初, 之後打平甚至超前(基於id头子没说错的状况)

[ 本帖最后由 JimmyC 于 2011-2-4 20:45 编辑 ]

TOP

JimmyC

小黑屋

帖子: 128
精华: 0
积分: 7488
激骚: 21 度
爱车
主机
相机
手机
注册时间: 2011-1-28

发短消息
加为好友
当前离线

10^# 大中小发表于 2011-2-4 23:25 显示全部帖子

引用:

原帖由 hourousha 于 2011-2-4 22:50 发表

喷了，你这逻辑能力真成问题，G70的early-z有限制，但不是假HSR，更不是笑话，很简单，有37楼给出的测试结果为证，比你在这红口白牙地给HSR的真假与否，笑话与否胡乱下定义要强的多。
至于你说G80是假HSR，我只能 ...

你先看一下Course-grained Z和Fine-grained Z的归类
Course-grained Z: Course Z, Hierarchical Z, Hi-Z, or ZCULL
Fine-grained Z: Fine Z, Early Z, Early Z Checking, Early Z Out
然後究竟G70有没有Fine-grained Z
根据Nvidia G80的官方PDF, 没有
fine-grained Z and Stencil culling要G80以後才支援
G70根本没有early z, 不是有限制, 是根本没有

NVIDIA GeForce 6 series and later GPUs can perform a coarse level Z and
Stencil culling. Thanks to this optimization large blocks of pixels will not be
scheduled for pixel shading if they are determined to be definitely occluded.
In addition, GeForce 8 series and later GPUs can also perform fine-grained Z
and Stencil culling, which allow the GPU to skip the shading of occluded pixels.
These hardware optimizations are automatically enabled when possible, so they
are mostly transparent to developers. However, it is good to know when they
cannot be enabled or when they can underperform to ensure that you are taking
advantage of them.

我不会编程, 你可以试一下, 我相信你懂的

引用:

证明有没有early-Z的方法, 就是要让z-cull失效. 方法很简单, 反转一下z test就可以了.
结果证明G8x几乎根本不受z-反转的影响, 而G70在测试反转后性能和完全没有occlusion一样.

37楼那个那个测试的结果怎样来, 过程中有没有什麽地方出错, 作假, 我没实际试过, 我不知道
或者是G70, G80的官方文档都写错了, 然後全世界都误会了, 然後你看透了

我看应该是G70和G80官方编程文档写错的机会最大, 哈哈

[ 本帖最后由 JimmyC 于 2011-2-4 23:40 编辑 ]

TOP

JimmyC

小黑屋

帖子: 128
精华: 0
积分: 7488
激骚: 21 度
爱车
主机
相机
手机
注册时间: 2011-1-28

发短消息
加为好友
当前离线

11^# 大中小发表于 2011-2-5 00:08 显示全部帖子

引用:

原帖由 TG春上春 于 2011-2-4 23:53 发表
乃们还真能吵, 还吵得像模像样的. :D

Z-cull和early-z本来就不是一个咚咚. Z-cull是在raster里面的, 所谓coarse是因为它是逐tile做深度测试, 不是逐sample. 做逐sample深度测试的是ZROP, 所谓的fine-grained. ZRO ...

专家来了, 大好了
我搜到这个讨论
http://www.opengpu.org/forum.php ... p;extra=&page=1
那人说的, 到底是否事实?
(官方说有, 实际上没有)

TOP

JimmyC

小黑屋

帖子: 128
精华: 0
积分: 7488
激骚: 21 度
爱车
主机
相机
手机
注册时间: 2011-1-28

发短消息
加为好友
当前离线

12^# 大中小发表于 2011-2-5 00:15 显示全部帖子

引用:

原帖由 hourousha 于 2011-2-4 23:56 发表

原来你又发现了新大陆，呵呵，可惜的是你只知其一不知其二。
这个early-z rejection指的是一种行为——也就是把‘本来就通不过z-test的fragment在进入fragment shader之前预先cull掉，避免不必要的运算’。至于不 ...

以你的标准
现在连Tegra1也支援"真"HSR, "非阉割"HSR了...
(Tegra支援early-z rejection)
哎...

这样的话我也无话可说了...

TOP

JimmyC

小黑屋

帖子: 128
精华: 0
积分: 7488
激骚: 21 度
爱车
主机
相机
手机
注册时间: 2011-1-28

发短消息
加为好友
当前离线

13^# 大中小发表于 2011-2-5 00:55 显示全部帖子

引用:

原帖由 hourousha 于 2011-2-5 00:25 发表

Tegra细节是啥我不清楚别和我扯这个。
RacingPHT在本论坛也有账号你直接问他关于这问题不就OK了？
他在那贴里明明也说了‘因为首先z-cull也可以算是early-z’。换句话说，G70的Z-Cull本身也是Early-Z,只不过后来 ...

刚又找到SCEE的官方开发文档PDF 2009年版
在适当环境下, 依足步骤, 没有违反建议下, RSX的Early Z-cull可以足足省回10%GPU!
哈哈, 好吧, 我认了
RSX的HSR是"真"HSR, "非阉割"HSR
虽然效率只有G8X的一半
TBDR的六分一(依x2.5计算)

RSX 2 z/stencil
SGX543MP4+ 64 z/stencil
两者的实际HSR效率差了32倍
就算RSX的HSR仅能省回10%也好,
总之RSX的是"真"HSR, "非阉割"HSR就是

话说回来, "PowerVR有TBDR有什麽了不起, RSX也有HSR＂这话题呢是谁开的?
现在有答案了, 呵呵

RacingPHT我不熟, 你可以问问看

看你对CLX2在TBDR的同时对alpha test硬件加速一面怀疑
其实beyond3d的讨论区就有Imgtec的员工长驻
说CLX2有alpha test硬件加速, 同时脉性能比Neon250高一倍的就是他
你可以问他究竟十二年前是怎样做到的
(虽然随便下一个DC模拟器已经可看到zwrite/alpha test zwrite的选项)

[ 本帖最后由 JimmyC 于 2011-2-5 07:06 编辑 ]

TOP

JimmyC

小黑屋

帖子: 128
精华: 0
积分: 7488
激骚: 21 度
爱车
主机
相机
手机
注册时间: 2011-1-28

发短消息
加为好友
当前离线

14^# 大中小发表于 2011-2-5 15:08 显示全部帖子

引用:

原帖由 hourousha 于 2011-2-5 11:31 发表

请贴10%的原文与前提条件，要是原场景的depth complexity就只有1或者渲染全是transparent obj，那还一点都省不了呢。少逗咳嗽了你

还乘2.5，还TBDR的六分之一喷了，你要不就是算术太棒，要不就是脑子太好，真是 ...

10%
没有, 原文那一頁, 就这六行, 你可以不信, 呵呵
Many games are fragment shaderbound
•Rendering Z only ‘primes’ the RSX™ Z-cull unit
–Very fast, 16 pixels/clock rather than 8
–Render entire scene,
–Or ‘large’ meshes only
–Easily save 10% GPU

怎样不直接计算SGX和RSX受惠於TBDR/z-cull能省掉多少GPU?
RSX方面SCEE已直接给了省10%GPU这答案
SGX将400MP/s当1000MP/s用对吧?
省多少?怎样计算?我不知道, 呵

引用:

SimonF说的话我信....给出我怀疑PVR CLX2的连接，别急了眼就信口胡说啊……

引用:

一样是MBX, Sega的Aurora(2005产品)就有专门优化透明/不完整三角形
当年PowerVR2代, Dreamcast也是alpha test with HW front, 效能比同时脉的电脑版快一倍

引用:

优化透明三角形么？还是看我给你的那个Insider FAQ，里面提到了，我再给你引用一下
....
是让开发者事先把blend的几何体给分割成不透明/半透明两大集合，尽量减小blend处理量，这就是你说的硬件优化透明/镂空三角形吗？喷了…

引用:

本来透明物体渲染就和HSR无缘。

引用:

看你对CLX2在TBDR的同时对alpha test硬件加速一面怀疑

拿十二年前的CLX2/六年前的MBX替USSE2说项不行
拿六年前的USSE喷USSE2就可以了, 呵呵

引用:

是谁开的呢？

你不会看?

引用:

这问题我在08年就和他聊过

就贴出来呀

TOP

JimmyC

小黑屋

帖子: 128
精华: 0
积分: 7488
激骚: 21 度
爱车
主机
相机
手机
注册时间: 2011-1-28

发短消息
加为好友
当前离线

15^# 大中小发表于 2011-2-5 17:09 显示全部帖子

引用:

还有麻烦您别缩，我怀疑CLX2的证据在哪？

67楼我不就引了

引用:

一样是MBX, Sega的Aurora(2005产品)就有专门优化透明/不完整三角形
当年PowerVR2代, Dreamcast也是alpha test with HW front, 效能比同时脉的电脑版快一倍

我举了Sega DC用的CLX2(1998年)和Sega街机用的MBX(2005年)做例子,
说TBDR也可以有alpha test硬件加速, 效能增加一倍
这是我第一次提到alpha test硬件加速, 硬件优化透明三角形

你就给我看PowerVR Insider
之间我并没有再提过第二次alpha test硬件加速, 硬件优化透明三角形
可见你这段正在回我上面那段

引用:

优化透明三角形么？还是看我给你的那个Insider FAQ，里面提到了，我再给你引用一下
....
是让开发者事先把blend的几何体给分割成不透明/半透明两大集合，尽量减小blend处理量，这就是你说的硬件优化透明/镂空三角形吗？喷了…

这段根本就和CLX2/MBX的alpha test硬件加速, 硬件优化透明三角形无关
我根本不知你你这边是在喷什麽?
喷硬件优化透明/镂空三角形?
喷CLX2/MBX有alpha test硬件加速?
以为我误会PowerVR Indisder这段就是CLX2/MBX的alpha test硬件加速, 硬件优化透明三角形?
根本我从来都没举过PowerVR Insider的内容做例子

引用:

本来透明物体渲染就和HSR无缘。

这也是你说的, 你就是说CLX2/MBX能在使用TBDR(HSR)的同时对alpha test(透明物体渲染)硬件加速无缘吧?

然後我说既然你对CLX2的alpha test硬件加速这麽怀疑, 不如到beyond3d问Imgtec的员工好了

引用:

看你对CLX2在TBDR的同时对alpha test硬件加速一面怀疑
其实beyond3d的讨论区就有Imgtec的员工长驻
说CLX2有alpha test硬件加速, 同时脉性能比Neon250高一倍的就是他
你可以问他究竟十二年前是怎样做到的

然後你又喷我了

引用:

SimonF说的话我信....给出我怀疑PVR CLX2的连接，别急了眼就信口胡说啊……

[ 本帖最后由 JimmyC 于 2011-2-5 17:23 编辑 ]

TOP