Board logo

标题: [新闻] KZ2 DR技術概要文件公開 图片(杀猫) [打印本页]

作者: EG瘦AA    时间: 2007-8-11 16:30     标题: KZ2 DR技術概要文件公開 图片(杀猫)

PDF文件:

http://www.develop-conference.co ... 20in%20Killzone.pdf






















































































作者: 倍舒爽    时间: 2007-8-11 16:38

发到这里不过瘾,发到战区让达人们喷才爽啊~
作者: codjc    时间: 2007-8-11 16:56

等待高人解释............
作者: awpgaoshou    时间: 2007-8-11 17:03

等侍液肉人土分祈
作者: codjc    时间: 2007-8-11 17:19

引用:
原帖由 EG瘦AA 于 2007-8-11 17:07 发表
PDF里的图截下来 上传了40分钟才弄好的

有55张图 我只截了43张
非常棒啊,
作者: moonworm    时间: 2007-8-11 17:38

怎么那么爱炫啊? 难道要卖引擎?
作者: 倍舒爽    时间: 2007-8-11 17:49

这贴要赞操版!!:D
作者: callus    时间: 2007-8-11 18:16

收了看看
作者: jun4rui    时间: 2007-8-11 18:25

应该就是怎么更好的利用PS3那一堆乱七八糟的PPU、SPU搞渲染。

对PS3有效,放到PC、XO上是没用
作者: zhuliang    时间: 2007-8-11 18:41

引用:
原帖由 acejun4rui 于 2007-8-11 18:25 发表
应该就是怎么更好的利用PS3那一堆乱七八糟的PPU、SPU搞渲染。

对PS3有效,放到PC、XO上是没用
恩,简单概括就是KZ2工作人员的血泪史,讲述别人简简单单轻轻松松搞定的效果是如何在PS3上被折腾出来的.
作者: foxhounds    时间: 2007-8-11 18:45

引用:
原帖由 zhuliang 于 2007-8-11 18:41 发表

恩,简单概括就是KZ2工作人员的血泪史,讲述别人简简单单轻轻松松搞定的效果是如何在PS3上被折腾出来的.
请教一下您是怎么看出来的
作者: helllee    时间: 2007-8-11 18:49

好东西 正在下 pdf
感觉这说明文档 比 Source的说明文档容易懂
作者: abrina    时间: 2007-8-11 19:11

这东西真不错,专业啊,不过要是把一些专业名词翻译一下就完美了
作者: aeondxf    时间: 2007-8-11 19:24

估计转此帖子的人有90%都不知道说的是啥……
作者: west2046    时间: 2007-8-11 20:10

引用:
原帖由 aeondxf 于 2007-8-11 19:24 发表
估计转此帖子的人有90%都不知道说的是啥……
等你解释一下!!
作者: ibelieveicandie    时间: 2007-8-11 20:27

引用:
原帖由 helllee 于 2007-8-11 18:49 发表
好东西 正在下 pdf
感觉这说明文档 比 Source的说明文档容易懂
Source刚出来的时候Deferred rendering还是新东西。现在虽然不能说已经烂大街了,但是总可以把前人的成果提炼的更加精炼。

不过deferred rendering未必见得一定比普通的渲染方式好。各有各的长处。但对于RSX这种pixel shader性能强于ROP,内存带宽充足的显卡来说,可能deferred rendering更加适用一些?
作者: 村上春樹    时间: 2007-8-11 20:36

rsx 僅有八個ROP,對遊戲表現實質性能有無影響呢?
作者: ibelieveicandie    时间: 2007-8-11 20:45

引用:
原帖由 村上春樹 于 2007-8-11 20:36 发表
rsx 僅有八個ROP,對遊戲表現實質性能有無影響呢?
假如场景复杂,或者半透明粒子过大过多,overdraw严重的话,ROP性能不足就是致命的。

ROP性能不足对于实现FP16 HDR或者MSAA影响也很大。

但是deferred rendering可以避免大多数overdraw,从而减轻对ROP的压力。缺点是内存带宽需求大。不过RSX强的貌似就是内存带宽。

整体效果在KZ2正式版出来之前不容易评价。不过假如KZ2的画面能做到当年Halflife2相对各自同一时代游戏的程度,应该就算极大的成功了。就目前形势来说,这个难度还是相当大的。
作者: qazqaz    时间: 2007-8-11 21:03

感觉就是...实在没东西拿出手了,连这些都没有游戏拿出来作宣传的东西都要拿出来唬人.
难道是卖引擎的????给人一种凄凉的绝望感

就算讲了这么一大堆不知所谓,那张target image还是没有任何亮点.

[ 本帖最后由 qazqaz 于 2007-8-11 21:16 编辑 ]
作者: 因帅判8年    时间: 2007-8-11 21:14

LS你有脑子吗?
人家给你这些数值,就是让你玩游戏的时候想着这游戏什么地方应该出现什么特效,即便画面没有显示出来,但是你要把它想出来。
什么脑后插管,在PS3已经用无线方式激发人脑帮PS3运算结果了:D

[ 本帖最后由 因帅判8年 于 2007-8-11 21:17 编辑 ]
作者: 见风    时间: 2007-8-11 21:41

无何如何,对LZ的敬业精神还是要赞一个的。:D :D :D
作者: Damas    时间: 2007-8-11 22:01

很好,很强大!
作者: 木几云力占戈    时间: 2007-8-11 22:09

这是KZ2设计师的受虐日记?
作者: 老江湖    时间: 2007-8-11 22:24

这技术我不懂,但就看这图糟的很啊
作者: Knuckles    时间: 2007-8-11 22:25

这是关于KILLZONE如何使用DEFERRED RENDERING (延时渲染)这一技术的白皮书,有人能解释一下吗!?
作者: zhangjingy    时间: 2007-8-11 22:36

看来4个SPU每个的负载只有50%左右(3个少于50%),还有非常大的潜力未发掘啊!


作者: xekrn    时间: 2007-8-11 23:01

先讲了deferred shading原理
然后把G BUFFER里存的5张图贴出来
然后介绍怎么压缩数值又保证精度地把各个数值(depth normal spec etc)存在G BUFFER里,奇怪的是G BUFFER不支持浮点纹理么?还是带宽实在不够只能这么麻烦存数值?
然后介绍SPU怎么用。天师你好去自抽了,SPU除了作场景管理用edge削减多边形作粒子运算作各种运算什么地方用到渲染了?
另外作者写明了大部分shadow是预渲染的,小物品不计算shadow,其余的东西用CSM(天师你是不是又要吹这个?现在次世代谁不用CSM作shadow?)
最搞笑的是killzone里还没有Dynamic radiosity哪,天师你哪里吹出来的?


另外谁有PS3 SDK的能介绍一下G BUFFER是什么东西么?
作者: aeondxf    时间: 2007-8-11 23:13

说实话,如果6个SPE能够负载100%,那么PS3真的会是地球星上最强的主机。
可惜的是,那可能吗?
作者: handsomeken    时间: 2007-8-11 23:15

引用:
原帖由 aeondxf 于 2007-8-11 23:13 发表
说实话,如果6个SPE能够负载100%,那么PS3真的会是地球星上最强的主机。
可惜的是,那可能吗?
连天师都不敢说100%,所以还用问吗?
引用:
原帖由 zhangjingy 于 2007-8-10 14:35 发表


我认为80%以上还是很有可能的。顽皮狗的神秘海域目前公布的画面据说只发挥了30%,成品能到50%。
[ 本帖最后由 handsomeken 于 2007-8-11 23:19 编辑 ]
作者: 孟德尔    时间: 2007-8-11 23:15

很好,很大强
作者: zhuliang    时间: 2007-8-11 23:19

引用:
原帖由 aeondxf 于 2007-8-11 23:13 发表
说实话,如果6个SPE能够负载100%,那么PS3真的会是地球星上最强的主机。
可惜的是,那可能吗?
负载100%又如何?PS3实际可用内存只有不到200MB.
作者: handsomeken    时间: 2007-8-11 23:20

引用:
原帖由 zhuliang 于 2007-8-11 23:19 发表

负载100%又如何?PS3实际可用内存只有不到200MB.
所以说是如果啊
作者: aeondxf    时间: 2007-8-11 23:24     标题: 回复 #31 zhuliang 的帖子

PS3负载100%?不可能的~虽然卡神的新引擎让俺虎躯一震,但地球星上还是木有谁会让PS3这渣机在实际游戏中达到100%负载。
这已经超越的地球星的科技~PS3果然还素火星产品~
作者: helllee    时间: 2007-8-11 23:45

引用:
原帖由 aeondxf 于 2007-8-11 23:13 发表
说实话,如果6个SPE能够负载100%,那么PS3真的会是地球星上最强的主机。
可惜的是,那可能吗?
弄个病毒 然后 就可以 100负载了
作者: aeondxf    时间: 2007-8-11 23:48

引用:
原帖由 helllee 于 2007-8-11 23:45 发表

弄个病毒 然后 就可以 100负载了
好主意!
作者: kidthief    时间: 2007-8-11 23:57

引用:
原帖由 zhangjingy 于 2007-8-11 22:36 发表
看来4个SPU每个的负载只有50%左右(3个少于50%),还有非常大的潜力未发掘啊!

  
天师,把KZ应用的新技术indirect lighting找出来吧
作者: 卖哥    时间: 2007-8-12 00:03

追求利用率100%这种说法多扯
具备无气泡流水线的处理器就没存在过,安藤2据说是地球上效率最高的处理器,Linpack测试不过是理论性能的90%多一点,这还是属于最容易发挥极限性能的运算。

Cell这种走傻快设计的CPU本来就是不同的方向,打得就是同样的晶体管,同样的功耗,30%的利用率比对面90%利用率的实际性能还要高。
作者: aeondxf    时间: 2007-8-12 00:08

引用:
原帖由 卖哥 于 2007-8-12 00:03 发表
追求利用率100%这种说法多扯
具备无气泡流水线的处理器就没存在过,安藤2据说是地球上效率最高的处理器,Linpack测试不过是理论性能的90%多一点,这还是属于最容易发挥极限性能的运算。

Cell这种走傻快设计 ...
可惜的是即使是追求30%还是有N多限制打上can not 的标记。还是P大那个比喻好,P41.8G+LARRABEE+G80会比QX6600+G80好么?我不觉得。

[ 本帖最后由 aeondxf 于 2007-8-12 03:00 编辑 ]
作者: carnon    时间: 2007-8-12 00:09

引用:
原帖由 aeondxf 于 2007-8-12 00:08 发表

可惜的是即使是追求30%还是有N多限制打上can not 的标记。还是P大那个比喻好,P41.8G+LARRABEE+G80会比QX6600+LARRABEE好么?我不觉得。
那是因为现在的软件没对多核优化
作者: handsomeken    时间: 2007-8-12 00:10

引用:
原帖由 helllee 于 2007-8-11 23:45 发表

弄个病毒 然后 就可以 100负载了
这个主意不错。
作者: aeondxf    时间: 2007-8-12 00:14

引用:
原帖由 carnon 于 2007-8-12 00:09 发表



那是因为现在的软件没对多核优化
针对CELL类的多核优化和针对扣肉类多核的优化基本是两回事。何况按照SONY本来的设计CELL在PS3上不是这样用的,拼凑货还是拼凑货。
作者: carnon    时间: 2007-8-12 00:16

引用:
原帖由 aeondxf 于 2007-8-12 00:14 发表

针对CELL类的多核优化和针对扣肉类多核的优化基本是两回事。何况按照SONY本来的设计CELL在PS3上不是这样用的,拼凑货还是拼凑货。
达人解释一下为什么是两回事,最简单的从线程同步和数据共享方面讲解一下
作者: aeondxf    时间: 2007-8-12 00:24

俺不是达人,俺就一非常厚道的中立饭,open mp也就刚摸过下。线程同步和数据共享素扣肉类多核的问题,而要发挥CELL的大能就不仅仅是这两个问题。
作者: 卖哥    时间: 2007-8-12 00:45

Cell的问题在于它是非对称的,给PPE跑得东西不会因为PPE忙、SPE空闲就能分配过去,反过来也一样。
作者: aeondxf    时间: 2007-8-12 00:53

引用:
原帖由 卖哥 于 2007-8-12 00:45 发表
Cell的问题在于它是非对称的,给PPE跑得东西不会因为PPE忙、SPE空闲就能分配过去,反过来也一样。
如果larrabee真的是32个IN-ORDER的X86,那么这就是larrabee对CELL的优势。CELL不错,在自己的领域,如果用在PS3上那么PPE太废了,而SPE太多了。
作者: 卖哥    时间: 2007-8-12 01:01

引用:
原帖由 aeondxf 于 2007-8-12 00:53 发表

如果larrabee真的是32个IN-ORDER的X86,那么这就是larrabee对CELL的优势。CELL不错,在自己的领域,如果用在PS3上那么PPE太废了,而SPE太多了。
但Cell能当主CPU,larrabee么还不确定,目前看来似乎不行,英特尔也没这个打算。

其实解决不同类型处理器负载平衡的方法也是有的,那就是通过API来调用,AMD和英特尔都打算靠API实现。
而,ATI和Nv设计的流处理器,需要为它们专门写软件,这个就前途有限了。

而且还有更好的方法,就是通过虚拟机,而打算靠并行虚拟机实现动态平衡的处理器设计正是龙3呀!虽然是不是放高炮不得而知。
作者: carnon    时间: 2007-8-12 01:07

引用:
原帖由 卖哥 于 2007-8-12 00:45 发表
Cell的问题在于它是非对称的,给PPE跑得东西不会因为PPE忙、SPE空闲就能分配过去,反过来也一样。
谁让你只用ppe?只用ppe的话cell跟其他奔腾3单核cpu还有啥区别?每个spe都是可以单独编程调配的,由ppe来分配job给每个spe的后果是出现ppe瓶颈
作者: aeondxf    时间: 2007-8-12 01:15

引用:
原帖由 carnon 于 2007-8-12 01:07 发表



谁让你只用ppe?只用ppe的话cell跟其他奔腾3单核cpu还有啥区别?每个spe都是可以单独编程调配的,由ppe来分配job给每个spe的后果是出现ppe瓶颈
说真的,我非常佩服这种programmer~可惜IBM努力的方向貌似是PPE更加精简从而达到I/O controller的水平。
作者: carnon    时间: 2007-8-12 01:19

I/O 控制关cpu内部啥事

ibm的初级cell教程就是教如何调用spe的,有关ppe瓶颈问题貌似也可以上ibm网站上看

[ 本帖最后由 carnon 于 2007-8-12 01:21 编辑 ]
作者: sevecol2000    时间: 2007-8-12 01:19

引用:
原帖由 xekrn 于 2007-8-11 23:01 发表
先讲了deferred shading原理
然后把G BUFFER里存的5张图贴出来
然后介绍怎么压缩数值又保证精度地把各个数值(depth normal spec etc)存在G BUFFER里,奇怪的是G BUFFER不支持浮点纹理么?还是带宽实在不够只 ...
G Buffer和PS3 SDK没什么关系.
作者: 6533186dc    时间: 2007-8-12 01:20

不错不错
作者: aeondxf    时间: 2007-8-12 01:21

roadrunner=Opteron+CELL——这就对了!
PS3=ppe+spe——咳咳……
作者: hourousha    时间: 2007-8-12 01:35

引用:
原帖由 ibelieveicandie 于 2007-8-11 20:45 发表
假如场景复杂,或者半透明粒子过大过多,overdraw严重的话,ROP性能不足就是致命的。
ROP性能不足对于实现FP16 HDR或者MSAA影响也很大。
但是deferred rendering可以避免大多数overdraw,从而减轻对R ...
pdf没来得及看,几点看法。
1:所谓deferred shading,大概还是主要应用于solid物体上吧,alpha blending始终是deferred shading的弱项,换句话说,一般情形还应该是solid rendering使用Deferred Shading避免overdraw同时得到极其优秀的batch特性。而在deferred shading之后,再使用通常方法渲染transparent物体。所以如何通过DeferredShading来缓解诸如‘半透明粒子太多’这种消耗ROP和显存带宽的情形呢?
2:其实我觉得吧,大概只是由于DeferredShading是一种可以简便而高效利用SPE的办法,所以才采用的,毕竟SPE做deferred shading这种image-space processing是很快很合适的。
3:我觉得吧,PS3上deferred shading的弱点在于本来system mem就不怎么富裕,G-buffers一搞,那就更剩不了多少了:D

4:之于是否适应于XO和新一代PC,说到底,需求不像PS3那么迫切,新一代GPU和C1这种同时拥有UnifiedShader和不错的dynamic branch性能的东东,基本上对各种情况都适应很好,所以使用DS与否完全看实际需要,而对于PS3这种至少目前总是不得已对外宣称‘只发挥了20%、30%’的情况,大概才很有必要用DeferredShadingS来榨榨了,尽管很多情况,DS的负面作用不见得小。
作者: aeondxf    时间: 2007-8-12 01:39

引用:
原帖由 carnon 于 2007-8-12 01:19 发表
I/O 控制关cpu内部啥事

ibm的初级cell教程就是教如何调用spe的,有关ppe瓶颈问题貌似也可以上ibm网站上看
OH~YEAH~
好久没看到H大上lu了,虽然lu现在的娱乐性没有以前那么好……
作者: hourousha    时间: 2007-8-12 01:56

引用:
原帖由 helllee 于 2007-8-11 18:49 发表
好东西 正在下 pdf
感觉这说明文档 比 Source的说明文档容易懂
关于Source的文档,不知道radiosity map基本生成原理的人基本看了白看,因为radiosity normal map技术属于对原有技术的比较明显的创新。
至于这个文档,由于DeferredShading从第一个demo(PowerVR做的那个)到现在都有4年了吧,所以……

[ 本帖最后由 hourousha 于 2007-8-12 01:59 编辑 ]
作者: hourousha    时间: 2007-8-12 01:59

引用:
原帖由 aeondxf 于 2007-8-12 01:39 发表
OH~YEAH~
好久没看到H大上lu了,虽然lu现在的娱乐性没有以前那么好……
几个月前有段时间上LU很慢,所以就一直没怎么去,不过好像改版了之后速度挺快的:D
作者: aeondxf    时间: 2007-8-12 02:18

引用:
原帖由 hourousha 于 2007-8-12 01:59 发表

几个月前有段时间上LU很慢,所以就一直没怎么去,不过好像改版了之后速度挺快的:D
话说lu的sf开了一个群,貌似像联盟军那样一方受难八方支援~所以:D ~
作者: zhangjingy    时间: 2007-8-12 08:56

引用:
原帖由 卖哥 于 2007-8-12 00:45 发表
Cell的问题在于它是非对称的,给PPE跑得东西不会因为PPE忙、SPE空闲就能分配过去,反过来也一样。
现在CELL已经可以逐步将PPE做的一些事情交给一个SPE去做,有SPE去分配其他SPE。
作者: handsomeken    时间: 2007-8-12 09:14

引用:
原帖由 zhangjingy 于 2007-8-12 08:56 发表


现在CELL已经可以逐步将PPE做的一些事情交给一个SPE去做,有SPE去分配其他SPE。
这儿都是高人,话说您这样的就别……。
我至少知道自己不懂的要虚心学着。
作者: 火彩    时间: 2007-8-12 10:16

引用:
原帖由 zhangjingy 于 2007-8-12 08:56 发表


现在CELL已经可以逐步将PPE做的一些事情交给一个SPE去做,有SPE去分配其他SPE。
天师,你不装能死吗?
你来告诉我这个技术平庸人士,如何让PPE控制一个SPE将任务分配给同级的其他SPE?
引用:
原帖由 aeondxf 于 2007-8-12 02:18 发表

话说lu的sf开了一个群,貌似像联盟军那样一方受难八方支援~所以:D ~
我便是那个群下的受害者啊 :D
就是一个小P孩搞起来的东西,还不如蛋疼群讨论的东西好。
作者: chovosky    时间: 2007-8-12 10:17

引用:
原帖由 火彩 于 2007-8-12 10:16 发表


天师,你不装能死吗?
你来告诉我这个技术平庸人士,如何让PPE控制一个SPE将任务分配给同级的其他SPE?



我便是那个群下的受害者啊 :D
就是一个小P孩搞起来的东西,还不如蛋疼群讨论的东西好。
没办法,玩xo的都大叔

ps3人气可高了,小孩子们都知道“ps2的下一代”
作者: ibelieveicandie    时间: 2007-8-12 10:28

引用:
原帖由 hourousha 于 2007-8-12 01:35 发表

如何通过DeferredShading来缓解诸如‘半透明粒子太多’这种消耗ROP和显存带宽的情形呢?
Deferred rendering没法用在translucent particle上吧。最多就是少画点,反正一般看不出来。
作者: hourousha    时间: 2007-8-12 10:44

引用:
原帖由 ibelieveicandie 于 2007-8-12 10:28 发表
Deferred rendering没法用在translucent particle上吧。最多就是少画点,反正一般看不出来。
Deferred Shading是为了缓解overdraw导致的ROP不足的问题——比如大量半透明粒子情况,这不正是您前面说的吗?所以我才有异议的么。我说的就是对于需要alpha blending的半透明物体,通常还是需要使用传统方法绘制,DeferredShading帮不上什么忙啊。
只说overdraw的话,其实对于solid物体,传统渲染方式也可以通过不太复杂的办法避免大部分的overdraw啊。
换句话说,在大量半透明粒子的overdraw导致ROP不足之前,显存带宽会更早出现紧张啊。
所以,对于PS3来说,给他更多的ROP也没什么用。
所以,我还是认为Deferred shading的使用不是为了缓解ROP问题,而是纯粹的最直接的使用SPE辅助渲染的方式,尽管利弊都很明显。

[ 本帖最后由 hourousha 于 2007-8-12 10:54 编辑 ]
作者: RacingPHT    时间: 2007-8-12 14:16

我觉得Deferred rendering主要是在PS3的结构上有两个好的地方, 一个是如H兄所说, 可以找到一个采用SPE的理由。在SPE的使用中, 就出现了IBL一项。

另外一个, 也是针对PS3的弱项的, 就是显存带宽。由于事实上PS3的RenderTarget可以mapping到任何一块逻辑内存(我记得没错的话甚至包括SPE的LS), 所以事实上使用MRT的结果是PS3的有效输出带宽近乎加倍了, 由22.4G增加到22.4 + flexIO 15G。所以采用高达36MB的render target之后, 仍然可以跑得动我认为这个理由必不可少。

但是FlexIO由于是需要占用XDR的带宽的, 所以这个改进不可能是免费的。使用这么大的render target的直接结果, 很可能就是整个PS3出现memory bandwidth bound的可能性比较大, 使CELL的实际性能下降。不过与其让整个瓶颈出现在DDR3这么小的一个部分, 这样也许是更好的结果。

至于ROP, 我觉得其实两边的主机都是8个ROP, 所以其实都不是很多。不过particle总是可以降低分辨率的, 所以我觉得应该总是会有一个取舍的空间。
作者: ibelieveicandie    时间: 2007-8-12 14:53

引用:
原帖由 hourousha 于 2007-8-12 10:44 发表
Deferred Shading是为了缓解overdraw导致的ROP不足的问题——比如大量半透明粒子情况,这不正是您前面说的吗?所以我才有异议的么。
Deferred shading可以缓解ROP不足问题,而不是缓解“大量半透明粒子导致的overdraw及ROP不足问题”,请勿曲解我的原意。Deferred shading对于粒子渲染并无太多好处。
引用:
所以,我还是认为Deferred shading的使用不是为了缓解ROP问题,而是纯粹的最直接的使用SPE辅助渲染的方式,尽管利弊都很明显。
我同样不认为KZ2用到SPE来实现deferred shading。MRT同样是通过RSX实现的。SPE能做到的是prepare draw list之类的操作。当然image-based lighting用SPE来实现应该是有效的,但是这个操作用SPE来做也未必比GPU快。

[ 本帖最后由 ibelieveicandie 于 2007-8-12 14:59 编辑 ]
作者: ibelieveicandie    时间: 2007-8-12 14:54

引用:
原帖由 RacingPHT 于 2007-8-12 14:16 发表
我觉得Deferred rendering主要是在PS3的结构上有两个好的地方, 一个是如H兄所说, 可以找到一个采用SPE的理由。在SPE的使用中, 就出现了IBL一项。

另外一个, 也是针对PS3的弱项的, 就是显存带宽。由于事实上P ...
带宽是本质因素。

不过,假如想用SPE来辅助渲染,就必须把intermediate render target放在内存里。PS3本来内存就不足,这样一来。。。看来确实只能把audio和animation往显存里塞了。

总之SPE辅助渲染有不务正业的感觉。如果真的free也就算了,但现实中不是没有代价的。

[ 本帖最后由 ibelieveicandie 于 2007-8-12 15:03 编辑 ]
作者: 村上春樹    时间: 2007-8-12 15:07

"audio和animation往显存 塞".....究竟是哪個遊戲將PS3 的內存操到這麼寒傪
作者: RacingPHT    时间: 2007-8-12 15:26

引用:
原帖由 ibelieveicandie 于 2007-8-12 14:54 发表


带宽是本质因素。

不过,假如想用SPE来辅助渲染,就必须把intermediate render target放在内存里。PS3本来内存就不足,这样一来。。。看来确实只能把audio和animation往显存里塞了。

总之SPE辅助渲染 ...
主存过少确实是PS3最大的问题.. PS3的结构本来应该是512 + 256, 实在不行512 + 128我觉得比现在好得多。反正flexIO本来就设计得很强。
既然近乎75%的SPE都没事做...我觉得尽可能分一些post-process或者project shadow filtering过去也是好的。反正RSX大概是空不下来了。

而且我觉得和XBOX版的Shrek相比, 这次render target能用掉4个也是在是不能算packed tightly。难道带宽真的已经很充裕了?
作者: 村上春樹    时间: 2007-8-12 15:50

顯存256跟顯存128 相比對於遊戲設計上的技巧實作與效能影響不大嗎?
作者: 卖哥    时间: 2007-8-12 15:54

因为内存做显存用,比显存做内存用容易。
所以,宁可显存不够用的机会多一点,也别内存不够用的机会多。
作者: 上海恐龙    时间: 2007-8-12 15:54

引用:
原帖由 RacingPHT 于 2007-8-12 14:16 发表
我觉得Deferred rendering主要是在PS3的结构上有两个好的地方, 一个是如H兄所说, 可以找到一个采用SPE的理由。在SPE的使用中, 就出现了IBL一项。

另外一个, 也是针对PS3的弱项的, 就是显存带宽。由于事实上P ...
对FlexIO原理不是很了解,能否详细说说?特别是为何会占用XDR带宽?难道FlexIO不是独立辟出的通道么?
作者: 卖哥    时间: 2007-8-12 15:55

引用:
原帖由 上海恐龙 于 2007-8-12 15:54 发表


对FlexIO原理不是很了解,能否详细说说?特别是为何会占用XDR带宽?难道FlexIO不是独立辟出的通道么?
实际上访问内存做显存占据的是XDR带宽,但是因为XDR带宽大于FlexIO(在PS3这个案例下),所以实际提供的额外显存带宽由FlexIO决定。
作者: RacingPHT    时间: 2007-8-12 15:56

引用:
原帖由 村上春樹 于 2007-8-12 15:50 发表
顯存256跟顯存128 相比對於遊戲設計上的技巧實作與效能影響不大嗎?
我觉得是这样的。前提是事实上XDR和flexIO确实很快(20GB/s download)。所以texture可以放在主存中。

总比现在audio放在显存里的做法要正常。
作者: 上海恐龙    时间: 2007-8-12 15:57

引用:
原帖由 卖哥 于 2007-8-12 15:55 发表

实际上访问内存做显存占据的是XDR带宽,但是因为XDR带宽大于FlexIO(在PS3这个案例下),所以实际提供的额外显存带宽由FlexIO决定。
囧,原来如此

也就是说在本身主存就不足的情况下,XDR的表现也会遇到瓶颈咯?
作者: ibelieveicandie    时间: 2007-8-12 15:57

引用:
原帖由 村上春樹 于 2007-8-12 15:50 发表
顯存256跟顯存128 相比對於遊戲設計上的技巧實作與效能影響不大嗎?
假设游戏需要用到192M显存,其中64M因为某些原因不得不放在内存里(比如deferred shading的一些temporary render target),那么显存有128M也够了。

其实,对于PS3而言,既然已经给RSX设计了FlexIO,那么最好的内存组织方案是512+0,unified memory架构。这样对于充分发挥SPE的能力是绝对必要的。之所以用现在的256+256可能还是成本因素吧。
作者: aeondxf    时间: 2007-8-12 16:22

我也是这样yy的,XDR容量带宽加倍,如果能够承受PCB成本让FlexIO也加倍就更好了~
作者: 卖哥    时间: 2007-8-12 17:06

塞足够多的Cell,再加一块纯2D输出芯片才是正道呀。
作者: harry888    时间: 2007-8-12 17:25

別一直講內存带宽﹐這根本不是問題來的。
PS3從一出世以來就已經是可以調用XDR做顯存用處。
GDDR3記憶體頻寬為22.4GB/s,RDRAM頻寬為25.6GB/s,總系統頻寬為48GB/s。

不過說到FP16 + 4XMSAA的確是吃RAM﹐但是現在有的是NAO32技術﹐所以內存带宽根本不是問題。
KZ2自加都演示了KZ2是支持FP16 + 4X MSAA的﹐用了這些東西SPU還有資源省下。。是不錯的啦。
作者: aeondxf    时间: 2007-8-12 17:29

引用:
原帖由 harry888 于 2007-8-12 17:25 发表
別一直講內存带宽﹐這根本不是問題來的。
PS3從一出世以來就已經是可以調用XDR做顯存用處。
GDDR3記憶體頻寬為22.4GB/s,RDRAM頻寬為25.6GB/s,總系統頻寬為48GB/s。

不過說到FP16 + 4XMSAA的確是吃RAM﹐但 ...
带宽永远不会嫌高。理论上PS3是可以用XDR来做显存啊,不过被人喷就是了,况且与其说PS3显存不够不如说PS3内存不够……nao32不错,不过颜色不那么准确就是了。KZ2可以FP HDR+MSAA?
OH~YEAH~
作者: SE光影GA    时间: 2007-8-12 17:30

看不懂……
作者: RacingPHT    时间: 2007-8-12 17:34

引用:
原帖由 harry888 于 2007-8-12 17:25 发表
別一直講內存带宽﹐這根本不是問題來的。
PS3從一出世以來就已經是可以調用XDR做顯存用處。
GDDR3記憶體頻寬為22.4GB/s,RDRAM頻寬為25.6GB/s,總系統頻寬為48GB/s。

不過說到FP16 + 4XMSAA的確是吃RAM﹐但是現在有的是NAO32技術﹐所以內存带宽根本不是問題。
KZ2自加都演示了KZ2是支持FP16 + 4X MSAA的﹐用了這些東西SPU還有資源省下。。是不錯的啦。
1:总带宽是22.4+15, 因为flexIO的最高写入速度只有15G/s。再者, 通常的渲染方法在关闭MRT的情况下只能用到22.4。
2:KZ2是INT8, 2xAA。

带宽根本不是问题的说法头一次听说。XBOX360的256G/s不知道做什么用的?PS2的48G/s不知道是做什么用的?
作者: zhangjingy    时间: 2007-8-13 09:55

对RSX来说,带宽真是一点问题没有。
作者: cf3b5    时间: 2007-8-13 10:04

每次看这种贴,都觉得TG的喷饭们不开一家3D公司或者CPU公司真是可惜了~
作者: west2046    时间: 2007-8-13 10:18

业内交流帖!
作者: 爱你一棒陲    时间: 2007-8-13 11:28

引用:
原帖由 cf3b5 于 2007-8-13 10:04 发表
每次看这种贴,都觉得TG的喷饭们不开一家3D公司或者CPU公司真是可惜了~
换汤不换药,毫无建设性的废话又来了?
作者: liuyicheng    时间: 2007-8-13 11:45

引用:
原帖由 cf3b5 于 2007-8-13 10:04 发表
每次看这种贴,都觉得TG的喷饭们不开一家3D公司或者CPU公司真是可惜了~
设计CPU、GPU等主芯片和辅助芯片的工程师们一般都是喷子

只不过你看不到他们喷而已。
作者: 爱你一棒陲    时间: 2007-8-13 11:50

公说公有理婆说婆有理,看得偶已经晕了。只看明白一条共识,大家对神机的原始方案有爱,双CELL并行,还有一个缩水的集成RAM扮演GS的角色,只用XDR和FLEX I/O。不过这么玩显然成本太高,而且不合骚尼和久多的脾胃,规格看起来不够YY。
作者: liuyicheng    时间: 2007-8-13 11:54

引用:
原帖由 爱你一棒陲 于 2007-8-13 11:50 发表
公说公有理婆说婆有理,看得偶已经晕了。只看明白一条共识,大家对神机的原始方案有爱,双CELL并行,还有一个缩水的集成RAM扮演GS的角色,只用XDR和FLEX I/O。不过这么玩显然成本太高,而且不合骚尼和久多的脾胃 ...
其实,我觉得索尼和久多和其决策部门被IBM和NV等芯片商给忽悠了
作者: ibelieveicandie    时间: 2007-8-13 11:56

引用:
原帖由 爱你一棒陲 于 2007-8-13 11:50 发表
公说公有理婆说婆有理,看得偶已经晕了。只看明白一条共识,大家对神机的原始方案有爱,双CELL并行,还有一个缩水的集成RAM扮演GS的角色,只用XDR和FLEX I/O。不过这么玩显然成本太高,而且不合骚尼和久多的脾胃 ...
双Cell就不用flexIO了。flexIO是为了RSX能访问主内存而打的一个特别补丁。

不过双Cell架构的性能还是会有问题。SPE做shader在裸速度上不比正规的shader unit有什么优势。ps3用的cell芯片SPE数量也太少。要是有16-32个SPE,也许就能把cell当大半个GPU来用了。
作者: liuyicheng    时间: 2007-8-13 11:58

16-32个SPE的CELL,千单位价格多少
作者: carnon    时间: 2007-8-13 12:32

那些什么ps3原来用两个cell的根本就是rumor,实情是sony之前一直在研发第二代的GS,这个研发计划直到和nvidia合作才终结

不过cel的确l能实现GPU的某些功能,而且工作的很好,例如辅助顶点运算

[ 本帖最后由 carnon 于 2007-8-13 12:33 编辑 ]
作者: aeondxf    时间: 2007-8-13 14:20

囧……如果PS3原来的设计真的是一块CELL+GS2的话那么其性能会比现在更渣……古老相传,IBM本来还向SONY建议PS3用的CELL是2PPE+4SPE的组合呢~
当然你可以说是谣言。
作者: ibelieveicandie    时间: 2007-8-13 14:42

当时8SPE cell的良品率太低了,所以ps3最后只用上了7SPE的。
作者: aeondxf    时间: 2007-8-13 14:50

引用:
原帖由 ibelieveicandie 于 2007-8-13 14:42 发表
当时8SPE cell的良品率太低了,所以ps3最后只用上了7SPE的。
物理上8个然后用一个做冗余,然后OS又保留一个~
作者: dkxw    时间: 2007-8-13 15:03

又是Deferred Rendering 。不算创新把。~~~
作者: 爱你一棒陲    时间: 2007-8-13 15:57

32个SPU,如果是前年的工艺,良品率会是.....
作者: 爱你一棒陲    时间: 2007-8-13 15:58

引用:
原帖由 aeondxf 于 2007-8-13 14:50 发表

物理上8个然后用一个做冗余,然后OS又保留一个~
好像听说6个也有问题哦,经常比4个效率还低。顺便请教,SPU咋个“辅助”做VERTEX SHADER呢?

[ 本帖最后由 爱你一棒陲 于 2007-8-13 15:59 编辑 ]
作者: aeondxf    时间: 2007-8-13 16:22

引用:
原帖由 爱你一棒陲 于 2007-8-13 15:58 发表

好像听说6个也有问题哦,经常比4个效率还低。顺便请教,SPU咋个“辅助”做VERTEX SHADER呢?
同请教~
作者: ibelieveicandie    时间: 2007-8-13 16:39

SPE是带DMA的general purpose processor。所以理论上,只要数据放在SPE能访问到的地方,它啥都能做。KZ2这篇文档提到用SPE做IBL,这传统上是用pixel shader实现的。

当年刚有GPU的时候,由于显卡vertex unit通常不够强劲,用CPU算vertex shader往往比GPU还快呢。
作者: 蓦然回首    时间: 2007-8-13 16:46

看不懂
玩时谁蹲在角落里数阴影?
好看就行了,费这么多话干嘛




欢迎光临 TGFC Lifestyle (http://club.tgfcer.com/) Powered by Discuz! 6.0.0