» 您尚未登录:请 登录 | 注册 | 标签 | 帮助 | 小黑屋 |


发新话题
打印

[电脑] 开创DX11宏图霸业!镭HD5870权威评测

开创DX11宏图霸业!镭HD5870权威评测




当笔者和同事还在沉迷于DX7和DX8游戏不能自拔的时候

当读者们还在为DX9和DX10的画面/性能争论不休的时候

NVIDIA鼓吹DX10.1无用论却又低调的加入支持的时候

新一代DX11顶着诸多增益魔法踩着华丽的光环从天而降

双倍规格六屏输出21.5亿晶体管的HD5870显卡横空出世

经济危机的阴云已然散去,"显卡危机"也将成为过去式

第一章 让游戏运行效率更高!DirectX 11全面解析
    HD5800最大的特性就是首次对DirectX 11 API提供完美支持,这套新一代图形引擎将在2009年10月份与Windows 7同时发布,届时也会提供单独的DirectX升级包供Vista安装。因此本文很有必要对DX11的新特性进行全面分析,并与上一代的DX10/10.1做一些对比。

第一章/第一节 革命性的DirectX 10回顾

    在过去的十几年时间里,DirectX已经稳步成为微软Windows平台上进行游戏开发首选API。每一代DirectX都带来对新的图形硬件特性的支持,每次版本变更都能帮助游戏开发者们迈出惊人的一步。就拿近几年来说,DX9、DX9C、DX10及相关显卡的发布都带来了令人惊讶的游戏画面,给与玩家无与伦比的游戏体验。

    尤其是DX10发布后,以Crysis为代表的FPS游戏画面达到了巅峰,显卡实时渲染出来的人物及风景效果足以媲美照片、CG动画甚至是电影,让人叹为观止!

   
首款DX10游戏《失落星球》DX9对比DX10,牺牲一半速度,画面改进有限

    但DX10也不是完美无暇的,其缺陷也很明显,那就是运行效率比较低。当游戏开启DX10模式后,性能下降幅度非常夸张,以至于第一代DX10显卡GeForce 8800和Radeon HD2900都无法在特效全开的情况下流畅运行当时的任何一款DX10游戏!

    以两年前发布的DX10代表作Crysis来说,其画面堪称完美,但时至今日依然没有任何一款单核心显卡能在VeryHigh模式下流畅它!即便是顶级的双核心显卡运行起来也很吃力,是因为GPU的发展速度太慢吗?不是的,两年时间显卡的性能已经提高了3-4倍,GPU的发展脚步并没有放缓,问题归根到底还是DX10运行效率较差所致。
    下面就先来回顾一下DX10的主要特性:

    统一渲染架构让GPU运算单元的利用率更高,但新加入的几何着色器却加重了流处理器的负担,超级复杂的画面场景也给流处理器造成了更大的压力。因此在这几年内,纵使GPU的流处理器数量大增2-3倍、频率也稳步提升,但依然不够用。


第一章/第二节 过渡性的DirectX 10.1回顾
    DX10带来了众多绚丽无比的新特效,“滥用”各种特效导致GPU不堪重负。而GPU自身的发展受到诸多因素的制约,如果制造工艺跟不上的话运算能力很难取得突破。因此,必须通过不断改进架构运算效率来进一步提升3D图形性能。在DX10之后,微软也开始将重心集中在如何提升算法和效率上面,而不是一味的加入新特效或提高模型复杂度。
    此后微软发布了DX10.1 API,对DX10进行了小修小补,DX10.1主要更新内容有:

    DX10.1的更新内容虽然不少,但相比DX10没有什么革命性的改进,大部分内容都是提高GPU的资源利用率、将一些可选标准列为必须,其实不少项目DX10显卡通过修改驱动就能实现。因此DX10.1没能得到游戏开发商足够多的重视,并没有像当年的DX9C那样迅速成为主流。


屈指可数的DX10.1游戏

    ATI从HD3000系列开始,也就是第二代DX10显卡中,就全面提供了对DX10.1 API的支持。而对手NVIDIA则对于DX10.1比较抵触,第二代GF9系列和第三代GTX200系列都不支持DX10.1,并且宣称“DX10.1并非必须,DX10也能部分实现”之类的言论。《刺客信条》这款原本支持DX10.1的游戏也迫于压力在新版本中取消了支持。
    但是,NVIDIA前几天刚刚发布的GT220显卡却非常低调的对DX10.1提供了支持。在DX11时代即将来临之际,NVIDIA没有将抵制DX10.1的策略进行到底,而选择了妥协,真是令人费解。


DX10.1虽然画面方面改进有限,但运行速度确实加快了

    至少,NVIDIA用实际行动证明了,DX10.1虽然改进有限,但也并不是没用。实际上,DX10.1只不过是微软的一个试水石,其目的非常明确,那就是尽可能的提高DX10的渲染效能,达到节约GPU资源的目的,而DX11正是基于这种设计理念而来的。

第一章/第三节 全新的DirectX 11诞生,为高效率游戏而生
    从游戏画面逼真度来看,短期内恐怕没有哪款游戏能够达到Crysis的高度,但是这款依靠暴力模型、着色技术和诸多特效堆积而成的游戏,对显卡的要求之高令人叹为观止,至今都没有哪颗GPU敢打包票说能在最高特效下面流畅运行。也就是说Cryengine 3是丝毫没有考虑现有GPU的性能而开发的一款超级引擎。


虚幻3是最高效最成功的引擎,Cryengine只是画面最强的引擎

    以高效率著称的虚幻引擎缔造者Tim Sweeney称,想要把现有游戏模型复杂度提高数十倍是很容易的事情(比如CG模型和影视渲染),但同样的你也需要数十倍与现有主机机能的显卡才能流畅运行,比如三路甚至四路顶级系统,而这种系统的市场占有率连1%都不到,独孤求败的Crysis还卖不过快餐式的使命召唤系列、Cryengine至今无法染指游戏机领域就是这个道理。
    所以,架空硬件的引擎是不可取的,唯有充分利用有限的GPU资源,通过各种辅助技术最大化画面表现力,才是图形技术公司和游戏开发商首当其冲要解决的内容。
    因此,在DX10发布四年、成为主流之后,业界将期望都寄托在了DX11身上,虽然DX11并没有带来全新的特效,但却通过各种手段提升了GPU的渲染效率,当GPU有了富裕的运算资源之后,游戏开发商就可以大胆的去使用更多的特效和技术,如此一来DX11游戏很容易就能从画面到速度全面超越DX10游戏!
    DX11最关键的特性有以下五点:

1. Tessellation:镶嵌式细分曲面技术(第三章做专门解析)
2. Multi-Threading:多线程处理
3. DirectCompute 11:计算着色器(第二章做专门解析)
4. ShaderModel 5.0:着色器模型5.0版
5. Texture Compression:纹理压缩

    下面笔者就对这些特性进行详细分析,来看看DX11是通过什么手段来提升渲染效率的。


第一章/第四节 Shader Model 5.0
    Shader(译为渲染或着色)是一段能够针对3D对象进行操作、并被GPU所执行的程序,ShaderModel的含义就是“优化渲染引擎模式”,我们可以把它理解成是GPU的渲染指令集。历代DirectX每逢重大版本升级时最主要的更新内容就包括在了ShaderModel之中:
    ShaderModel 1.0 → DirectX 8.0
    ShaderModel 2.0 → DirectX 9.0b
    ShaderModel 3.0 → DirectX 9.0c
    ShaderModel 4.0 → DirectX 10
    ShaderModel 5.0 → DirectX 11

    高版本的ShaderModel是一个包括了所有低版本特性的超集,对一些指令集加以扩充改进的同时,还加入了一些新的技术,现在我们就来看看DX11 SM5.0都有哪些新特性:

    由于统一渲染架构的特性,Shader Moder 5.0是完全针对流处理器而设定的,所有类型的着色器,如:像素、顶点、几何、计算、Hull和Domaim(位于Tessellator前后)都将从新指令集中获益。

    其中,覆盖采样及Gather4纹理拾取两项指令是从在DX10.1基础上发展而来的,SM5.0要比SM4.1更加智能和灵活,它可以针对特定颜色分别采样、还能自动识别可做阴影映射的值,精度和效率都进一步提高。
    由于DX10.1与DX10在指令方面的相似性,现有的DX10.1游戏可以很容易的通过更新程序代码升级支持DX11,从而获得更好的运行效率,比如《风起云涌》、《潜行者》、《科林麦克雷》将会率先引入DX11。


第一章/第五节 Multi-threading多线程处理

    如果一个软件能够对多核心多线程处理器进行优化的话,那么在使用双核或四核处理器时,其运行效率将会提升2-4倍,遗憾的是如今的游戏都无法支持多核处理。

    通过大量的游戏性能测试来看,GPU占绝对主导,而CPU只是考验单核效能,通过对CPU极限超频可以让游戏性能提高不少,但使用四核或者带HT技术的“八核”处理器几乎不会有任何性能提升。在多核成为大势所趋的情况下大量CPU资源被白白浪费,瓶颈可能依然卡在CPU上面。

    DX11当中新增的多线程处理技术,则是专门针对多核应用而生的,它通过引入“延迟执行”的指令将一个渲染进程拆分为多个线程,并根据处理器核心/线程数设定延迟执行内容的数目。多线程的涵义是非常广的,每一帧画面可以被分为几个图层,每个图层又可以分为N个区块,所有的这些都可以被并行调度到延迟执行的线程之中。
    这是一项很聪明的技术,标记为“立即执行”的线程与传统的渲染没有区别,而标记为“延迟执行”的线程则可以在后台将图形生成所必须的资源做预先的存取,比如纹理拾取、像素生成、常数缓冲等操作都可以多线程并行处理,通过多核CPU富裕的资源来减少程序等待时间,从而使得渲染不再受到CPU的瓶颈制约。

    多线程技术是非常灵活的,它既可以在游戏中通过程序代码来控制,也可以通过DirectX自动分配,还能够通过驱动程序进行优化。即便是驱动没有针对多核进行优化,DX11运行库也会通过模拟的方式提供新的功能,也就是说所有DX11游戏都将或多或少的从多核多线程CPU中获益。
    多线程技术的引入对于双卡甚至多卡互联系统更为重要,以往多颗GPU在DirectX中只能模拟成一个虚拟GPU,所有的GPU必须共享指令缓冲区并接受CPU调度,渲染线程的拆分与合并指令延迟都很大,GPU越多则效率越低!而在DX11当中,如果用四核CPU搭配四路交火系统的话,每颗CPU都可以单独控制一颗GPU的渲染线程,在均分CPU负担的同时,提高了GPU资源利用率,从而大幅提升游戏性能。
    其实多线程技术也能应用在DX9/DX10甚至是OpenGL上面,但由于API及函数指令的限制,开启多线程会产生很多重复的指令,导致性能提升有限甚至不升反降,因此微软并不建议在旧API模式开启多线程模式,除非程序员做过严格的测试与优化。


第一章/第六节 两种新的纹理压缩格式
    丰富的纹理细节对于最终图像的质量尤为重要,目前的游戏也都在朝着超大规模、超精细的纹理细节方向发展。但是,大规模的纹理非常占用显存以及带宽。而纹理压缩就是为了解决这个问题,将大规模的纹理以一种优化的算法进行压缩。试想,如果图象的纹理都不进行压缩的话,那么2GB的显存容量恐怕都不够用。


细致的纹理效果

    但是,目前纹理压缩技术并不支持HDR(高动态范围)图像,这也是开启HDR很占用显存的一个很大的原因。为了解决这个问题,DirectX 11加入了两种新的压缩算法——BC6H和BC7。其中,BC6H是专门针对HDR图像设计的压缩算法,压缩比为6:1;而BC7是专门给高品质RGB[A]纹理设计的压缩算法,压缩比为3:1。

    上图展示的是图像通过BC6H压缩模式进行压缩的前后效果对比图。其中左边的图像为原始图像,中间的是在压缩过程中损失的一些细节,而右边的就是压缩后的图像。可以看出,从画质上来看几乎没有损失(肉眼看不出),但是却可以大幅度降低显存的占用。

    这幅图展示的是BC7针对LDR纹理的压缩与传统的BC3纹理压缩对比。可以看出传统的BC3纹理压缩损失了大量的纹理细节,压缩之后的效果也很不好。而采用BC7算法压缩后的纹理,丢失的细节很少,效果也非常好,这就是改进纹理压缩的魅力。

第二章 DirectCompute:不止是通用计算
    此前在测试阶段,微软将DirectX 11中包含的GPU通用计算称为Compute Shader或DirectX Compute,而在近期的正式版本中又改名为Direct Compute,一字(X)之差何必呢?显然,微软为了将GPU通用计算和主要是3D应用的DirectX区别开,进一步凸出Direct Compute的重要性并与OpenCL分庭抗力,由此足以见得微软对GPU通用计算的重视程度。
    DirectCompute主要针对GPU计算,但由此可以衍生出一些在图形渲染方面的特殊应用,因此笔者将其单列一章,对一些重要技术进行详细介绍。

第二章/第一节 DirectCompute与Stream/CUDA/OpenCL的关系

    提起GPU通用计算,自然会让人想到NVIDIA的CUDA、ATI的Stream以及开放式的OpenCL标准,再加上微软推出的DirectCompute,四种技术标准令人眼花缭乱,他们之间的竞争与从属关系也比较模糊。

    首先我们来明确一下概念:

  • OpenCL类似于OpenGL,是由整个业界共同制定的开放式标准,能够对硬件底层直接进行操作,相对来说比较灵活,也很强大,但开发难度较高;

  • DirectCompute类似于DirectX,是由微软主导的通用计算API,与Windows集成并偏向于消费领域,在易用性和兼容性方面做得更出色一些;

  • CUDA和Stream更像是图形架构或并行计算架构,NVIDIAATI对自己的GPU架构自然最了解,因此会提供相应的驱动、开发包甚至是现成的应用程序,通过半开放的形式授权给程序员使用。


ATI Stream示意图

    其中ATI最先提出GPGPU的概念,Folding@Home和AVIVO是当年的代表作,但在被AMD收购后GPGPU理念搁浅;此后NVIDIA后来者居上,首次将CUDA平台推向市场,在这方面投入了很大的精力,四处寻求合作伙伴的支持,并希望CUDA能够成为通用计算的标准开发平台。


NVIDIA CUDA示意图

    在NVIDIA大力推广CUDA之初,由于OpenCL和DirectCompute标准尚未定型,NVIDIA不得不自己开发一套SDK来为程序员服务,这套基于C语言的开发平台为半开放式标准,只能用于NVIDIA自家GPU,因此并未得到业界的认可,AMD认为CUDA是封闭式标准,不会有多少前途,AMD自家的Stream虽然是完全开放的,但由于资源有限,对程序员帮助不大,因此未能得到大量使用。


OpenCL一经提出就受到业界的大力支持

    于是在去年由苹果牵头,以苹果OpenCL草案为基础,联合业界各大企业共同完成了标准制定工作。随后Khronos Group成立相关工作组,工作组的26个成员来自各行各业,且都是各自领域的领导者,具体包括3DLABS、Activision Blizzard、AMD、苹果、ARM、Barco、博通、Codeplay、EA、爱立信、飞思卡尔、HI、IBM、Intel、Imagination、Kestrel Institute、摩托罗拉、Movidia、诺基亚、NVIDIA、QNX、RapidMind、三星、Seaweed、TAKUMI、德州仪器、瑞典于默奥大学。

    OpenCL标准一经成立,IT三巨头IntelNVIDIAAMD都争先恐后的加入支持。AMD由于自家Stream推广不利、支持OpenCL并不意外;Intel即将发布的Larrbee GPU一大卖点就是强大的计算能力,支持OpenCL有百利而无一害;NVIDIA虽然在大力推广CUDA开发平台,但无奈势单力薄,小有所成但前途未卜,OpenCL虽然与CUDA C语言有交集但并不冲突,是相辅相成的互补关系,NVIDIA自然也大力支持。

    OpenCL组织中唯独微软不在其列,微软有自己的如意算盘。经过多年的发展,DirectX凭借快速更新换代策略、相对轻松的开发与移植方式,在与OpenGL的交战中已全面占据上风,OpenGL的传统强项——专业绘图领域也在被DirectX不断的蚕食。因此微软打算用相同的策略来对抗尚未站住根基的OpenCL,于是DirectCompute诞生了。

    就如同GPU能同时支持DirectX与OpenGL那样,NVIDIAAMD对DirectCompute和OpenCL都提供了无差别支持,真正的GPU通用计算之战,不在CUDA与Stream之间,而是OpenCL与DirectCompute之争,DX11时代才刚刚开始……

第二章/第二节 DirectCompute 10/11版本间的区别

    虽说DirectCompute标准才刚刚问世,但目前已经有了三个版本,它与微软的DirectX版本是一一对应的(10.0、10.1、11.0),毕竟DirectCompute目前还只是DirectX的一个子集,羽翼未丰之前难以自立门户。


简单的拖曳操作,就能使用Win7内置的GPU视频转码程序

    10月份即将发布的Windows 7操作系统将会内置DX11及DirectCompute,对GPU通用计算提供原生支持。Win7对GPU的要求放得很宽,只要支持DX10即可,当然DX10.1更好DX11最完美。

    DirectCompute是与DX11一同发布的,因此相比“过去式”的10.0版,DirectCompute 11作出的改进比较多:

    可以看出,同DX11类似,DirectCompute 11的改进主要集中在降低系统资源开销与提高效能方面,也就是说新的DX11显卡会有更强的通用计算效能。而旧的DX10显卡虽然会慢一些,但实现的功能也不会差多少,如此一来就完美的解决的兼容性问题,也能很好的凸出新显卡的优势,用户和厂商皆大欢喜。

虽然DirectCompute的主要任务是用来处理非图形运算,但很多时候它还是需要做一些图形相关的擦边球任务、或者是辅助图形渲染,比如说视频数据处理、物理运算、人工智能等,这些操作最终还是需要通过显卡输出至屏幕,因此计算着色器会经常与像素着色器打交道,当像素着色器使用到计算着色器的新特性之后,就会衍生出一些意想不到的新特效。

    接下来就为大家介绍一些属于DirectCompute 11的新技术,当然它们也属于DX11的范畴。

第二章/第三节 DirectCompute 11新特效:顺序无关透明化

    烟雾、火焰、流水、玻璃、树叶、栅栏、头发……游戏中所出现的半透明物体数不胜数,程序员很难给这些物体设计一个固定的模型,它们不规则、随机的特性决定了单纯依靠传统的像素着色或者纹理贴图都是行不通的,因此这类物体有了一个新的称呼——Order Independent Transparency (OIT,顺序无关透明化)。


传统的透明混合效果很差

   
此前,程序员必须在每帧渲染之前对透明模型进行深度排序或者执行诸如深度剥离的Multi-Pass(多次)算法,以达成模型间正确的透明度。不管哪种办法,都不能像非透明模型那样实现正确的局部的Post-Processing(后处理)效果,而且会消耗很多资源。

    DX11则首次在没有额外专用电路的情况下,透过一个每像素空间数据结构对多个透明表面的排序实现对顺序无关透明化的支持,解决方法就是让GPU参与运算,通过使用DirectCompute 11新增的原子操作,无需直接软件管理就能往分级缓存的不同层级装载数据,依照每个像素透明层数来分配独占的内存。如此一来程序设计的复杂度显著降低,并且数据结构可以采用难以预测的非结构化的内存存取,DirectCompute 11新增的附加缓冲也会派上用场。

由于DX10不支持原子操作,因此无法支持顺序无关透明化这项新特效,只能依靠传统的方式来实现差强人意的效果。而DX11不但画面更好,而且实现效率非常高,大量使用附加缓冲从而节约了显存带宽消耗。

    上面的视频就是由HD5870实时演算出来的,机器人本身就是半透明的骨架,为其附加一层厚厚的外壳后,即便进行剧烈运动,性能也没有多少损失。DirectCompute 11不但让半透明物体的程序设计变得轻松,而且实时渲染效能也大幅提升,可以预见未来的DX11游戏将会大量使用半透明效果。

就像大家通过数码相机拍完照片后需要经过PS处理一样,3D模型在GPU内部渲染完成后也会经过后端处理才会显示在屏幕上,这一过程叫做“Render Post-Processing”(渲染后端处理),常见的如“边缘侦测与抗锯齿、各向异性过滤、景深、运动模糊、色彩映射、滤波、锐化”等一些列特效都是在这一阶段加上去的。

    GPU有专门负责渲染后端处理的模块,叫做“Render Back-Ends”(ROPs),也就是通常所说的光栅单元,这个模块位于流处理器与显存控制器之间,也就是说它渲染完毕后将会把数据直接输出到显存与屏幕。

第二章/第四节 DirectCompute 11新特效:渲染后端处理之景深

    在DX10时代,光栅单元的任务量是很重的,如果大量使用后端处理特效的话,很容易出现像素着色器等待光栅单元的情况出现。所以很多DX10游戏的GPU负载还不如DX9C游戏就不足为怪了。而DX11则通过一个巧妙的方式降低了光栅单元的负担,确保流处理器和光栅单元能够协同工作,原理依然是使用计算着色器。

    各种后端处理特效的最终效果虽然千差万别,但它们大多数都有一个共同的特点,那就是需要对比相邻位置像素或者相邻帧之间像素的差别,然后进行对比与合成。这一拾取动作其实只用一个函数就能完成——Gather4,它使得计算着色器能够越权进行数据采集动作,帮助纹理单元和光栅单元的减轻负担,而且计算着色器的数据采集速度是专用单元的4倍!


DX10版景深处理

    具体一点例子,比如DX10级别的运动模糊和景深特效,都是通过几何着色来实现的,通过几何着色控制运动物体的坐标变换与像素监控,或将深度帖图中的纹理信息按照距离拆分到缓冲,然后分为几个不同的视角进行渲染,最后合成完整的图像,实现比DX9C更精确、更流畅的特效。画面效果是更出色了,但几何着色并没有帮助光栅单元做任何事情,数据处理反而翻了好几倍,导致性能下降比较严重。

    而通过使用DirectCompute 11中的新指令,后端处理特效可以最大限度的降低显存读写次数、大幅降低光栅单元的负担,当然流处理器将会承担更多的任务(几何着色、计算着色、像素着色),但依然能够保持相对的平衡,不会出现DX10当中GPU资源负载不均的情况。

第二章/第五节 DirectCompute 11新特效:渲染后端处理之高清晰环境光遮蔽

    “环境光遮蔽”(Ambient Occlusion,AO)是一种非常复杂的光照技术,通过计算光线在物体上的折射和吸收在受影响位置上渲染出适当的阴影,进一步丰富标准光照渲染器的效果。“屏幕空间环境光遮蔽”(SSAO)就是该技术的一个变种,现已用于《潜行者:晴空》、《火爆狂飙》、《鹰击长空》、《帝国:全面战争》等游戏。


《鹰击长空》支持SSAO和DX10.1

SSAO是DX10.1的一项新特性,通过使用Gather4技术实现更快速、更精确的纹理过滤,虽然DX10.1版Gather4只能处理单一的颜色分量,但依然对处理阴影内核和SSAO挺不错,因为深度缓冲是一个单颜色分量。DX10显卡通过更新驱动也能支持SSAO,NVIDIA就在驱动当中提供了SSAO选项,但由于性能损失很大默认情况下关闭的。


晴空也支持SSAO,而STALKER新版则支持HDAO,效果更上一层楼

    在DX11时代AO效果又有了更优秀的版本,AMD称之为High Definition Ambient Occlusion,简称HDAO,翻译为高清晰环境光遮蔽。这是一种基于纹理的阴影技术,能提供比普通环境光遮蔽更好的效果,同时保证系统性能足够好。

    下面就来看看AMD自己对HDAO技术的演示Demo:


首先是关闭HDAO的效果,帧率188FPS


打开HDAO,阴影真实了很多(尤其是坦克履带),但帧率骤降到20FPS以下

    最后,使用DirectCompute 11技术,在打开HDAO的模式下渲染正率提升至44FPS,性能提升两倍以上,基本可以保证游戏流畅度。

    DX11大作《异形大战铁血战士》将会大量使用HDAO特效。

第三章 DX11之ATI独门绝技Tessellation全解析
    Tessellation技术是DX11的关键特性之一,这里之所以要把它单独提出来列为一章,是因为该技术与ATI有着很深的渊源,可以说Tessellation是ATI一手策划,经过多年的改进与完善而来的独门绝技。
第三章/第一节 并不陌生的Tessellation技术
    虽说Tessellation是ATI的独门绝技,但这也并不意味着N卡无法支持Tessellation技术,在DX11吸纳了Tessellation之后,未来NVIDIA的DX11显卡应该也会加以支持。


Tessellation技术让模型变得更加细腻

    Tessellation一词相信很多人都有印象,没错,它就是ATI第一代DX10核心R600(HD2900XT)中的一个特殊模块,从HD2000系列开始、到HD3000再到如今的HD4000系列,ATI的每一款DX10显卡都支持这项技术,虽然还没有任何一款游戏能够支持该技术,但ATI依然孜孜不倦的对它提供支持,因为ATI坚信——是金子总会发光的!

    终于在DX11时代,微软将Tessellation作为一项重要标准纳入规范之中,这项被埋没多年的技术得以重见天日。那么Tessellation究竟是何方神圣,让ATI技术人员如此执着,微软到底是“禁不住软磨硬泡”、“勉为其难”的吸纳之,还是为其先进的特性所倾倒,欣然接纳之?故事还得从七年前的Radeon 8500系列谈起……


第三章/第二节 2002年R200:Tessellation的鼻祖N-Patch及TruForm
    话说2001年7月的时候,微软即将推出DirectX最新的8.1版本,所以就在Meltdown2001会议上把ATINVIDIA等一干图形技术公司叫来开会,一起商定DX8.1的一些技术细节。这次会议可以说是图形图像界的“华山论剑”,不光有主办商及核心厂商可以参加,媒体甚至也可以买票入场,票价是650美元,当时著名的八卦网站TheInquirer就参加了这次会议(要不是它我们就不知道这段典故了)。据他们报道,由于技术细节方面的争执比较大,NV和微软的关系搞得有点僵,而且NV拒签当时正在开发的DX9协议。


2001年7月 西雅图
ATI无疑成为了Meltdown2001的主角

    讲这段八卦历史并不是为了讨论谁和微软走的更近,而是因为这次会议上其实就决定了DX8.1标准及部分DX9标准。微软这次在DX8.1的规范中提出了一个叫做“N-Patch”的技术,相比之前的各种虚拟3D和位移贴图技术而言是一种非常精妙的技术。它能够像位移贴图那样自动创造顶点,但是却不需要高度图来做参数,使模型自动的变得极为光滑。

   
原始模型和经过N-Patch处理之后的效果

    N-Patch技术的原理是这样的:GPU在读取了一个模型之后,判断每个三角形三个顶点的法线向量,再根据这三个向量算出插入的顶点的位置。如此一来就能将一个简单的、有棱有角模型通过“差值”的算法实时处理成为复杂的、圆滑的模型,在当时GPU运算能力极为有限的情况下,N-Patch技术可以大幅提升3D模型的细节和显示效果。

    NPatch技术非常适合于将一个模型变得“圆滑”。因此非常适合于一些有很多曲面的模型。因为对于曲面的表现,通常的表现方法只是尽量多的使用内割多边形或者外切多边形来模拟曲面的效果。N-Patch技术的巧妙之处就在于算法简单,只要进行多次递归运算,就能将一个面做成一个高次曲面,N-Patch这个词的本意也就是一个N次曲面。

    次年(2002),在ATI的R200(Radeon 8500)显示芯片中,就率先采用了N-Patch技术,在ATI自己的官方介绍中称之为“TruForm”。

TruForm技术的BUG:

    TruForm的好处是效率会比位移贴图高,以极低的资源消耗实现极佳的显示效果。不过呢,这个技术比较适合于海豚、赛车等表面为曲面的模型上,而如果这个技术应用在坦克等不需要做曲面化的模型上的时候,效果就会变得相当的滑稽。

英雄萨姆中枪械模型发生变形现象(不该圆滑的表面被圆滑)



CS中人物模型变成了“胖子”(人体又圆又胖)

    虽然TRUFORM技术非常具有创意,而且还能给大家带来意象不到的快乐,但是这一技术的应用情况并没有像微软和ATI所期望的那样。正是因为产生了这一滑稽的BUG,TruForm在整个DX9a/b/c时代便销声匿迹了。


第三章/第三节 2005年Xenos:Tessellation登陆XBOX360主机
    由于考虑不周导致技术不成熟的原因,ATI在DX9时代不再整合TruForm功能。但是,微软和ATI都没有放弃这一极具创意的技术,N-Patch/TruForm的设计初衷就是节约GPU资源,通过简单高效的手段让低模3D游戏摇身变为高品质模型。

    到了2005年,在微软与ATI的合作结晶——专为XBOX360设计的图形芯片Xenos当中,经过改进的N-Patch/TruForm技术重出江湖,这次它有了一个很响亮的名称——Tessellation,直译为“拆嵌”意译为“细分曲面”。

    此次微软和ATI吸取了教训,Tessellation不再像TruForm那样自作聪明的对所有模型强制进行曲面细分化,而是按照不同游戏中特定模型的需求有针对性的处理。因此以往的BUG不复存在了,但需要游戏本身提供支持才能生效。


应用了Tessellation技术的XBOX360游戏画面

    通过为数不多的支持Tessellation技术的XBOX360游戏来看,细分曲面技术让模型细节变得极为丰富,事实上这些游戏专门挑选了一些动物模型让Tessellation处理——这显然是它的拿手绝活!
    除了大幅提升模型细节和画质外,Tessellation最吸引程序员的地方就是:他们无需手动设计上百万个三角形的复杂模型,只需简单勾绘一个轮廓,剩下的就可以交给Tessellation技术自动拆嵌,大大提高开发效率;而且简单的模型在GPU处理时也能大幅节约显存开销,同时大幅提升渲染速度!

    不过,Tessellation技术依然具有局限性,而且很多游戏开发商都在跨平台开发游戏,对于这项只有XBOX360支持、PS3和PC显卡都不支持的技术不感兴趣,因此支持Tessellation的XBOX360游戏屈指可数。
    Xenos这颗基于R580核心的特殊DX9C GPU,除了首次支持Tessellation和当时先进的HDR+AA技术外,还第一次采用了统一渲染架构,这些技术都被ATI改进并沿用到了DX10时代。


第三章/第四节 2007年R600:Tessellation卧薪尝胆
    现在看来,R600核心是一款非常失败的产品,功耗高、发热大、性能低、AA效能差,但是当R600(320SP)的架构扩充至RV770(800SP)的规模时,就没人敢轻易对这套体系架构评头论足了。事实上R600的失败在于冒险采用80nm工艺、512Bit环形总线、以及Shader AA,而其核心架构的运算能力并不输给竞争对手,因而一直被沿用至RV670、RV770还有如今的RV870身上。
    R600除了完全按照DX10和统一渲染架构设计外,还整合了一个特殊的模块:Programmable Tessellator,可编程拆嵌器。由于这个可有可无的模块占用晶体管并不多,因此AMD之后的全系列DX10 GPU中都集成了可编程拆嵌器。


R600核心架构图

    这个可编程拆嵌器可要比XBOX360高明很多,R600核心能够根据3D模型中已经有的顶点,根据不同的需求,按照不同的规则,进行插值,将一个多边形拆分成为多个多边形。而这个过程都是可以由编程来控制的,这样就很好的解决了效率和效果的矛盾。


Tessellation技术让模型变得更加细腻

现在我们就更容易理解Tessellation技术是怎么回事了,它是一种能够在图形芯片内部自动创造顶点,使模型细化,从而获得更好画面效果的技术。Tessellation能自动创造出数百倍与原始模型的顶点,这些不是虚拟的顶点,而是实实在在的顶点,效果是等同于建模的时候直接设计出来的。
    R600的Tessellation技术支持多种决定插值顶点位置的方法来创造各种曲面:

1. N-Patch曲面,就是和TRUFORM技术一样,根据基础三角形顶点的法线决定曲面。
2. 贝塞尔曲面,根据贝塞尔曲线的公式计算顶点的位置。
3. B-Spline, NURBs, NUBs 曲线(这三种曲线均为CAD领域常用曲线,在Maya中均有相应工具可以生成)
4. 通过递归算法接近Catmull-Clark极限曲面。

    有了多种无比强大的曲面生成技术,在加上可编程的设计,程序员在开发游戏之初就能根据需要制定相关模型采用何种细分法则,从而避免出现变形和失真的问题。

    而且,Tessellation过程被安排在了顶点着色之前,这就意味着Tessellation所创造出来的顶点全都可以参与Vertex Shader的处理和运算。这些顶点所带来的所有细节,将具备所有特效。


基本的顶点模型,最终生成效果很幼稚


经过Tessellation智能拆嵌之后,模型精细了很多


拆嵌后再辅以各种阴影及着色效果,从而以很小的代价达到CG级别画面

    在R600发布时,AMD拿出了一款CG级别实时渲染的Demo,其中被积雪所覆盖的山体就是由Tessellation生成的。以往的演示Demo都是片面注重对主角的修饰,而背景往往只使用简单的纹理贴图,而R600的这个Demo其背景和环境的精细程度甚至超越了主角Ruby。


HD3000/HD4000继续支持Tessellation

    可惜,时至今日,只有ATI的官方Demo使用了自家的Tessellation技术,还没有任何一款PC游戏支持这项被孤立于DX10之外的非主流技术,看来仅靠AMD还是孤掌难鸣的。


第三章/第五节 2009年RV870:Tessellation被正式纳入DX11,修成正果
    在AMD的不懈努力下,虽然PC游戏开发商依旧无动于衷,但这个小小的可编程模块却受到了一些好莱坞CG影片设计公司的青睐,因为CG动画对模型细节的精细程度要求十分苛刻,而Tessellation技术能够以很小的资源开销让模型细节丰富百倍,这种近乎免费的画质提升无疑是非常诱人的。


Tessellation能够同时加强地形和人物皮肤细节

    此后AMD将重心转移至CG领域,并提出了Cinema 2.0的概念,为中小型图形公司提供技术支持,灵活应用Tessellation技术来高效的创作视频短片及广告特效。因此在DX10时代,虽然ATI全线显卡均支持Tessellation技术,但AMD却没有像DX10.1那样做大张旗鼓的宣传。


等到DX11正式接纳Tessellation时,AMD已经是第六代技术了,真不容易

    经过多年的发展,Tessellation已今非昔比,这款历经磨难、饱受屈辱、在逆境中茁壮成长的技术现在更加灵活、高效、实用,微软认为时机再次成熟,于是被名正言顺的纳入DX11的范畴。
    消息一出,立马就有回应。《战地:叛逆连队2》第一个跳出来声援,号称全球首款DX11游戏,该游戏使用了新版Frostbite Engine,而ATI R600 Demo使用的正是该引擎:


让人印象深刻的雪山背景,这就是AMD与DICE合作开发的Ruby Demo

    据DICE渲染架构师Johan Anderson称,从DX10到DX11的实际导入过程仅仅花费了三个小时,其中在代码里搜索和替换相关部分最耗时间。现在我们就不难理解战地引擎升级支持DX11为何如此神速了,两年前的战地引擎就能支持Tessellation技术,现在只不过是查找复制粘贴重新找回被闲置的代码而已,那还不是轻车熟路?
    战地引擎的使用者不在少数,看来Tessellation技术以及DX11很快就将进入实际应用阶段,卧薪尝胆的Tessellation终于重见天日!


第三章/第六节 DX11版Tessellation的改进
    当然,微软并不是原封未动的将R600的Tessellation技术抄到DX11之中,而是对其进行了优化,使之能与渲染流程完美的结合在一起,可以更高效率的细分出更多的多边形和曲面。

    为了配合Tessellator模块的工作,DX11中引入了两个新的着色器:外壳着色器和域着色器,分别位于镶嵌器的前后。而此前的DX10 A卡并不具备这个功能。

    虽然处理流程不同,但工作原理是相似的,此前用做DX11 Tesselltion原型测试的都是ATI DX10显卡。只要游戏不作出硬性限制,目前的A卡就能实现细分曲面的特效,只不过在速度和效果方面不如DX11好。


第三章/第七节 Tessellation在DX11游戏中的应用实例

    由于此前的ATI DX10显卡已经具备了超前的Tessellation技术,因此在即将问世的DX11游戏中,使用最多的新技术非Tessellation莫属,通过导入Tessellation,可以大幅提升模型细节,由此所产生的视觉震撼远比那些在阴影或光照方面的改进显著。


《异形大战铁血战士》里面的异形


点击放大查看模型细节的改进


使用Tessellation替代传统的凹凸贴图,层次感更强


《科林麦克雷:尘埃2》中Tessellation技术几乎是无处不在

    DIRT2简直是Tessellation技术的代言人,随风飘扬的旗帜、地形细节、水面渲染……此外,之前介绍过的战地2引擎也堪称Tessellation技术的代表作,ATI的Ruby Demo就是用战地2引擎制作的,导入DX11技术后的战地2引擎将会在明年正式发布。


第四章 DX11游戏实测+视频
第四章/第一节 DX11游戏并不遥远:第4季度发布4款
    2006年11月,首款DX10显卡GeForce 8800GTX发布,当时还没有任何有关DX10游戏的影子,直到7个月后第一款DX10游戏《失落星球》才正式发布。
    2007年11月,首款DX10.1显卡Radeon HD3870发布,当时DX10.1并未引起玩家和业界的重视,5个月后第一款DX10.1游戏《刺客信条》发布,结果因为众所周知的原因很快就被“和谐”了。
    如今,首款DX11显卡Radeon HD5870横空出世,也将面临无DX11游戏可玩的局面,但这次玩家们不用等太久了。AMD称在2009年第四季度,将会有四款DX11游戏正式发布(注意绝非测试版),2010年初陆续会有大作及DX11引擎面世。

    不出意外的话,已经加入DX10.1支持的EA RTS网络游戏《BattleForge》将会拔得头筹,率先通过补丁升级支持DX11,预计将会在9-10月之间。
    已经支持DX10.1技术的《潜行者:晴空》续作《潜行者:普里皮亚季的召唤》将会是第一款原生DX11游戏。
    《科林麦克雷:尘埃2》完全使用DX11引擎缔造,通过目前泄漏的图片和视频来看,称之为最强赛车游戏豪不为过。


AMD提供给媒体的5款DX11游戏Demo


最微软最新的2009年8月DirectX更新包中,就包含了对DX11的支持

    现在,我们已经率先拿到了这几款DX11游戏的测试Demo,接下来我们就使用HD5870显卡对其进行测试,来一窥DX11显卡的实例和DX11游戏的魅力。


第四章/第二节 DX11游戏大作:《异形大战铁血战士》
    关于异形和铁血战士这两个名词,最早要追述到20世纪福克斯公司在1979年上映的卖座电影《异形》和1987年上映的卖座片《铁血战士》,很多影迷都对两个系列电影很熟悉,它们讲述的都是人类对抗太空外来生物的故事。而首度将两个系列中的人类强敌异形和铁血战士放在一起,主要出自黑马漫画(Dark Horse Comics)出版的同名漫画《Aliens vs Predator》(异形大战铁血战士),这部漫画又形成了一系列的游戏,在1990年代的游戏家用主机平台和街机推出过很多同名游戏。
    最终连20世纪福克斯公司也觉得这个大乱斗主意不错,于是在2004年出品了一部电影就叫做《异形大战铁血战士》。这部电影上映之后,又出现了几部游戏仍然叫做《异形大战铁血战士》,其中有一部就是Rebellion开发的PSP版《异形大战铁血战士:挽歌》(Aliens vs. Predator: Requiem),这部游戏2007年11月上市,品质很差。
    今天提到的这部《异形大战铁血战士》,英文名称还是“Aliens vs Predator”,也由Rebellion开发,世嘉发行。将会与2010年初与电影《异形大战铁血战士3》同步发行,因此备受影迷和游戏玩家们期待。

与其它粗制滥造骗钱的同名电影改编游戏不同,《异形大战铁血战士》不仅在剧情和游戏可玩性方面下足了功夫,而且在游戏画面方面将取得突破,AVP将会完全采用DX11引擎设计,大量使用最新的技术和特效,力图营造出接近电影品质的电脑游戏。


在2560分辨率下运行AVP Demo

    AMD提供的《异形大战铁血战士》Demo还不完整,只能显示静态场景,但已经足以凸出DX11的技术优势和AVP的画面了。以下就是笔者运行游戏时的截图:

    AVP支持DirectCompute 11指令辅助渲染,可以看出在开启计算着色器后,游戏的帧数要比单纯像素着色器渲染更高,DX11高效率的优势体现出来了。

    DX11新增的HDAO(高清晰环境遮罩)技术,效果要优于DX10.1当中的SSAO(屏幕空间环境光遮蔽),但性能损失确实不少,HDAO打开后帧数一下从76降至49。

    动态软阴影开启前后的画面差别还是很大的,性能损失尚能接受。

    开启Tessellation技术前后,异形的模型复杂度提升上百倍。

第四章/第三节 DX11游戏大作:《科林麦克雷:尘埃2》
    《科林麦克雷:尘埃》本身是一款为纪念去世的英国拉力赛车手科林.麦克雷(Colin McRae)而制作的游戏,因此在游戏过程中不难见到许多麦克雷过往的身影。距前作将近二年多之久的《科林麦克雷:尘埃2》主机版已经上市。 登陆平台:Xbox 360、PS3、Wii主机,及PSP、DS掌机。PC版由于支持DX11的缘故,需延至今年12月。

    俗话说慢工出细活,PC版将会带来很多令人惊讶的特效和技术,当游戏机还停留在DX9C画面之时,PC版就可以在DX11模式下使用超高分辨率并开启高倍AA流畅运行,整个游戏都焕然一新了!

    此前DX10引擎的《科林麦克雷:尘埃》绝对是赛车类游戏的画面之王,令《极品飞车》系列黯然失色,此次续作率先引入DX11支持,画面表现更上一层楼,而由于运行效率的提高,对显卡的需求不会太夸张,但至少需要DX11的支持才能体验。

    而性能损失却很小,因为Tessellator是一个额外的模块,不会消耗额外的资源。通过实际截图来看,异形的模型改善不是很多,这主要是因为截图是个静态画面,只有当异形的身体运动起来,才能体现出高精度模型的优势。


第四章/第四节 DX11游戏:《BattleForge》
    《BattleForge》是一款史诗性的大型多人在线即时战略游戏(RTS),将网游和即时战略无缝结合在了一起。游戏不仅保留了即时战略游戏的精髓,并允许玩家在网络环境中与朋友进行卡牌交易和收藏,玩家可以通过收集、交易卡片来组建自己的军队,征服战场。《BattleForge》凭借多人在线的游戏设计及完整的社交沟通系统,一举成为战略游戏界的先锋之作。

    从技术角度讲,这款游戏也非常值得关注,因为它率先提供了对DX10.1技术和屏幕空间环境光遮蔽(SSAO)特效的支持,还针对多核心处理器进行了优化。
    因为支持DX10.1的缘故,A卡在该游戏中的表现十分抢眼,HD4870就能接近GTX285的水平。游戏支持的SSAO技术颇为消耗资源,关闭这项特效FPS几乎可以翻倍。据了解,很快该游戏就会加入对DX11的支持,从而支持更为先进的HDAO特效,画面和速度双重提升。

第四章/第五节 DX11游戏引擎——《Frostbite Engine 2》
    最早宣称支持DX11的就是《霜寒2》(Frostbite2)引擎,DICE胆敢口出狂言也是有资本的,因为ATI DX10时代的Ruby Demo就使用了《Frostbite2》的引擎,这个Demo大量使用了Tessellation技术。如今Tessellation被DX11收入囊中,为游戏提供支持简直是轻车熟路。


让人印象深刻的雪山背景,这就是AMD与DICE合作开发的Ruby Demo

    Frostbite2与Tessellation有较深的渊源,但Tessellation只是DX11的一小部分,Frostbite2除此之外将会使用到很多DirectCompute 11当中的新指令来提高游戏运行效率,对于游戏引擎来说高效率远比高画质来的重要,画面只是展示技术的手段,效率才是吸引游戏开放商的利器,DX11在这两方面都有很大的优势,因此备受业界关注。

    但遗憾的是,Andersson透露《战地:叛逆连队2》只会采用Frostbite 1.X引擎,叛逆连队2支持DX10.0、10.1、PS3、X360,不会采用之前广为流传的DX11 API,因为DX11只属于Frostbite2引擎。



不可思议的地形细节



没有丝毫遮蔽的宏大场景



    上面的一部分截图来自Frostbite Engine 2技术Demo,不清楚究竟是哪款游戏,又或者是引擎专门开发作为演示的。我们可以从中一窥该引擎的能力,尤其是对于自然环境的3D刻画性能。


第四章/第六节 DX11游戏引擎——《Cry Engine 3》
    德国德国Crytek Studios公司旗下的《Crysis》(孤岛危机)及其Cry Engine 2引擎的成功是有目共睹的,至今没有任何一款游戏在游戏画面方面能与之相提并论,也没有哪款游戏对显卡的需求能够超越他,目前最强的单核心显卡在最高特效下运行Crysis都非常吃力,难怪游戏玩家们把Crysis亲切的称之为“显卡危机”。

    Cry Engine 2是DX10的集大成者,它几乎应用到了DX10所衍生出来的所有特效和技术,“滥用”这些特效带来了近乎无敌的画面,同时也制造了空前的“显卡危机”。
    Crysis在游戏玩家心目中有着非常崇高的地位,但却让游戏开发商望而却步,因为它的引擎太过BT,特效经过多次“阉割”后主流的平台依然跑不顺畅。因此没人胆敢使用这款游戏引擎,该引擎更是无法应用在游戏主机平台之上。所以,Crytek在开发Cry Engine 3时将工作中心集中在了优化效能上面,使之能屈能伸,在继续保持画面之王的同时,还能降低需求力图登陆游戏主机。
    目前,关于Cry Engine 3尚无明确的声明显示它会支持DX11 API,但通过此前泄漏的一些资料以及Crytek公司的风格来看,第一时间加入对DX11的支持几乎就是板上钉钉的事实。想必大家也没忘记Crytek的FarCry(Cry Engine 1)就是首批DX9游戏,此后通过补丁率先支持DX9C,为大家带来了美轮美奂的HDR及HDR+AA特效。
    Cry Engine 3将会改进支持如下的新特效,其中很多都与DX11的特性类似:
  • 实时动态光照(Real-time Dynamic Illumination)
  • 延迟光照(Deferred Lighting )
  • 动态软阴影( dynamic soft shadows )
  • 容积云与视距雾
  • 法线贴图与视差遮蔽贴图
  • POLYBUMP 技术支持工具对应多核心与 64bit
  • 屏幕空间环境光遮蔽(SSAO:Screen Space Ambient Occlusion)
  • 综合植被和地形覆盖生成系统(Integrated Vegetation and Terrain Cover Generation System)
  • 新的HDR渲染模式 (Eye adaption & High Dynamic Range Lighting)
  • 运动模糊与景深 (Pristine Motion Blur & Depth of Field)
  • 高品质的水面效果
  • 即时神圣光芒表现 (Dynamic Volumetric Light Beams & Light Shaft Effects)
    与其它想借助DX11推销游戏的策略不同,Crytek是一家力求完美的公司,它不会抢第一这个虚名,而是努力做到最佳。Cry Engine 2在画面方面至今依然是无敌的,资源开销太大不够弹性这个缺点相信Crytek也是心里有数,有了DX11的技术支持,相信Cry Engine 3将会有更完美的表现,让我们一同期待《Crysis 2》的到来吧。


第五章 首颗DX11 GPU:RV870核心架构解析
  • 首颗支持DirectX 11的GPU;

  • 提供最强DX9/10/10.1性能;

  • 为最新的OpenCL 1.0和DirectCompute 11通用计算API提供优化支持;

  • 在功耗不变的情况下实现规格和性能翻倍;

  • 支持3屏甚至6屏超大画面输出。

    以上是ATI对RV870核心的设计目标,我们来看看到底是如何做到的。

第五章/第一节 RV870核心架构图

    自从DX10时代以来,ATINVIDIA双方的GPU架构就没有多大变化,NVIDIA的G9X和GT200都沿用了G80的MIMD(多指令多数据流)标量流处理器架构,而ATI则一直使用R600上面的SIMD(单指令多数据流)超标量流处理器架构。

    RV870的核心架构与R600、RV670和RV770没有本质区别,它是一颗用新工艺制造的、用大量晶体管堆积而成的超高规格GPU。


RV770核心架构图

    RV870相比RV770/RV790除了流处理器数量之外,纹理单元和光栅单元数量也全面翻倍。与同频率的HD4890相比,HD5870的理论数据正好是前者的两倍。

    唯一遗憾的就是,RV870的显存控制器位宽没有翻倍,只是将GDDR5的显存频率进一步提升。因此HD5870的实际游戏性能不可能达到HD4890的两倍,只能是接近两倍。


第五章/第二节 RV870竟然是单芯片“双核心”GPU
    细心的读者应该会发现,此次RV870的核心架构图很有特点,那就是流处理器部分并不是完整的一块,而是被切割为左右对称的两半部分,与之关联的纹理单元及一级缓存也被一分为二:


RV870的流处理器部分

    如果单独拿一半流处理器出来观察的话,就会发现它的结构与RV770几乎没有区别,RV870的一半就是RV770,其主要规格如下:
  • 左右各10组SIMD阵列,每组SIMD绑定4个纹理单元及缓存;

  • 每组SIMD阵列当中拥有16个线程处理器

  • 每个线程处理器中包括5个流处理器

    这样的结构与双核CPU十分相似,两颗“核心”各自独立,独享L1、共享L2和内存控制器等其他总线模块,而两颗“核心”之间则通过专用的数据共享及请求总线通信。那为什么不把流处理器想以前那样设计成为一个整体而要分为两个模块呢?


RV770的流
处理器布局

    AMD绘图芯片研发高级总监王启尚指出,RV870核心拥有规模空前的21.5亿个晶体管,芯片设计及制造难度都相当高,如果把最复杂的流处理器部分拆分为几个模块的话,复杂度就会大大降低,这就能极大的加快研发进度,并一定程度上提高芯片良品率。

    当然RV870依然是一颗完整核心,流处理器部分的模块化设计并不会影响性能的发挥,因为GPU本身就是一颗拥有超多核心的处理器,它并不像CPU那样受到软件因素的制约。但如果两颗独立的GPU通过交火模式组成双核心显卡的话,显卡驱动和游戏优化就变得极为重要了。


第五章/第三节 RV870核心控制引擎
R870的图形架构可以拆分为以下几个模块,一个一个来看都有什么改进:
  • Command Processor(指令处理器
  • Graphics Engine(图形装配引擎)
  • Ultra-Threaded Dispatch Processor(超线程分配处理器
  • Stream Processing Units(流处理器
  • Texture Units(纹理单元)
  • Cache & Buffer(缓存及缓冲区)
  • Shader Export & Render Back-Ends(像素输出部分)
  • Memory Control(显存控制器)
  • Display Controllers(输出接口控制器)

Command Processor(指令处理器)
    Command Processor负责从PCI-E总线发出或者接受指令流,让GPU在驱动程序给定的时间间隔中完成恒定数据流操作,此过程需要通过Parallel DMA Engine,调用系统内存或者是本地显存的相关资源。
Graphics Engine(图形装配引擎)
    之前这个模块被称为Setup Engine,是GPU负责指令分配和安装的模块,主要负责给GPU内部各大模块将要执行的指令准备数据,我们将其称之为装配引擎。装配引擎之中有很多模块,包括Tessellator(镶嵌器)、Vertex Assembler(顶点装配器)、Geometry Assembler(几何装配器)、Rasterizer(光栅器)、Hierarchial-Z(多级Z缓冲模块)等。
    RV870相比RV770,最主要的变化就是拥有两个光栅器和多级Z缓冲模块,而此前的GPU都只有一个。这可不是因为RV870本身是“双核”的关系,因为顶点装配器和几何装备器都只有一个。
    装配过程:顶点数据装配完毕后,顶点三角形内插操作不再使用独立的硬件单元,而是交由流处理器处理,由DX11中新增的外壳着色器和域着色器替代,这两个着色器将辅助镶嵌器进行细分操作,生成新的顶点。
    接下来三角形顶点的2D坐标信息经过Rasterizer(光栅器)之后就得到了像素信息,也就是得到了屏幕上每个点的数据信息。进行这部分操作的时候也经过扫面转换生成了每个点的Z轴信息,这些信息将被传输到Z轴缓冲之中,以备后用。
    现在我们就可以理解为什么RV870要设计两个光栅器和多级Z缓冲模块了,因为DX11 Tessellator的关系,最终的模型将变得十分复杂,需要处理的指令数量很多,合理的分配任务并暂存数据很关键。RV870改进了连续存取缓存时的性能。
    Hierarchical Z是一项非常智能的技术,在GPU完成坐标转换之后,Hierarchical Z会不断对比各个顶点的Z轴位置,一旦Hierarchical Z发现这个顶点不需要显示,将会直接将其剔除避免后续无效渲染,它将有效控制由Tessellator所带来的性能损失。
    即便是在DX9或DX10应用中,双倍的Rasterizer和Hierarchical Z也能大幅提升GPU在高分辨率和多屏超高分辨率下的性能表现。

Ultra-Threaded Dispatch Processor(超线程分配处理器)
    最后,所有的像素/顶点/几何/纹理/颜色等数据经过Interpolators(排序器)之后交给Shader进行处理,当然在此之前还有一项必备的工序,那就是数据的重新封装打包,以及指定相应的统一渲染单元运算,这部分任务由超线程分配处理器完成。

第五章/第四节 RV870流处理器规格特性解析

    继续将RV870的SIMD阵列放大,就可以看到其流处理器的微观架构了。RV870总共拥有320个Thread Processor(线程处理器),这是它不可分割的最小单元,相当于以前的Shader Unit,每个线程处理器内部又包含了5个功能各异的处理核心,因此RV870总共拥有1600个流处理器


RV870的Thread Processor结构图

    在线程处理器内部,这5个流处理器是在Branch Unit(分歧执行单元)的控制下处理数据流和条件运算,在General Purpose Registers(通用寄存器)中存取或输出数据,但并不存放指令。与传统GPU ALU架构不同的是,这5个流处理器可以在动态流控制的支配下自由的处理任何组合形式的指令,诸如1+1+1+1+1、2+2+1、4+1等组合形式。

    宏观上RV870依然是SIMD(单指令多数据流)矢量架构,但在微观上可以称之为超标量架构(Superscalar),完美支持Co-issue(矢量指令和标量指令并行执行),单时钟周期可以进行5次MAD(Multiply-Add,乘加)运算。另外还可以看到,5个1D ALU其中有个“胖”一点的,它除了MAD之外还能够进行一些特殊(SIN、COS、LOG、EXP等函数)运算,在特殊条件下提高运算效率!
    在流处理器部分,RV870加入了DX11新增的位操作类指令,并优化了Sum of Absolute Differences(SAD,误差绝对值求和)算法,指令执行速度提升12倍,此项指令可以在OpenCL底层执行。SAD算法应用最多的就是H.264/AVC编码的移动向量估算部分(约占整个AVC编码总时间的80%),如此一来使用RV870做视频编码类通用计算时,性能会大幅提升!
    RV870的单精度浮点运算能力为2720GFLOPS,双精度浮点运算能力为单精度的1/5,也高达544GFLOPS。对手GTX285的单精度浮点运算能力为1063GFLOPS,但双精度下降为1/8,仅133GFLOPS,很难满足高精度的科学计算领域的需要。


第五章/第五节 纹理单元和缓存
图形渲染部分:
    RV870的纹理单元及一级缓存是与SIMD流处理器阵列绑定的,左右各10组SIMD阵列,每组SIMD绑定4个纹理单元及缓存。虽然RV870的流处理器及纹理单元数量全面翻倍,但是每组SIMD阵列所独享的数量却没有增多,但RV870对它做了一些改进。

  • 纹理带宽提升:每秒可完成680亿次双线性过滤,2720亿次32bit纹理拾取

  • 一级缓存:容量160KB,带宽1TB/s

  • 二级缓存:容量512KB,带宽435GB/s

  • 新的DX11特性:支持16kx16k纹理,新的BC6/7 HDR纹理压缩算法

    除了DX11的新特性外,RV870在纹理单元部分的改进可以让所有游戏受益,它可以支持完美无角度的各向异性纹理过滤,而性能衰减幅度与之前的AF算法一致,通过理想的细节度调整确保更高的纹理贴图质量。

通用计算部分:

  • 全芯片共享一个64KB的Global Data Share(公用数据缓存)
  • 每个SIMD阵列共享32KB本地数据缓存,共20组,可弹性配置
  • 纹理单元在通用计算中负责数据拾取,每组纹理单元(4个)共享8KB一级缓存,共20组
  • 每个显存控制器绑定128KB二级缓存
  • 支持DirectComput 11中的附加缓冲利用技术

第五章/第六节 光栅单元和抗锯齿

    同纹理单元类似,RV870的光栅单元数量也是全面翻倍,因此抗锯齿性能同比提升一倍。除此之外,还有不少改进:

  • 纹理单元可直接读取光栅单元中的色彩缓存数据

  • CFAA(可编程过滤抗锯齿)性能大幅提升

  • 采样率提升,高倍AA效能改进

  • 有能力直接提供最高画质的SSAA(超级采样抗锯齿)

  • AAA(自适应抗锯齿)和CFAA可以与SSAA完美兼容

    根据AMD官方提供的数据来看,HD5870在开启8xAA模式后,性能相比4xAA下降幅度非常小,而对手单核最强的GTX285则在8xAA模式下性能损失非常大。RV870翻倍的光栅单元数量及改进的算法功不可没!



第五章/第七节 更高频更节能的第四代GDDR5
    RV770首次了GDDR5显存,但其威力尚未被完全释放出来,HD4870的显存频率只有900MHz(等效3600MHz),而且由于是第一代产品,GDDR5很多优秀的特性没能得到发挥,导致功耗与发热比较大。
    GDDR5标准是在AMD的主导下建立的,在发现问题之后,AMD在RV790核心与RV740核心中改进了显存控制器,解决一些问题,从而使得GDDR5的功耗得到了很好的控制。

    RV870核心则再次改进了显存控制器,AMD称这已经是第三代GDDR5显存,此次GDDR5的频率被一举提升至1200MHz(等效4800MHz),真正达到了双倍于GDDR3的频率,与此同时功耗控制却做的相当出色,使得HD5870空闲时的功耗得以降至难以想象的27W!
RV870为什么不使用384/512Bit显存控制器?
    通过前文的介绍可以知道,在RV870内部几乎所有的硬性规格都翻了一倍,唯独显存控制器依然保持256Bit不变。要知道光有翻倍的流处理器和纹理单元,还不足以使得RV870的游戏性能相比RV770提升一倍,那为什么RV870不使用更高的384或者512Bit显存控制器呢?
    AMD绘图芯片研发高级总监王启尚指出,由于GDDR5显存的频率是GDDR3的两倍,因此上代的HD4870和HD4890能够以256bit达到接近于512bit的显存带宽,超过100GB/s的显存带宽对于RV770/RV790核心来说有些富裕,因此玩家们超显存所带来的性能提升并不显著,超核心则能获得较大的提升。
    对于RV870核心来说,由于流处理器、纹理、光栅全面翻倍,对于显存带宽的需求也水涨船高,此时第一代GDDR5的带宽有些捉襟见肘,所以AMD使用了频率更高的第三代GDDR5,此时150GB/s的带宽虽然还是满足不了RV870的胃口,但也不至于造成瓶颈,玩家们通过超核心和超显存都能获得较大幅度的性能提升,可以说核心规格和显存规格达到了一个比较平衡的比率。
    如果使用512Bit显存控制器的话,自然也能获得性能提升,但是要付出很大的代价——512Bit控制器要占据不少晶体管,使得GPU核心面积大增,而且512Bit需要至少16颗显存,显存采购成本和PCB及供电设计难度都很大,可谓是牵一发而动全身,得不偿失。
GDDR5显存的主要特性及优势
  • 使用DDR3的8bit预取技术,实现相同带宽所需的内核频率减半;
  • 采用双I/O总线,实现相同带宽所需的I/O频率减半;
  • 额定电压从1.8V降至1.5V:功耗进一步下降;
  • 数据和地址总线转位技术:信号质量高、功率消耗少;
  • 智能的可编程I/O控制接口:简化PCB设计和成本;
  • 数据遮盖技术:减轻数据总线压力;
    关于GDDR5显存更详细的技术解析请看“剪不断理还乱!DDR1-3和GDDR1-5全解析”一文。

HD5870第三代GDDR5显存的特性
  • 错误侦测和校验:提高高频率下的传输效率,避免灾难性错误;
  • 显存频率和温度补偿:在5GHz以上高频率下工作时更稳定可靠
  • 电压和频率快速切换:允许通过降频和降压的手段大幅降低显存功耗与发热

    可以看到,在2D模式下,HD5870的核心频率从850MHz降至157MHz,显存频率从1200MHz降至300MHz。目前最强的核心搭配最强的显存,待机功耗居然只有27W,真是不可思议!


第六章 ATI Eyefinity三屏/六屏显示技术解析
第六章/第一节 单纯提升分辨率已经达到上限
    近年来,GPU的性能翻了无数倍,画面和特效有了质的飞跃,但最终输出的图像分辨率却是一成不变的——1920x1080是目前的绝对主流,2560x1600就已经是上限了,为什么分辨率不能再大一点呢?


双Dual-Link DVI的配置已经沿用好多年没变过了

    瓶颈就在液晶显示器面板的制造上面,切割液晶面板跟切割硅晶片有些类似,面板/核心越大,良品率就越低,成本就越高,几乎成级数增长。硅晶片出了问题还能够激光修复或者屏蔽,正常使用完全没有问题,而一整块液晶面板有较多坏点的话,相信没人愿意买单。


单纯提升分辨率达到了液晶面板的极限

    所以,高分辨率的液晶面板都是天价,主要供医疗、科研、遥感等需要处理高精度图像的专业领域使用,难以进入消费级市场。对于游戏玩家来说,顶级的30寸显示器所提供的2560分辨率就是最高级别,3840分辨率的专业显示器刷新率只能到30Hz,而且点距尺寸太小,根本不适合玩游戏。
    既然分辨率无法继续提升,解决方法只有一个,那就是组建多屏系统。相信很多人都有双屏应用的经验,对于多任务来说,双屏可以获得更大的自由分配空间,有利于提高工作效率;但对于游戏玩家来说,双屏几乎毫无用处,主屏玩游戏的话无法同时对副屏操作,如果双屏扩展的话对于游戏简直是个噩梦!

    对于游戏玩家而言,双显示器是没有意义的,当扩展分辨率之后,您所面对的屏幕最中间始终是显示器的黑边,从玩游戏的角度来说,不需要双显示器、四显示器更没必要,只有三显示器才适合人类的视角——中间需要一个主屏幕,两边用来扩充视野。那么现在的问题就是单显卡只能双头输出而且性能有限,SLI/CrossFire和Quad SLI仅能单头输出,怎么办呢。


第六章/第二节 Matrox三屏环幕技术回顾
为什么要三头输出:
    实际上在此之前Matrox和NVIDIA/ATI都在专业2D领域拥有四头甚至多头输出的解决方案,为什么Matrox还要努力推行三头输出技术呢?这是因为专业显卡和游戏显卡的划分是泾渭分明的,能够多头输出的无法玩游戏,玩游戏的无法多头输出,难道就没有完美的解决方案吗?


幻日系列只有两个DVI,但却是完美的三头输出

Matrox在消费级市场的最后一款显卡——“幻日”,本来就是针对主流市场设计的,Matrox既想要保持完美的2D输出,还要保证强悍的3D游戏性能,另外就是加入了真正的三头输出支持。听起来非常完美,很可惜这款显卡失败了,Matrox也带着自己的遗憾黯然离去,NVIDIAATI继续疯狂的在3D速度和规格方面厮杀——用Matrox的话说在显示和输出方面不思进取。
神奇的三头输出解决方案诞生——TripleHead2Go(3D环幕仪):

   

终于,Matrox在之前DualHead2Go的基础上,成功的研发了三头输出的TripleHead2Go,中文名称为3D环幕仪。Matrox带来的3D环幕仪能够像变魔术一样让一个显卡的输出口扩展为三个,由此实现三屏幕环幕游戏或者是四屏幕专业作图显示。


3D环幕技术玩帝国时代III

    千万不要以为TripleHead2Go单纯的比DualHead2Go多了一路输出而已!TripleHead2Go是一款极具创意的全新产品,它能够把三个显示器模拟成为一个超宽屏幕的显示器,从而让游戏画面能扩展输出至全部的三个屏幕,而多块显卡虽然理论上能支持数十个屏幕,但大多数游戏都无法支持多屏输出。

    TripleHead2Go的设计理念很有意思,但缺点也很明显,它只能通过VGA模拟输出,仅能支持1280x1024的普通显示器,没法支持更高分辨率的显示器。因为它的功能只是将显卡的一个输出接口拆分成三个接口,这样三个接口的总分辨率不可能超过Dual-Link DVI 2560*1600=409600的像素限制,而1280*1024*3=3932160则刚刚好,再高一点点都不行。

    再者,这个显示盒也价值不菲,驱动设置更新比较麻烦,还有跟游戏也存在一些兼容性问题。最主要的问题还是无法兼容中高分辨率的显示器,因此未能成为主流。

第六章/第三节 ATI的惊人设计 RV870最多支持六屏输出

    当Matrox的TripleHead2Go快要被遗忘的时候,ATI拿出了惊人的设计方案,在首颗DX11 GPU RV870当中直接集成了一个6通道的显示控制器——无需任何外接芯片或者输出方案,而且这六个通道都能支持2560x1600分辨率的10bit色显示!

    这项技术ATI称之为“Eyefinity”,最多可以通过DisplayPort输出六个屏幕,不过本次发布的HD5870仅能支持三个屏幕,是ATI故意限制了输出吗?

    其实是Dual-Link DVI的问题,无论如何它都要占据两个显示通道。但市售30寸显示器标配就是Dual-Link DVI,HD5870为了保证兼容性和易用性,设计了两个DVI接口,导致最多只能实现三屏输出。不过三屏输出对于游戏玩家来说刚好合适,四屏和六屏都有些别扭。

    确实有六屏输出的需要,那么可以购买HD5870 Eyefinety6版本,它直接提供了6个DP接口,搭配响应的显示器或者转接头,就能实现完美的六屏输出。

    目前,一块支持4口DP输出的2D专业显卡售价就高达6000多人民币,那史上最强的首款DX11游戏显卡支持6口DP输出的话相信也不会便宜,但也不会那么离谱。

第六章/第四节 灵活多变的三屏六屏输出方案一览

    有了强大而弹性的显示控制器以及ATI Eyefinity技术,HD5870在连接多显示器的时候也很方便甚至随意,单卡的时候可以按需要排列最多六台不同规格的显示器,四卡并行则最多能支持24台显示器组成一个宽广的显示墙。


竖排或横排平放三台显示器,这是最常见的应用
四台或者六台的排列组合形式就太多了


6口版本6屏输出的输出形式组合


普通4口版本3屏输出输出接口的组合形式

    Eyefinity技术已经被完全整合在了催化剂驱动当中,ATI的HydraVision桌面管理器从此变得更加强大。多屏显示的设置既方便又灵活,我们只要根据需要将几台显示器按照排列顺序绑定在一起,就能实现各种奇怪的分辨率。

    然后,只要游戏能够支持非标准宽屏分辨率的话,就能将游戏画面横向或者纵向扩充至所有的显示器,但如果游戏不支持的话,画面将会被拉升。经过笔者的实际测试来看,只有较老的显示器不支持超宽屏显示,较新的游戏一般都不会有问题。

第六章/第五节 三屏/六屏输出玩游戏震撼效果展示

飞行模拟游戏:

赛车游戏:

FPS游戏:

RTS游戏:

几乎所有的主流游戏都支持各种组合形式的特殊多屏(分辨率)模式


第六章/第六节 编辑实战测试HD5870三屏玩游戏
    为了测试HD5870的三屏输出效果,笔者特地找来两台Dell 3007和一台3008,组成2560x1600x3的超强分辨率,来测试HD5870的极限游戏性能。

    通过驱动中的HydraVision桌面管理器可以很方便的将三台显示器绑定在一起,然后整个桌面就会变成7680*1600的超宽分辨率,绝大多数支持宽屏的游戏中也会直接显示出这个特殊的分辨率,无需太多繁琐设置。


跑Crysis Benchmark的效果


魔兽世界,铁炉堡一览无余


极品飞车13,道路两旁尽收眼底


FarCry2广袤的大草原


Google Earth实际效果图

    我们测试过的众多游戏对三屏的支持都非常好,只有街霸4有点问题,街霸4虽然能支持超宽分辨率,但它的纵横比其实是固定的,当横向尺寸固定扩充三倍之后,纵向尺寸就会相应裁剪,由此导致实际显示的画面不但没有增多反而减少了。

    而其他所有的游戏,两边显示器所显示的画面,完全就是但显示器看不到的景色,超宽的视角对于任何类型的游戏都能起到很好的辅助作用。

第七章 HD5870显卡实物赏析

第七章/第一节 AMD官方HD5870高清晰美图大赏

    首先我们来看一组AMD官方提供的HD5870显卡高清晰、多角度艺术照片,分辨率均为2560,很多都可以收藏当作桌面壁纸(没打Logo):

第七章/第二节 HD5870显卡实物拍摄图

    HD5870显卡的设计风格不同与以前的任何一块A卡,色调搭配为黑里透红,看上去更像是一块专业显卡,而不是民用的游戏显卡。下面为我们泡泡实拍的测试样卡照片:


黑色的塑料外壳为磨砂设计,手感不错


背面没有任何芯片,但也安装了金属背板,起到加固并辅助散热的作用


末端的开口看上去很像电源接口,其实是涡轮风扇的辅助进风口

    输出接口异常丰富,在传统的两个Dual-Link DVI接口之外,还安置了一个DisplayPort和一个HDMI接口。HD5870是继幻日之后,第二款能够提供三头输出的消费级显卡,在这四个数字接口中,最多可以同时使用其中的任何三个,因此最常见的连接方法就是两个DVI加上DP,可以同时输出三个2560x1600的超高分辨率。

    由于四个输出接口占据了较多的位置,导致散热器出风口偏小,因此HD5870在正上方也设计了排风口,确保散热器效能不会降低,但这样做会导致一半的热风未能吹到机箱之外,加重了系统的整体散热负担,实际上GTX295也迫不得采用了这种设计。

第七章/第三节 HD5870是最轻的高端卡


体积上,HD5870的长宽高都与HD4870X和GTX295完全相等,都是双槽设计

    在体重方面,HD5870的优势就体现出来了,由于核心和显存的发热较低,铝制散热片和塑料外壳的使用大大降低了整体重量。较低的重量显然能够减轻机箱的负担,防止长期使用发生PCB变形的情况。

第七章/第四节 HD5870显卡拆解:40nm核心与GDDR5显存
    一体式的散热器还是很好拆的,拆开之后就会发现HD5870与上代HD4870的设计风格非常相似,ATI原厂卡常见的数字供电非常眼熟。


热管+铝质散热片+涡轮风扇,一体式散热设计


密密麻麻的元件再现原厂卡风范


RV870核心采用斜45°封装,防止散热器压坏边角

    RV870核心拥有高达21.5亿晶体管,达到了上代RV770的2.25倍。但在40nm工艺的支持下,核心面积却只从263mm2升至334mm2,增幅只有1.27倍(比400mm2的GT200b核心小很多)。因此RV870的规格虽然听起来很吓人,其实功耗和发热不会很高,成本也会随着40nm工艺投入量产、良品率提高而直线下降。
    HD5870的默认核心频率为850MHz,这个频率与HD4890完全相同,看来这个频率设定还是很保守的,40nm的优势尚未完全发挥,未来推出更高频率的HD5890也未尝不可。


三星0.5ns GDDR5颗粒,32Mx32颗粒,8颗组成1GB 256Bit的规格

    显存方面,力挺GDDR5的奇梦达虽然已经破产,但三星后来者居上,此次HD5870使用了0.4ns的颗粒,理论频率5000MHz,而HD5870的默认显存频率是4800MHz,相信还有不少超频的空间。

第七章/第五节 HD5870显卡拆解:豪华的数字供电

    与N卡相比,A卡在做工用料方面一直都以奢华而著称,超强的数字供电让NFan看着都眼红,此次HD5870的整卡最高功耗为188W,甚至比HD4890还要低2W,但供电部分的设计依然一丝不苟。


TDP下降,两个6Pin供电接口就够用了

    下面就详细解析HD5870的供电设计,依然是VOLTERRA的数字式方案:


核心供电主控芯片:VT1165MF

    GPU核心供电主控芯片为VT1165MF,它最多可以支持六相供电,此处只设计了四相,预留了一相空焊位。此前绝大多数数字供电显卡的核心主控都是VT1165MF,比如HD2900XT、HD4870、4890、GTX280等。


核心供电为四相,使用了一个连体四胞胎电感,MOS为四颗VT1157SF

    VT1157SF是新型号的整合式IC+MOS,额定电流是多少并不清楚,如果按30A来算的话四相也有120A,这个数值已经不低于HD4870了,而且RV870的I/O接口部分有单独的一相供电:


核心I/O供电:VT1157SF

    这是位于显卡PCB前端的一相供电,同样是VT1157SF整合式MOS芯片,它专门负责给GPU的显存控制器及I/O部分供电,以活动更纯净更稳定的电流,确保GDDR5能够高速正确的与GPU协同工作。


显存供电:两颗VT243WF

    显存供电为两颗VT243WF,并没有电源主控芯片,因为这颗VT235WF的集成度更高,它将主控芯片、驱动IC电路和MOS管全部整合在了一起,因此看上去VT235WF比VT1157SF的芯片面积要更大一些。两相式供电为显存提供了最大60A电流,可满足超高频率下稳定运行。
    因此HD5870的供电设计就是4+1+2相,它还可以被扩充成5+2+2相,ATI原厂卡的供电设计一直都很冗余,非常适合玩家超频之用。数字供电还有另外一项优势就是,可以通过软件直接给核心与显存加压,而不用硬改电路,从而降低了风险,更有利于极限超频冲击世界记录。


第八章 显卡性能测试

    40nm工艺、21.5亿晶体管、1600个流处理器、六屏DP输出、第一款DX11显卡——这就是RV870核心Radeon HD5870显卡给我们带来的恐怖数字。HD5870荣登最强单核心显卡宝座已毫无悬念,那它能否击败自家上代双核心的HD4870X2,撼动对手GTX295的王者地位呢?

第八章/第一节 顶级测试平台配置


PCPOP.COM评测室



硬件系统配置



处理器



Intel Core i7 975



3.33GHz L3=8MB 四核八线程)






MSI X58 Eclipse






HD5870 1GB (850/4800MHz)
HD4870X2 2GB (750/3600MHz)



HD4890 1GB (850/3900MHz)
GTX295 1792MB (576/1242/1998MHz)
GTX285 1GB (648/1476/2484MHz)






CORSAIR Dominator TWIN2X2048-10000C5DF



DDR3-1600(9-9-9-24-1T)






日立1TB






海盗船 1000W



软件系统配置



  操作系统



Windows 7 RTM 7600.16385 64Bit



  DirectX



11




显示驱动



NVIDIA Forceware 190.89 Beta



ATI Catalyst 9.9



● 顶级平台——Core i7 975

    i7 975是目前Intel最强的CPU,主频比965更高,达到了3.33GHz,45nm High-K工艺制造,拥有8MB三级缓存,还支持超线程技术(四核八线程),这样即便是双高端显卡系统也不会受制于处理器瓶颈。

● 顶级平台——DELL3007 显示器

    既然是顶级卡,我们就要用最顶级玩家的使用环境来测试,我们选定分辨率为1920×1200(24寸宽)和2560×1600(30寸宽)两种高端玩家最常用的分辨率做测试。

    所有的游戏默认都开启最高特效,其中包括至少4xAA,如果支持8xAA的话也将进行测试,如果游戏内置AF支持的话,就直接调至最高的16AF。

第八章/第二节 DX9C理论性能测试:3DMark06

    游戏介绍:3DMark06作为DX9C权威的理论测试工具,包括了两个SM2.0测试和两个SM3.0测试场景,基本上达到了DX9C的画面最高境界。虽然HD5870的发布宣告了DX11时代的来临,但考虑到至今仍有不少新游戏依然采用DX9C引擎,加入3DMark06的测试结果对于很多主流游戏都有参考价值的。

    画面设置:如今3DMark06已经难不倒高端显卡了,高端显卡在3DMark06中难分高下,所以我们只能最大程度的提高它对系统的要求,比如说提高分辨率开启抗锯齿等。所以我们选定了在2560×1600最高分辨率开启4AA16AF以及最高的8AA16AF模式下,测试其总分和SM3.0成绩。

    虽然HD5870的理论核心渲染能力要比HD4870X2更强,但毕竟显存带宽和容量方面比较吃亏,此消彼长之下HD5870的成绩能够如此接近于HD4870X2,对于玩家来说已经是个惊喜了。

    作为同时代的双核心显卡,GTX295的综合实力要强于HD4870X2,所以HD5870想要超越它确实比较艰难。但在最高的8xMSAA模式下,GTX295败给了HD4870X2和HD5870,通过成绩分析来看GTX295的SM3.0性能是个软肋,看来是HDR+AA效能较低所致。

第八章/第三节 DX10理论性能测试:3DMark Vantage

    游戏介绍:3DMark Vantage所使用的全新引擎在DX10特效方面和《孤岛危机》不相上下,但3DMark不是游戏,它不用考虑场景运行流畅度的问题,因此Vantage在特效的使用方面比Crysis更加大胆,“滥用”各种消耗资源的特效导致Vantage对显卡的要求空前高涨,号称“显卡危机”的Crysis也不得不甘拜下风。

    画面设置:3DMark Vantage中直接内置了四种模式,分别为Extreme(旗舰级)、High(高端级)、Performance(性能级)和Entry(入门级),只有在这四种模式下才能跑出总分,如果自定义模式就只能得到子项目分数了。我们为这次的顶级卡对决选择了最高的Extreme模式,它其实就是最高画质1920x1200分辨率再加上4AA16AF模式。

    测试方法:N卡支持PhysX,在CPU测试子项中成绩会翻几倍,最终总成绩会提高不少,由于本次测试主要考验显卡的渲染性能,因此在N卡驱动中关闭物理加速,避免CPU成绩影响总成绩。

    此前的诸多测试表明,3DMark Vantage比较偏重与Shader性能,显存方面的影响并不大,于是频率更高的HD5870终于完成了对HD4870X2的超越。

    但GTX295依然更胜一筹,两颗GT200核心加起来共有28亿晶体管,跟21亿晶体管的RV870不是一个级别,有如此性能表现并不意外。

第八章/第四节 DX10渲染性能测试:3DMark Vantage子项

    测试方法:3DMark Vantage除了常规的四个GPU和CPU测试场景外,还提供了六个特性测试项目,每一项都针对特定的图形硬件功能,并将其推向极限。与图形测试的大量特效、技术和内容不同,填充率测试不影响3DMark Vantage总分和GPU子分数,也不受预设值的影响,只考验GPU的实际性能可否达到理论值。

多重纹理填充:将纹理坐标数值通过旋转、缩放的形式填充到整个屏幕

色彩填充:16Bit浮点格式HDR颜色反复绘制通过Alpha通道直接写入渲染目标

视察映射贴图:高度图+全局光照渲染层次感鲜明的物体表面

GPU加速布料:通过顶点着色和几何着色配合绘制大量变换位置的顶点坐标

GPU独立渲染大量相互碰撞的粒子:将顶点着色压到极限的考验方法

噪声动态生成纹理和体积云雾:纯像素着色计算噪声函数

    以上纯理论性能测试成绩仅供参考,并不能代表实际游戏性能。

第八章/第五节 DX10游戏:《孤岛危机》

    游戏介绍:Crysis(孤岛危机)无疑是现阶段对电脑配置要求最高的PC游戏大作。Crysis的游戏画面达到了当前PC系统所能承受的极限,超越了次世代平台和之前所有的PC游戏。Crysis还有个资料片Warhead,使用了相同的引擎,只是多了一个关卡,因此我们还是使用原版做测试。

    画面设置:Crysis只有在最高的VeryHigh模式下才是DX10效果,但此前所有高端显卡都只能在低分辨率下才敢开启DX10模式,如今HD5870单卡性能都可以直逼上代双核心显卡,那么能否在高分辨率下征服Crysis呢?测试分辨率选择了1920x1200和2560x1600两种,都开VeryHigh,分为不开AA和4xAA两种模式。

    测试方法:Crysis内置了CPU和GPU两个测试程序,我们使用GPU测试程序,这个程序会自动切换地图内的全岛风景,得到稳定的平均FPS值。

    在1920全高清分辨率下,无论是否开AA,HD5870都能保证30帧的最低要求,这是首款能够流畅运行Crysis的单核心显卡,有“显卡危机”之称的DX10游戏终于被DX11显卡所征服!

    提高至2560分辨率后,此时对显存的要求更加苛刻HD5870与HD4870X2的差距被缩小。整体来看GTX295的性能还是要高于两款A卡的,但在开启4AA的模式下三者处于同一水准,看来还是A卡的抗锯齿效能更高一筹。

第八章/第六节 DX10游戏:《冲突世界:苏联进攻》

    游戏介绍:《冲突世界》将带领玩家返回著名的冷战时期,玩家每一个决定均影响游戏中人物和情节。可于游戏中感受不一样的团队精神,与队友于阴森恐怖的战场上一同作战。《苏联进攻》是其最新的资料片,收录全新角色、扮演苏联军队、10套新影片和全新多人联机地图等等。

    画面设置:《冲突世界》是首批DX10游戏之一,采用了自行研发的MassTech引擎,支持多种当前的主流显示特效,如容积云,景深效果,软阴影等,光照系统也表现出色,尤其是半透明的容积云特效营造出了十分逼真的户外场景,物理加速结合体积光照渲染出了最逼真的爆炸效果。

    测试方法:内置Benchmark是一段非常华丽的过场动画作为测试程序,最终得出最大、最小和平均FPS,测试结果非常精确。WIC最高支持4AA,因此我们只测试4AA模式,分为1920和2560两个分辨率。

    这款游戏对显存带宽十分敏感,直接导致HD5870的表现不理想,但HD4870X2的表现不俗,甚至比GTX295还要强悍。

第八章/第七节 DX10游戏:《生化危机5》

    游戏介绍:09年3月初,《生化危机5》成功登陆PS3和XBOX360平台,并在首日就创下了400万的惊人出货量,向玩家证明了《生化危机》系列的成功。上周末,Capcom终于确定了《生化危机5》(ResIDEnt Evil 5)PC版的发售日期,于09年9月18日在欧洲地区上市。
    《生化危机5》游戏故事设定在1代洋房事件10年后,主角为原S.T.A.R.S队员克里斯(Chris),他曾在1代中担任主角。游戏承袭《生化危机4》的基本系统,同样采用第三人称背后视点的动作冒险方式呈现。不同于先前系列作惯用的黑暗场景未知恐惧感,本代将以明暗激烈转变下所造成的短暂视力丧失,来展现另一种不同的恐惧感。
    画面设置:《生化危机5》是一款很有特点的DX10游戏,在开启DX10的情况下,它不但运行速度更快,而且在HDR和纹理方面的表现更出色,这是传统低效率DX10游戏所无法比拟的。
    测试方法:游戏自带Benchmark,1920和2560两种分辨率,4AA和8AA两种模式

    也许是游戏尚未正式发布的原因,A卡在测试版游戏中的表现差强人意,而N卡在新驱动的支持下性能表现十分出色,最顶级画面设置下都能有流畅的FPS。
    ATI驱动在更新速度方面一直无法同NVIDIA相提并论,此次我们拿到的驱动为HD5870专用的内部版本,并未对这款刚刚泄漏的游戏进行优化,希望未来在新驱动当中有所改进。

第八章/第八节 DX10.1游戏:《鹰击长空》

    游戏介绍:《鹰击长空》由Ubisoft旗下的Bucharest Studio工作室所研发制作而成,以汤姆克兰西最擅长的近现代国际冲突为背景,加上现代化的军事武器,和五角大厦不愿证实的开发中的先进武器,交织出最激烈的高科技攻防战。而《鹰击长空》也脱离前面几项作品的框架,将战争从地面拉拔到空中,享受广大无界限的战斗空间。

    画面设置:《鹰击长空》直接内置了对DX10和DX10.1的支持,它会自动检测显卡最高能支持的级别。通过此前的测试来看DX10.1并不会让画质变得更高,但的确能够让游戏跑得更快。我们使用1920和2560两种分辨率,4AA和8AA两种模式进行测试。

    测试方法:游戏自带Benchmark,A卡开DX10.1模式,N卡开不了。

    从4xAA到8xAA,N卡的性能下降幅度明显要比A卡高,DX10.1在MSAA方面的改进让A卡受益颇多。在2560 8AA这种严酷模式下真正能流畅运行的就只有HD5870了。分辨率越高、抗锯齿精度越大,HD5870的优势就越显著。

第八章/第九节 DX10.1游戏:《潜行者:晴空》

    游戏介绍:《S.T.A.L.K.E.R.:晴空》是《S.T.A.L.K.E.R.》的前传资料片,会讲述一个发生在2010年的故事,在前作当中没能体现的创意都被应用在了《晴空》当中。切尔诺贝利的历史、地理特质和基本生活环境都将被一一展现,新作NPC的智能更高,玩家还能扮演NPC的领导者,游戏乐趣更上一层楼。

    画面设置:与前作还停留在DX9C的画面特效相比,《晴空》加入了大量DX10特效(神光、柔和粒子、SSAO、动态容积雾、动态浸润表面),让游戏画质全面提升了一个档次。除了支持DX10外,《晴空》还通过一个升级补丁对DX10.1提供了支持,采用了Alpha-to-Coverage技术,对于阳光阴影增加了新的Ultra画质模式,同时会通过DX10.1技术来实现更好的光晕渲染,并使得游戏性能进一步提升。

    测试方法:使用官方Benchmark包进行测试,A卡开启DX10.1模式,N卡只能使用DX10模式。分辨率为1920和2560,分为不开AA和4xAA两种模式。

    很遗憾HD5870没能超越HD4870X2,但我们可以注意到在不开AA时两者差距较大,但开启AA后性能完全相同,由此可见HD5870确实拥有更强的抗锯齿效能。

    GTX295的表现与HD4870X2比较类似,不开AA时性能不错,开AA后下降很明显,2560 4AA下干脆无法完成测试,看来不支持DX10.1确实很吃亏。

    值得一提的是,《晴空》对于DX10.1的支持比《鹰击长空》更完美,开启DX10.1不但能够提高性能,还能进一步提升抗锯齿和光影画质,“DX10.1无用论”不攻自破。

第八章/第十节 DX10游戏:《孤岛惊魂2》

    游戏介绍:自《孤岛惊魂》系列的版权被UBI购买之后,该公司蒙特利尔分部就已经开始着手开发新作,本作不但开发工作从Crytek转交给UBI,而且游戏的故事背景也与前作毫无关系,游戏的图形和物理引擎由UBI方面完全重新制作。

    画面设置:借助于蒙特利尔工作室开发的全新引擎,游戏中将表现出即时的天气与空气效果,所有物体也都因为全新的物理引擎,而显得更加真实。你甚至可以在游戏中看到一处火焰逐渐蔓延,从而将整个草场烧光!而且首次对DX10.1提供支持,虽然我们很难看到。

    测试方法:游戏自带Benchmark工具。

    在4AA模式下,HD5870和HD4870X2的性能差不多,但在8AA模式下,HD5870超高AA效能的优势就体现出来了。

    在顶级的2560 8AA模式下,GTX295因为显存不足已经无法运行完整个测试了,而HD5870则依然保持较高的效能,拉开了与HD4870X2的差距。

第八章/第十一节 DX9C游戏:《街头霸王4》

    游戏介绍:CAPCOM公司于1987年推出的大型电玩机台格斗游戏《街头霸王》,堪称目前格斗类游戏的始祖。经过了20多年的不断演化之后,如今的PC版《街头霸王4》不仅在画面上走向了全新方向,而且加入了各种新系统,试图让传统2D格斗游戏得到重生。
    画面设置:街霸4 PC版和游戏机版相比,除了支持高分辨率输出之外,还为玩家提供了画面渲染风格选择的功能,除与家用机版一样的“普通”模式外,还有“水彩”、“海报”和“烟灰墨”这三种追加的渲染风格,带给完全全新的视觉体验。

    测试方法:由于DX9游戏对显卡要求并不高,因此我们直接上最高的2560分辨率进行测试,并开启4AA和8AA两种模式,测试时使用游戏自带Benchmark。

    令人奇怪的是,A卡开启8AA后性能比4AA几乎没有下降,而N卡的损失则很大。看来AMD称RV870拥有极强的8xAA效能绝非大放厥词,通过大量的游戏测试来看,HD5870在大多数游戏中开启8xAA后的性能损失都要低于N卡。


第八章/第十二节 DX9C游戏:《极品飞车13:变速》

    游戏介绍:作为极品飞车系列游戏的最新作品,《极品飞车:变速》早在发布之前就倍受媒体关注,而这其中不仅仅是IT、游戏媒体,专业的汽车媒体也对这款游戏给出了不少的报道。世界顶级汽车厂商也纷纷对这款游戏的开发给了很大的赞助,游戏中随处可见汽车厂商的广告。据统计,《极品飞车:变速》这款游戏一共包含了72辆世界顶级跑车,所涉及厂商也多达数十个,可见各大汽车厂商对这款游戏的关注。特别是宝马公司,细心的朋友应该可以看出,正版游戏封面的车辆正是宝马的M3 GT2,而游戏中练习赛所采用的车辆也是来自宝马公司的产品。
    游戏画面:极品飞车13依然沿用了前几代的游戏引擎,还是DX9C并未进入DX10时代,但EA对画面进行了精心优化,并信誓旦旦的称极品13绝对是目前画面最强的赛车游戏。此外极品13还采用了PhysX物理引擎,但只使用CPU进行演算,因此A卡不会有性能损失。
    测试方法:由于《极品飞车:变速》并没有提供BenchMark程序,同时AI非常智能,这样就会导致游戏每次在同样的赛道上同样的开车,都可能走出不同的路线或者其他效果,这给我们评测带来了很大的麻烦。最后,我们只能找一段路况较好的车道,并在游戏开始前就统计帧数,直到一次撞墙结束后,再计算其平均帧数,下面的视频就是测试的赛道。

    和街霸4类似,极品13开启8AA模式后,A卡的性能下降幅度都很小,而N卡损失惨重,双核心GTX295在4xAA模式下很强大,但8xAA下被轻易超越,的确很遗憾。

第八章/第十三节 物理游戏:《镜之边缘》

    游戏介绍:《Mirror's Edge》主机版本一上市就获得了莱比锡GC大会的“最佳XBox360游戏”,E3的“最佳原创游戏”等多项大奖,是一款风格独特的“主视角逃跑”游戏作品。玩家扮演一位名叫“Faith”的亚裔女孩,生活在一个被恶势力控制的大都市中。在经过特殊训练后,她的工作就是为各种地下组织传递信件。由于警察从天上到地下处处追击,虽然玩家也能够撂倒一两个敌人,但最佳的生存方式只有逃。其动作风格没有“波斯猴子”那样神话似的夸张,类似时下流行的极限运动“跑酷”。整个游戏以第一人称视角进行,玩家在大厦丛林中奔跑跳跃,紧张的寻找逃出生天之路,耳旁听着女主角轻轻的喘息声,游戏体验相当特别。
    画面设置:PC版《Mirror's Edge》支持NVIDIA PhysX物理引擎,在整个游戏中提升真实感,主要包括随风摇摆特效、武器伤害效果及运动效果等。游戏中的横幅、旗帜可以被子弹击穿撕裂、随风摇曳,地面上的薄雾会随着玩家脚步的趟过散开,爆炸后会让空气中弥漫着烟雾和碎片,子弹在建筑和环境物体上的损伤效果也得到了增强。
    测试方法:使用Fraps记录50秒内游戏运行FPS,该游戏对显卡要求很低,因此测试统一使用最高的2560 8AA16AF。由于A卡不支持PhysX,所以测试分为开启PhysX和关闭PhysX两种模式。

    抛开物理引擎不谈的话,这款游戏的实际画面很一般,对显卡的要求也不高,即便是在2560 8AA这种极限模式下,除了4870外所有显卡都能轻松跑到60帧的上限。
    一旦开启PhysX模式的话,A卡不支持GPU物理加速的弊端就暴露出来了,三款显卡不管强弱都只有20帧出头。NVIDIA称如果显卡不支持物理加速时CPU就会做软加速,但i7 975如此强大的CPU都没帮上什么忙。
    有意思的是,如果在NVIDIA显卡驱动中关闭物理加速,但游戏中开启物理加速的话,两块顶级N卡也只能跑出22帧左右的速度。看来要么PhysX引擎的CPU软加速效率很低,要么是NVIDIA刻意做了限制。


第八章/第十四节 OpenGL游戏:《敌占区:雷神战争》

    游戏介绍:正如游戏副标题所示,二战的血泪史已经成为过去,ETQW描述的是另一场规模更大的战争,这场战争取源于“Quake”正史,相当于“Quake3”和“Quake4之间的序曲,我们甚至可以称它为“Quake”外传。ETQW的故事大约发生在2060-2065年之间,外星异形“Strogg”大规模入侵地球,给人类世界带来了骚动,地球精英部队组成全球防御力量(GDF)进行抵抗,一场势均力敌的对抗则演变成惊天动地的世纪大战。

    画面设置:作为为数不多的OpenGL游戏,Quake系列已然廉颇老矣,不过一高效率著称的Quake引擎依然有不少游戏使用,因此我们保留了这项这款游戏。

    测试方法:自行录制Demo,控制台调用Timedemo命令回放得出平均值。由于该游戏要求并不高,因此只测试2560分辨率,分为4AA和8AA两种模式。

    自HD4000开始,N卡在OpenGL应用中一枝独秀的局面就被打破,凭借改进的纹理单元A卡的表现也非常不错。通过成绩来看,4AA模式下N卡发挥出色,但8xAA模式下性能损失较大,被HD5870反超。
    看来HD2000/3000时代A卡AA效能低下已经彻底成为历史,现在无论是DX9C\DX10\DX10.1还是OpenGL应用,在高倍AA模式下都是A卡占优。


第八章/第十五节 双卡战四核:HD5870 CF对决GTX295 SLI

    HD5870单卡已经表现除了相当强悍的实力,在不少游戏中都能超越此前的单卡双核心之王GTX295。那么同样是组建双卡系统,HD5870交火的性能将会如何呢?


HD5870 CF:两颗RV870核心


GTX295 SLI:四颗GT200核心

    对于如此顶级的系统,自然所有游戏都要选最高分辨率最高特效进行测试,默认2560x1600 8AA,如果运行起来吃力的话,保留4AA模式下的成绩。
    极品飞车13和镜之边缘这两款DX9C游戏由于存在帧数限制,双卡体现不出性能优势,就取消测试了。

    可以看出,GTX295 Quad SLI的优势项目只有《生化危机5》和《孤岛危机》这两款游戏,当然它在3DMark Vantage中跑分很不错,除此之外几乎是一败涂地。
    HD5870单卡在Crysis里面就有着接近GTX295的性能,但组建交火后差距反而被拉大,看来目前HD5870的驱动支持还是不够好。
    GTX295在很多游戏中开启8AA模式都跑不下来,要么游戏直接卡死要么FPS只有个位数,问题主要出在显存容量及显存管理机制上面,作为一款顶级显卡不能在顶级模式下运行游戏,的确非常遗憾。而HD5870 CF则凭借优秀的高倍AA效能,4AA下基本能与GTX295 SLI战平或者略胜一筹,8AA下则大幅领先。


第八章/第十六节 功耗测试

    我们的功耗测试方法是直接统计整套平台的总功耗,既简单、又直观。测试仪器为微型电力监测仪,它通过实时监控输入电源的电压和电流计算出当前的功率,这样得到的数值就是包括CPU主板内存硬盘显卡电源以及线路损耗在内的主机总功率(不包括显示器)。

    以上为双卡在跑3DMarkVantage时的峰值功耗,GTX295双卡系统足足比HD5870双卡高出了330W之多,令人惊讶无比,下面再来看看单卡系统的总功耗对比。

    果不其然,HD5870的待机功耗要比HD4870低将近70W,这个数字与AMD官方公布的差不多。在所有高端卡当中HD5870的待机功耗是最低的,几乎达到了9600GSO和HD4670这种中低端显卡的水准。
    满载功耗HD5870要比HD4870高一些,基本上就是HD4890的水平,但两者的性能相差甚远。
    通过TDP来看,HD4870X2应该比GTX295更省电一些,但我们的测试结果正好相反,不过也无所谓这两块双核心显卡是半斤八两,性能并不比HD5870强,功耗却高了150W左右,无论性价比还是能耗比都很低。


第八章 全文总结

测试手记:相当完美的高端卡
    在短短的一周测试时间内,HD5870除了超强的规格和性能比较诱人外,还在其他方面给笔者和同事都留下了深刻的印象。
  • 难以想象的安静:跑GTX295或HD4870X2的时候,涡轮风扇发出的噪音让周围的同事苦恼不已,而换上HD5870之后几乎听不见任何声音;
  • 发热量出奇的小:当GTX295和HD4870X2测试完成之后,换显卡时必须多个心眼,如果一把手抓住显卡拔下来的话,被烫掉一层皮是必然的;而HD5870的外壳和金属背板则只是微温,很难想像21.5亿晶体管的怪兽是如此的冷静;
  • 2560随便跑游戏:单(核心)卡中,能在1920分辨率下流畅运行Crysis的显卡只有HD5870,能在2560分辨率下流畅运行主流游戏的只有HD5870;
  • 8AA性能如此强悍:HD5870在不少游戏中8xAA模式下的性能与4xAA非常接近,以至于笔者怀疑测试成绩是不是有问题,游戏中是不是8xAA没有生效。最终通过AMD官方提供的参考成绩和技术资料来看,证实了原来是为RV870的AA效能太强悍的原因;
  • 3D环幕仪免费送:笔者在两年前曾经测试过Matrox 3D环幕仪,对于三屏幕玩游戏的视觉感受依然历历在目,不过这玩意太贵且局限性很大。如今AMD居然在GPU内部直接整合了6屏输出,而且支持6个30寸LCD,真让人佩服万分。三个2560和三个1280,真不是一个级别的;
  • 超低待机功耗:高端显卡因为噪音、发热和电费的关系有时候不敢用,所以笔者和很多同事及朋友都是常备双显卡,平时上网或玩WC3这种游戏的时候用低端的95GT,想玩新大型游戏的时候就换上GTX260/4870。如果有了HD5870的话,就可以把备份用的低端卡彻底抛弃了,它的待机功耗也就跟95GT/96GT之流差不多……
敢为人先,勇于创新的AMD-ATI

    在DX10初代HD2000惨遭滑铁卢后,痛定思痛的ATI近几代产品的进步非常大,HD3000率先支持DX10.1标准,HD4000首次使用尚未定型的GDDR5显存,HD5000则大踏步进入DX11时代。

    ATI总是能够引领技术和标准的发展,一次又一次的在新工艺方面上演传奇,整合声卡、DX10.1、单PCB双芯、包括竞争对手所鼓吹的CUDA并行计算以及PhysX物理加速,其实最早也是ATI提出来的。ATI总是能够拔得头筹,但却总是被竞争对手后来者居上,让AFan们惋惜不已。

    也许你会说ATI一直在这方面比较激进,但这就是科技发展的动力,保守固然可靠,但是失去敢于挑战的勇气,就不会有进步。8800GT是一代经典,但连续三代来回换马甲难免让人厌烦。ATI一次又一次的更新换代,不得不令对手加快脚步,这也为GPU的发展起到了推波助澜的作用,不断的日新月异。

    总体来看,NVIDIA给人的感觉就是成熟、保守、踏实、务实,每款产品都很在意成本控制,处处透露着商业的气息,追求利润最大化,每年都会有非常可观的财报(经济危机特殊时期除外)。而ATI则是努力追求完美却很难达到,在做工、新工艺、新技术方面很激进,甚至甘愿冒险一试,当然代价就是经常有不成熟的产品或技术。

    世界上没有十全十美的东西,不断的发展进步才能看到希望,不过此次AMD新一代HD5870的表现的确超出预期的出色,很难想像在架构不变的情况下单核心显卡能比肩双核心显卡,那双核心的HD5870X2有多么强大已经可以预期,如此一来给对手NVIDIA所施加的压力就更大了。■

-----泡泡网


TOP

有必要这么贴出来吗



TOP

本年度最长一贴!


TOP

真长

TOP

直接上评测柱状图,然后上价格,就可以了

TOP

翻的我的手都累了啊!!!

TOP



好长  估计得有10把半

TOP

[posted by wap]

233,我用手机看顶楼啥都没有啊。。

TOP

[posted by wap]

233,我用手机看顶楼啥都没有啊。。

TOP

我居然看完了。。。

TOP

[posted by wap, platform: iPhone+UCWEB]

手机啥都看不到

TOP

之所以转这么多还是觉得这篇文里有很多值得我们普通游戏爱好者学习的科普知识,作者通过相对浅显的文笔把一圈技术术语都表述了出来,至少我看了后感觉学到很多东西。

TOP

FF显示不全的BUG又看到了:D

TOP

准备GF2 MX400直升DX11 ATI 5系显卡的飘过。。。。。
P3-S 图拉丁换4核。。。

TOP

看完了。不错的文,可惜ie7的保存网页功能又失灵了。

TOP

发新话题
     
官方公众号及微博