»
首页
|
手机壁纸
|
海淘值得买
|
度假
|
求职招聘
|
广告联系
» 您尚未登录:请
登录
|
注册
|
标签
|
帮助
|
小黑屋
|
TGFC Lifestyle
»
完全数码讨论区
» larrabee的行为艺术
发新话题
发布投票
发布商品
发布悬赏
发布活动
发布辩论
发布视频
打印
[电脑]
larrabee的行为艺术
popboy139
魔头
帖子
1501
精华
0
积分
14347
激骚
86 度
爱车
主机
相机
手机
注册时间
2006-6-24
发短消息
加为好友
当前离线
1
#
大
中
小
发表于 2008-9-1 21:12
只看该作者
软件就是新硬件—超越可编程着色器
硬件简介
拉娜芘主要硬件单元:
大量x86核心,新型x86核心支持16路单指令多数据指令集。
全相联一级缓存(L1D容量32KB )与二级缓存(L2容量256KB )
硬件纹理单元,纹理采样单元支持DirextX/OpenGL所有功能,并含有32KB纹理缓存。
高速双向环形总线ringbus,支持多个二级缓存之间共享数据。
x86核心
新型x86核心支持Pentium处理器的所有指令以及64位扩展指令。
短流水线核心采用双发射顺序执行微架构,标量指令额外延迟为0,即单周期延迟。向量指令为多周期指令,而延迟较短。 当出现分支预测错误,将刷新流水线,所以采用短流水线有利于减少性能开销。短流水线也有利于减少缓存遗失时的性能开销。4路同步多线程SMT,可以单周期线程切换,主要用于隐藏一级缓存遗失、向量指令延迟等。
向量处理单元
向量单元含有大量的512比特寄存器。单指令多数据流水线可以一次处理16个32比特整数/浮点数据,或8个64比特浮点数据。向量乘加法指令的吞吐率为一个周期,绝大多数向量指令的延迟远小于8个周期。向量计算指令的两个源操作数可以是寄存器,其中有一个源操作数可以直接来自缓存,而延迟开销与寄存器一样。向量指令采用16比特预测寄存器控制向量指令的16路计算结果哪些应该写回到寄存器,哪些应该被绕过。向量浮点计算完全兼容IEEE754标准。
向量计算单元可以把float16,int8,int16等数据自动转换为32比特浮点/整数数据进行计算,因此缓存可以存放更多的数据。
向量计算单元支持集/散(Gather/Scatter)计算:一条指令可以从16个不同的地址读写16个数据结果。 如果与预测寄存器协作,还可以实现”数据流”处理模式:自动向量化的执行标量代码,支持循环、条件、调用、堆栈等操作,良好的契合着色器语言的计算特点,16路向量计算单元相当于16个SP(Scalar Processors)。
全相联缓存
全相联一级数据缓存容量32KB,二级缓存容量256KB,二级缓存之间可以共享数据。引入了缓存行为控制逻辑,例如,可以控制数据是否直接读写到显存还是读写到缓存;还有数据预取指令,缓存替换策略指令等。多种控制手段可以精细控制缓存行为,令其如同一块芯片内部RAM(scratchpad RAM)一样。还具有可以自动预取大批量数据的自治逻辑单元。
纹理采样单元
为全功能DX/OGL纹理采样单元,支持所有标准纹理格式,纹理缓存容量为32KB。纹理采样单元本身是一个独立的协处理器,一个x86核心配有一个纹理采样单元,x86核心一次向纹理采样单元发送4X4—16个像素的UV坐标,而纹理采样单元把16个采样过滤结果通过L2返回给x86核心,x86核心与纹理采样单元双方都是通过二级缓存来交换命令与数据。软件需要通过内嵌函数(inline-call)来调用采样命令。
DirectX软件渲染器
除了纹理采样外,都是使用软件来实现。 顶点处理本质上和GPU基本一样, 主要区别是像素处理。
是把一帧图像分为多个小方格(tile/bin),小方格的大小为64X64(或128X128),然后一个小方块单独由一个核心来负责渲染。 例如分辨率为1280X960时, 就被分割为20X15=300个小方块分开渲染,每个小方块大小为64X64。 一个核心负责渲染一个小方块,当渲染好一个小方块后,就接着渲染下一个小方块,直到300个小方块都被渲染好为止。当核心越多时,就有越多的小方块被同时并行渲染。一个核心执行编译器产生一个程序(routine)来负责多种渲染任务,主要是读三角形、顶点、插值、读像素、前期Z变换、模板、后期Z变换、像素着色器、混合等--Readtriangles\Read shaded verts & set up interpolants\Readfragments from bins\Early Z/stencil\Perspective correction & interpolation\Pixelshading\Late Z/stencil\Render target blend。一个程序(routine)里面含有4个线程它们是由硬件同步多线程SMT负责切换,而线程里面含有多个依靠软件切换的微纤线程(fiber),常见情况下,一个纤程(fiber)一次可渲染4X4=16个像素。
拉娜芘的行为艺术--可以和CPU比通用性,和GPU比图形性能。 ifan感动的痛哭流涕。
UID
57993
帖子
1501
精华
0
积分
14347
交易积分
0
阅读权限
40
在线时间
12664 小时
注册时间
2006-6-24
最后登录
2022-1-18
查看详细资料
TOP
popboy139
魔头
帖子
1501
精华
0
积分
14347
激骚
86 度
爱车
主机
相机
手机
注册时间
2006-6-24
发短消息
加为好友
当前离线
2
#
大
中
小
发表于 2008-9-1 21:16
只看该作者
Intel Larrabee拥有独立驱动研发团队
作为Intel重返独立显卡的力作,Larrabee在幻灯片里看起来很好很强大,不过一想起Intel集成显卡的驱动程序,就不免让人产生一丝担忧,怀疑Intel能否拿出足够好的软件来支持其硬件。
最新传出的好消息是,Larrabee将拥有一个独立的驱动研发团队,和现在的整合芯片组团队并没有混为一谈,而且Intel还在不断增加人力资源,让更多员工投入其中。其中包括了跳槽过来的原3DLabs 的大型团队
在经历了一次又一次泡沫破灭后,这样的消息其实并不让人太激动,但总归是好事儿,也证明Intel确实在不断努力,高清性能有明显改善的G45就是明证。
当然,驱动程序仍是整个产品开发过程中最关键、最麻烦的部分,也是Larrabee成败的决定性因素。Intel自然也应该明白这一点。
另外很有趣的是,Intel认为黄仁勋是推广Larrabee的最大功臣,尽管他和手下的NVIDIA高管一直在批评Larrabee,但这也从另一方面在给Intel免费做广告,让Larrabee占据了不少头条位置。
UID
57993
帖子
1501
精华
0
积分
14347
交易积分
0
阅读权限
40
在线时间
12664 小时
注册时间
2006-6-24
最后登录
2022-1-18
查看详细资料
TOP
红叶
银河飞将
帖子
36353
精华
0
积分
64801
激骚
5017 度
爱车
保十洁
主机
没有
相机
海欧
手机
注册时间
2002-12-16
发短消息
加为好友
当前离线
3
#
大
中
小
发表于 2008-9-1 21:42
只看该作者
G45的高清好像又成笑话了
UID
7058
帖子
36353
精华
0
积分
64801
交易积分
0
阅读权限
50
在线时间
29472 小时
注册时间
2002-12-16
最后登录
2024-5-21
查看详细资料
TOP
控制面板首页
密码修改
积分交易
积分记录
公众用户组
基本概况
版块排行
主题排行
发帖排行
积分排行
交易排行
在线时间
管理团队
管理统计