Board logo

标题: [数码手机] ARM推出通用AI构架,集英伟达、英特尔、赛灵思三位优势于一体 [打印本页]

作者: u571    时间: 2018-8-27 08:20     标题: ARM推出通用AI构架,集英伟达、英特尔、赛灵思三位优势于一体

ARM发布第一代面向AI和机器学习的处理器,架构名为“Trillium”,吸收了从硬件、数据压缩和编译器方面最成功的创新中的优点,其实是一款兼采众家之长的“聚合体”。ARM表示,该处理器舍弃了高速缓存,兼具英伟达TensorCore的功能、FPGA的可编程性,以及DSP的低功耗处理能力。

在过去的几年中,有几家芯片创业公司一直致力于寻找新的方法来有效地训练和执行神经网络,但在现有技术和理念的基础上,其实真的必要从头做起吗?

本周,在一年一度的Hot Chips会议上,ARM展示了其第一代机器学习处理器,预计今年晚些时候,ARM的合作伙伴就可以使用其IP。

兼采众长,ARM“拼”出世界最好的AI处理器

该处理器架构名为“Trillium”,是由一些我们并不陌生的元素与ARM的逻辑核心捆绑而来的,对于那些需要Nvidia Volta GPU的TensorCore功能的人来说,ARM这款处理器可能意义重大,比如DeePhi神经网络压缩技术(现在是linx的一部分)、FPGA的可编程性,以及DSP的低功耗处理能力。

换句话说,ARM可能刚刚“拼凑”出了世界上最好的AI处理器,这对于那些在大型通用设备上放置大量额外空间的芯片制造商来说,可能会带来很大的麻烦。

ARM的技术总监Ian Bratt本周在Hot Chips上表示,ARM首次涉足AI处理器的设计目标是尽可能的推广,以便能够满足服务器端AI的市场需求,并将自家AI处理器更多用于汽车和具有物联网需求的小型设备上。

Bratt表示:
“在研发第一代机器学习处理器的过程中,我们初期出现了一些失误,将旧框架套用在新问题上。我们知道GPU、CPU和DSP是如何用于机器学习上的,但我们开始研究如何能够清晰地利用每一项技术。我们可以利用CPU的技术处理控制和可编程性问题,用GPU的技术解决数据压缩、数据移动和计算密度等问题,这些都可以提高DSP的效率和开源软件的开发。”

搭建架构的模块是计算引擎,每块为64 KB的SRAM片,共16块。 MAC引擎(与英伟达的TensorCore不同)是执行卷积化的地方,可编程层引擎负责处理网络各层之间的大部分必要的shuffling。该架构具有DMA引擎,用于与外部存储器接口进行通信。 ARM自己的Cortex技术负责的引擎控制。
不再需要缓存,控制流程大大简化
对于一家以创新为基础公司而言,ARM正在走一条自己的独特道路。公司首次涉足人工智能芯片,芯片的组件都是大家并不陌生的,ARM在用于神经网络的点积(dot product)引擎上做出了一些关键性创新,提升了执行效率、降低了网络噪音。
我们很可能忽略的一个要素是,静态调度(static scheduling)的价值,这是影响芯片整体性能和效率的关键部分。
存储器的访问模式完全是可静态分析的,并且很容易理解和映射,但是许多设备没有利用这一点。 CPU具有复杂的高速缓存层次结构,可以用于非确定性存储器访问进行优化,但对于确定性的神经网络,可以提前将所有内容放在内存中。然后,编译器为不同的组件生成命令流(由ARM控制处理器进行编配),到达寄存器以控制这些组件。
简而言之就是:不需要缓存。此外还有一个好处是流量控制流程被大大简化,可以进一步降低能耗,提升处理器性能的可预测性。
处理卷积化的方式可以进一步提高效率。下图中的SRAM突出了编译器是如何为输入特征映射和压缩模型分配部分资源的。每个计算引擎都将使用跨越不同计算引擎的不同特征映射

打造通用平台,实现机器学习与现有流程的整合
Bratt表示,目前ARM的机器学习业务部门拥有150名员工,随着对机器学习需求的不断增长,这一数字也会不断增加,并将机器学习整合到新的和现有的工作流程和配置中。他表示,我们的目标是让这项工作横跨一系列细分市场,但是要为一类用户提供一个具备其所需全部功能的通用平台并不简单。
不用高速缓存、精简压缩流程、使用混合精度算法,并与精简化的SRAM片上计算相结合,将其移植到密集的点积引擎上,这些都使得ARM的芯片IP成为市场上的一个引人注目的焦点,而且可以针对关键的工作负载做进一步的细化。
与某些AI专用处理器相比,ARM处理器增加了高带宽内存(HMC)可能使其更容易识别,但是需要授权用户了解这些组件系统中协同工作的方式。 ARM工程师真正从生态系统中汲取了最佳的AI处理器技术,并使用开源软件挂钩,可能大幅扩大授权许可范围
作者: 卖哥    时间: 2018-8-27 10:31

posted by wap, platform: Meizu M9
细看纯是扯,我还以为真是用了三家ip呢。
nv的tc是asic实现,去跟dsp这种可编程电路比能效是搞笑么?
我看这是fpga实现,达到了dsp的能效,蹭了nv热度罢了。




欢迎光临 TGFC Lifestyle (http://club.tgfcer.com/) Powered by Discuz! 6.0.0