您的位置 首页 应用

IPU:为AI处理器带来了一种推翻 性架构

迎 九 (《电子产品世界》 北京,100036)摘 要:英国半导体之父、Arm的联合创始人Hermann爵士称:“在计算机历史上发生过3次革命,第1次是70年代的CPU,第2次是90年代的GP

  迎 九 (《电子产品世界》 北京,100036)

  摘 要:英国半导体之父、Arm的联合创始人Hermann爵士称:“在核算机历史上发生过3次革新,第1次是70年代的CPU,第2次是90年代的GPU,而Graphcore公司带来了第3次革新。”Graphcore推出了为AI核算而生的IPU。Graphcore高档副总裁兼我国区总经理卢涛先生和我国出售总监朱江,向电子产品世界等媒体介绍了IPU的架构。

  0 导言

  Graphcore总部在英国,现在全球有450名职工。公司已获许多出资,截止到2020年6月,总融资超越4.5亿美元。

  Graphcore主要产品是IPU。Graphcore以为,由于CPU和GPU不是为了满意机器学习的核算需求而规划,因而虽然进化,立异者却开端因硬件阻止而后退。而Graphcore创建了一种全新的处理器,是第一个专为机器学习作业负载而规划的处理器——智能处理器(IPU)。

  1 IPU的两大特色

  Graphcore现有的IPU的体现及下一代的模型上,功能抢先于GPU:在自然语言处理方面的速度可以进步20%~50%;在图画分类方面,可以有6倍的吞吐量并且是更低的时延;在一些金融模型方面的练习速度可以进步26倍以上。现在,IPU在一些云上、客户自建的数据中心服务器上现已可用。

  比较GPU及其他与GPU相似的处理器架构,IPU有2个亮点规划。

  1)从大规划并行的视点来看,CPU在操控方面做了许多十分通用化的处理器,也便是一个标量的处理器;GPU是向量处理器,有单指令、多数据的特色,合适处理大规划的、稠密的数据,在某一类的AI运算里会有十分显着的优势,这也是现在GPU在市场上体现得十分好的原因;而IPU是一种全新的架构规划,是一种图形的处理器,具有多指令、多数据的特色。除了稠密的数据之外,现在代表整个AI开展方向的大规划稀少化的数据,在IPU上处理就会有十分显着的优势。

  2)IPU选用的大规划分布式的片上SRAM的架构,这与GPU、CPU是彻底不同的。Graphcore IPU扔掉了外部的DDR,把一切memory放到片上,因而可以处理在现在机器学习中许多呈现的内存带宽构成的瓶颈。

  在场景运用方面,由于选用了分组卷积这种新式的卷积,和现在比较传统的ResNet比较,可以有更好的精度体现。但这样的分组卷积由于数据不行稠密,在GPU上或许作用并不好,而IPU可以把这样的模型真实落地运用,尤其是在一些笔直职业,比如金融范畴进步运用的功能。

  Graphcore所做的产品包含了硬件、软件和IPU的体系处理方案。

  2 为AI运用打造的IPU

  机器智能代表的是全新的核算负载,特色是十分大规划的并行核算,和十分稀少的数据结构。AI或机器智能相较于传统的科学核算或许高功能核算(HPC)有个特色,便是低精度核算;别的像在做练习推理过程中的数据参数复用、静态图结构都是AI运用代表的一些全新的核算负载。

  从2016年至今,整个AI算法模型开展基本上从2016年1月的ResNet50的2 500万个参数,到2018年10月BERT-Large的3.3亿个参数,2019年GPT2的15.5亿个参数,呈大幅增加的趋势。乃至现在有一些抢先的科研机构和AI研究者在探究更大的算法模型,期望用一些杂乱的模型可以练习更杂乱的算法,并进步精度。

  可是现在的密布核算并不是可继续的,由于比如要从15.5亿规划扩展到1万亿,核算方面的进步是指数级,即数倍算力的进步,这就需求一种全新的方法来做AI核算。

  可是在当时,机器学习选用的仍是传统处理器架构,例如CPU,现在仍是有许多AI负载架构在CPU之上。CPU实践是针对运用和网络进行规划的处理器,是标量处理器(表1)。

1594198853607460.jpg

  后来呈现的GPU是针对图形和高功能核算,以向量处理为中心的处理器,从2016年到现在被广泛运用在AI里。

  但AI是一种全新的运用架构,它底层表征是以核算图作为表征的,所以或许需求一种全新的处理器架构,而Graphcore IPU便是针对核算图的处理来规划的处理器。

  说到摩尔定律和算力,处理器现在是1个teraflops(每秒1万亿次浮点运算)、10个teraflops乃至100个teraflops,算力进步十分快。但人们发现,有用的算力其实远远达不到算力的峰值,中心内存的带宽是十分约束功能的。

  例如,处理器算力进步了10倍,内存怎样进步10倍吞吐量呢?假如用传统的DDR4、DDR5、HBM、HBM1、HBM2、HBM3内存等,基本上每代只能有30%、40%的进步。

  所以在Graphcore做IPU的时分,在这部分做了一个特别的规划:与传统的CPU、GPU比较起来,IPU用了大规划并行MIMD的处理器核,别的做了十分大的分布式的片上的SRAM,在片内能做到300 MB的SRAM,相对CPU的DDR2的子体系,或相对于GPU的GDDR、HBM,IPU可以做到10~320倍的功能进步。从时延的视点来看,与拜访外存比较较,时延只要1%,可以忽略不计。

  再从全体上看一下IPU处理器,现在现已量产的是GC2处理器,是16 nm TSMC的工艺。该处理器现在片内有1 216个IPU-Tiles,每个Tile里有独立的IPU核作为核算及In-Processor-Memory(处理器之内的内存)。所以整个GC2共有7 296个线程,可以支撑7 296个程序做并行核算。对整片来说,In-Processor-Memory总共是300 MB。所以IPU的整个思维是一切的模型要被放在片内处理。PCIe也是16个PCIeGen 4。

  所以,IPU GC2是十分杂乱的具有236亿个晶体管的芯片处理器,在120 W的功耗下有125 TFlops的混合精度、1 216个独立的处理器中心(Tile)、300 M的SRAM可以把完好的模型放在片内,别的内存的带宽有45 TB/s、片上的交流是8 TB/s,片间的IPU-Links是2.5 Tbps。

  由于IPU GC2有1 216个中心(Tile)、7 000多个线程,所以处理并行硬件的高效编程问题是一个十分大的课题。Graphcore选用构建大规划数据中心集群的BSP技能(Bulk Synchronous Parallel,大容量同步并行),这种技能现在在谷歌、Facebook、百度这样的大规划数据中心都在运用。

  因而,IPU是业界首款BSP处理器,经过硬件能支撑BSP协议,并经过BSP协议把整个核算逻辑分红核算、同步、交流。对软件工程师或开发者,这便是十分易于编程的,由于这样就不必处理locks这个概念。对用户来说,也不必管其间是1 216个中心(Tile)仍是7 000多个线程、使命详细在哪个核上履行,所以这是一个十分用户友爱的立异。

  (注:本文来源于科技期刊《电子产品世界》2020年第07期第59页,欢迎您写论文时引证,并注明出处。)

声明:本文内容来自网络转载或用户投稿,文章版权归原作者和原出处所有。文中观点,不代表本站立场。若有侵权请联系本站删除(kf@86ic.com)https://www.86ic.net/yingyong/122743.html

为您推荐

联系我们

联系我们

在线咨询: QQ交谈

邮箱: kf@86ic.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部