您的位置 首页 解答

关于机器学习中的FPGA与SoC使用浅析

关于机器学习中的FPGA与SoC应用浅析- 这些新设备有两个主要市场。机器学习中的神经网络将数据分为两个主要阶段:训练和推理,并且在每个阶段中使用不同的芯片。虽然神经网络本身通常驻留在训练阶段的数据中心中,但它可能具有用于推理阶段的边缘组件。现在的问题是什么类型的芯片以及哪种配置能够产生最快、最高效的深度学习。

一系列机器学习优化芯片估计将在未来几个月内开端出货,但数据中心需求一段时刻才干决议这些新的加速器是否值得选用,以及它们是否真的能在功用上取得大幅进步。

有许多的报导称,为机器学习规划的定制芯片将供给100倍于现有挑选的功用,但它们在要求严厉的商业用途的实践测验中的功用没有得到证明,数据中心是新技能最保存的选用者之一。不过,Graphcore、Habana、ThinCI和Wave Computing等闻名草创公司表明,它们现已将前期芯片供给给客户进行测验。但还没有一家公司开端发货,乃至没有展现这些芯片。

这些新设备有两个首要商场。机器学习中的神经网络将数据分为两个首要阶段:练习和推理,并且在每个阶段中运用不同的芯片。虽然神经网络自身一般驻留在练习阶段的数据中心中,但它或许具有用于推理阶段的边际组件。现在的问题是什么类型的芯片以及哪种装备能够发生最快、最高效的深度学习

看来FPGAs和SoCs正在取得更多的吸引力。TIrias Research总裁吉姆·麦格雷戈(Jim McGregor)说,这些数据中心需求可编程芯片的灵敏性和高I/O才干,这有助于FPGA在练习和推理的高数据量、低处理才干需求中发挥作用。

与几年前比较,FPGA的设置现在用于练习的频率更低了,但它们在其他任何作业上的运用频率都要高得多,并且它们很或许在下一年持续增加。即便大约50家致力于神经网络优化处理器迭代开发的草创公司今日都交付了制品,在任何规划可观的数据中心的出产流程中,也需求9到18个月的时刻。

McGregor说:“没有人会买现成的数据中心,然后把它放到出产机器上。”“您有必要保证它满意可靠性和功用要求,然后才干将其悉数布置。”

关于机器学习中的FPGA与SoC运用浅析

图1:不同类型深度学习芯片占比

关于新的架构和微体系架构,依然有时机。ML作业负载正在敏捷扩展。OpenAI 5月份的一份陈述显现,用于最大AI/ML练习的核算才干每3.5个月就增加一倍,自2012年以来,核算才干的总量增加了30万倍。比较之下,依照摩尔定律,可用资源每18个月增加一倍,终究总容量仅增加12倍。

Open.AI指出,用于最大规划练习的体系(其间一些需求几天或几周的时刻才干完结)需求花费数百万美元购买,但它估计,用于机器学习硬件的大部分资金将用于推理。

关于机器学习中的FPGA与SoC运用浅析

图2:核算需求正在增加

这是一个巨大的全新的机会。TracTIca在5月30日的一份陈述中猜测,到2025年,深度学习芯片组的商场规划将从2017年的16亿美元增至663亿美元,其间包含CPUGPU,FPGA,ASIC,SoC加速器和其他芯片组。其间很大一部分将来自于非芯片公司,它们正在发布自己的深度学习加速器芯片组。谷歌的TPU便是这么做的,业内人士表明,亚马逊和Facebook正在走相同的路途。

McGregor说,现在首要转向SoC而不是独立的组件,并且SoC、ASIC和FPGA供货商的战略和封装的多样性日益增加。

Xilinx、Inetel和其他公司正企图经过向FPGA阵列增加处理器和其他组件来扩展FPGA的规划。其他的,如Flex Logix、Achronix和Menta,将FPGA资源嵌入到接近SoC特定功用区域的小块中,并依靠高带宽互连来坚持数据的移动和高功用。

McGregor说:“你能够在任何你想要可编程I/O的当地运用FPGA,人们会将它们用于推理,有时还会进行练习,可是你会发现它们会更多地用于处理大数据使命而不是练习,这需求许多的矩阵乘法,更适合于GPU。”

可是,GPU并不是濒临灭绝的物种。依据MoorInsights & Strategy分析师Karl Freund在一篇博客文章中所说。

英伟达本月早些时候发布了NVIDIA TensorRT超大尺度推理渠道的声明,其间包含供给65TFLOPS用于练习的Tesla T4 GPU和每秒260万亿次4位整数运算(TOPS)的推理 – 足以一起处理60个视频流速度为每秒30帧。它包含320“Turing Tensorcores”,针对推理所需的整数核算进行了优化。

新的架构

Graphcore是最著名的草创公司之一,正在开发一款236亿晶体管的“智能处理单元”(IPU),具有300MB的片上存储器,1216个中心,每个中心能够到达11GFlops,内部存储器带宽为30TB/s。其间两个选用单个PCIe卡,每个卡都规划用于在单个芯片上保存整个神经网络模型。

GraphCore行将推出的芯片依据图形架构,该架构依靠于其软件将数据转换为极点,其间数字输入,运用于它们的函数(加,减,乘,除)和结果是独自界说的,能够是并行处理。其他几家ML草创公司也运用相似的办法。

Wave CompuTIng没有泄漏何时发货,但在上星期的人工智能硬件会议上泄漏了更多关于其架构的信息。该公司方案出售体系而不是芯片或电路板,运用带有15 Gbyte /秒端口的16nm处理器和HMC存储器和互连,这种挑选旨在快速推送图形经过处理器集群而无需经过处理器发送数据超越瓶颈一个PCIe总线。该公司正在探究转向HBM内存以取得更快的吞吐量。

关于机器学习中的FPGA与SoC运用浅析

图3:Wave核算的第一代数据流处理单元

机器学习的异构未来和支撑的硅片的最佳方针之一来自微软 – 这是FPGA,GPU和其他深度学习的巨大买家。

“虽然面向吞吐量的架构,如GPGPUs和面向批处理的NPU,在离线练习和服务中很受欢迎,但关于DNN模型的在线、低推迟的服务,它们的功率并不高,”2018年5月宣布的一篇论文描绘了Brainwave 项目,这是微软在deep neural networking (DNN)中高效FPGA的最新版别。

微软率先将FPGA广泛用作大规划数据中心DNN推理的神经网络推理加速器。 Rambus的出色发明人兼企业处理方案技能副总裁Steven Woo表明,该公司不是将它们用作简略的协处理器,而是“更灵敏,一流的核算引擎”。

依据微软的说法,Brainwave项目能够运用英特尔StraTIx 10 FPGA池供给39.5 TFLOPS的有用功用,这些FPGA能够被同享网络上的任何CPU软件调用。结构无关体系导出深度神经网络模型,将它们转换为微服务,为Bing查找和其他Azure服务供给“实时”推理。

关于机器学习中的FPGA与SoC运用浅析

图4:微软的Brainwave项目将DNN模型转换为可布置硬件微服务,将任何DNN结构导出为通用图形表明,并将子图分配给CPU或FPGA

Brainwave是德勤全球(DeloitteGlobal)所称的“戏剧性改动”的一部分,这一改动将着重FPGA和ASIC,到2018年,它们将占有机器学习加速器25%的商场份额。2016年,CPU和GPU占有了不到20万台的商场份额。德勤猜测,到2018年,CPU和GPU将持续占有主导地位,销量将超越50万部,但跟着ML项目数量在2017年至2018年翻一番、在2018年至2020年再翻一番,总商场将包含20万FPGA和10万ASIC

德勤(Deloitte)表明,FPGA和ASIC的耗电量远低于GPU、CPU,乃至比谷歌每小时75瓦的TPU耗电量还要低。它们还能够进步客户挑选的特定功用的功用,这能够跟着编程的改动而改动。

Achronix的营销副总裁SteveMensor说:“假如人们有他们的挑选,他们会在硬件层面上用ASIC构建东西,可是FPGA比GPU有更好的功耗/功用,并且他们在定点或可变精度架构方面十分拿手。”

ArterisIP的董事长兼首席执行官CharlieJanac说:“有许多许多的内存子体系,你有必要考虑低功耗和物联网运用,网格和环路。”“所以你能够把一切这些都放到一个芯片中,这是你决议计划物联网芯片所需求的,或许你能够增加高吞吐量的HBM子体系。可是作业负载十分特别,每个芯片有多个作业负载。因而,数据输入是巨大的,尤其是假如你要处理雷达和激光雷达之类的东西,而这些东西没有先进的互连是不或许存在的。

由于运用程序的特别性,连接到该互连的处理器或加速器的类型或许会有很大的不同。

NetSpeed Systems担任营销和事务开发的副总裁阿努什•莫罕达斯(Anush Mohandass)表明:“在中心范畴,迫切需求大规划进步功率。”““咱们能够放置ASIC和FPGA以及SoC,咱们的预算越多,咱们就能够放入机架。”但终究你有必要高效;你有必要能够进行可装备或可编程的多使命处理。假如你能将多播运用到向量处理作业负载上,而向量处理作业负载是大部分练习阶段的内容,那么您能够做的作业就会大大扩展。“

FPGA并不是特别简单编程,也不像乐高积木那样简单刺进规划,虽然它们正在朝着这个方向快速开展,SoC比FPGA更简单运用核算中心、DSP中心和其他IP模块。

可是,从相似SoC的嵌入式FPGA芯片改动为具有针对机器学习运用优化的数据背板的芯片上的完好体系并不像听起来那么简单。

Mohandass说:“功用环境是如此的极点,需求是如此的不同,以至于AI范畴的SoC与传统的架构彻底不同。”“现在有更多的点对点通讯。你正在做这些向量处理作业,有不计其数的矩阵行,你有一切这些中心可用,但咱们有必要能够跨过几十万个中心,而不是几千个。

功用是至关重要的。规划、集成、可靠性和互操作性的快捷性也是如此——SoC供货商将要点放在底层结构和规划/开发环境上,而不仅仅是针对机器学习项目的特定需求的芯片组。

NetSpeed推出了专门为深度学习和其他人工智能运用程序规划的SoC集成渠道的更新版别,该服务使集成NetSpeed IP变得更简单,该规划渠道运用机器学习引擎引荐IP块来完结规划。该公司表明,其方针是在整个芯片上供给带宽,而不是传统规划的集中式处理和内存。

Mohandass说:“从ASIC到神经形状芯片,再到量子核算,一切都在进行中,但即便咱们不需求改动咱们当时架构的全体根底(以习惯新的处理器),这些芯片的大规划出产仍遥遥无期。”但咱们都在处理相同的问题。当他们从上到下进行作业时,咱们也从下到上进行作业。

Flex Logix的CEOGeoff Tate以为,CPU依然是数据中心中最常用的数据处理元素,其次是FPGA和GPU。但他指出,需求不太或许在短时刻内下降,由于数据中心企图跟上对自己的机器学习运用程序的需求。

泰特说:“现在人们花了许多钱来规划出一种比GPU和FPGA更好的产品。”“总的趋势似乎是神经网络的硬件愈加专业化,所以这便是咱们或许会走向的当地。”例如,微软表明,他们运用一切东西——CPU、GPU、TPU和FPGA——依据这些,他们能够在特定的作业负载下取得最佳的性价比。

声明:本文内容来自网络转载或用户投稿,文章版权归原作者和原出处所有。文中观点,不代表本站立场。若有侵权请联系本站删除(kf@86ic.com)https://www.86ic.net/changshang/jieda/338933.html

为您推荐

联系我们

联系我们

在线咨询: QQ交谈

邮箱: kf@86ic.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部