台积公司的16nm FinFET工艺与赛灵思最新UltraRAM和SmartConnect技能相结合,使赛灵思能够持续为商场供给逾越摩尔定律的价值优势。
赛灵思凭仗其28nm 7系列全可编程系列以及首先上市的20nm UltraScale™系列,取得了抢先竞争对手整整一代优势,在此根底上,赛灵思刚刚又推出了其16nm UltraScale+™系列器材。客户选用该器材系列构建的体系比较选用赛灵思28nm器材所规划的相似体系的功用功耗比可进步2至5倍。这些功用功耗比优势首要取决于三大方面:选用台积电公司16FF+(即16nm FinFET Plus)工艺的器材完成方案、赛灵思的片上UltraRAM存储器以及SmartConnect立异式体系级互联-优化技能。
此外,赛灵思还推出了其第二代Zynq®全可编程SoC。Zynq UltraScale多处理SoC (MPSoC) 在单个器材中完美集成了四核64位ARM® Cortex™-A53运用处理器、32位ARM Cortex-R5实时处理器、ARM Mali-400MP图形处理器、16nm FPGA逻辑(带UltraRAM)、许多外设、安全性与可靠性特性、以及立异式电源操控技能。该新式Zynq UltraScale+ MPSoC为用户供给了体系创立所需的全部,并且运用其打造出来的体系比较选用28nm Zynq SoC所规划的体系的功用功耗比进步5倍。
FINFET进一步扩展 ULTRASCALE系列,使其具有额定的节点价值优势
赛灵思公司芯片产品办理与营销高档总监Dave Myron指出:“选用16nm UltraScale+系列,咱们能够创立出比摩尔定律一般供给给用户的更高的额定节点价值优势。咱们能满意LTE Advanced与前期 5G无线、Tb级有线通讯、轿车高档驾驶员辅佐体系以及工业物联网运用等各种下一代运用需求。UltraScale+系列运用户能够完成更大的立异,一起在各自的商场中坚持抢先竞争对手。”
凭仗其UltraScale系列产品,赛灵思能够一起经过两个工艺节点供给器材,即台积公司的20nm平面工艺(现已发货)和现在台积公司的16FF+工艺(赛灵思估计将于2015年第四季度开端发货)。赛灵思将推出16nm UltraScale+系列的Virtex® FPGA与3D IC、Kintex® FPGA以及新式Zynq UltraScale+ MPSoC。
赛灵思公司新产品推出与解决方案商场营销总监Mark Moran表明,赛灵思决定于2013年开端推出其20nm UltraScale系列,而不是等台积公司的16FF+工艺面世后才发布。这是由于在一些运用领域,早在一年半就迫切需求20nm器材——其比28nm具有更高的功用和容量。
Moran表明:“咱们的整个产品系列在规划时充沛考虑到商场需求。选用20nm UltraScale架构的器材的功用更适用于那些无需UltraScale+供给的额定功用功耗比优势的商场和终究运用中的新一代产品。已然知道16nm紧跟这以后,所以我先构建了20nm FinFET。一起咱们在20nm上进了许多的架构修正(咱们知道这是16nm的根底),能够依据商场需求进步功用和价值水平。咱们有客户现已着手在咱们现在供给的20nm器材上进行开发,这样只需16nm Ultra-Scale+器材一面世,他们就能够快速进行规划移植,然后加快规划上市进程。”
Myron弥补说,许多Virtex UltraScale+器材会与20nm Virtex Ultra-Scale器材完成引脚兼容,这样,对需求额定功用功耗比优势的规划来说易于晋级。
Myron说:“从东西视点来说,20nm UltraScale和16nm UltraScale+器材看起来简直相同。因而运用16nm UltraScale+器材还有一大优势,那便是进步功用功耗比使其很简单到达功用和功耗方针要求。”
Myron说UltraScale+ FPGA以及3D IC比较28nm 7 系列FPGA,功用功耗比进步2倍。一起,Zynq UltraScale+ MPSoC凭仗其额定的集成异构处理功用,比较选用28nm Zynq SoC构建的相似体系,功用功耗比进步5倍(如图1所示)。
图1 – 赛灵思16nm UltraScale+ FPGA和Zynq UltraScale+ MPSoC可为规划团队供给额定的节点价值优势。
源于台积公司16FF+工艺的功用功耗比优势
仅经过向16nm FinFET的工艺移植,赛灵思已推出了比28nm 7 系列器材的功用功耗比高出2倍的器材。Myron指出:“台积公司的16FF+是一种极端高效的工艺技能,这是由于其根本消除了此前选用平面晶体管完成的芯片工艺相关的晶体管电源走漏状况。此外,咱们还与台积公司通力合作,一起优化UltraScale+器材,以充沛运用该新工艺技能。至少(仅从该新工艺技能的立异视点来说),UltraScale+规划比较选用28nm 7系列器材完成的规划,功用功耗比进步两倍以上。
如需了解有关赛灵思20nm UltraScale架构,以及FinFET比较平面晶体管工艺的优势的具体阐明,敬请拜访:《赛灵思我国通讯第84期》。
在UltraScale+系列中,赛灵思还将供给业界首款3D-on-3D器材——其选用台积公司16FF+ 3D晶体管技能完成的第三代堆叠硅片互联3D IC。
Myron指出,屡获荣誉的7系列3D IC经过在单个集成芯片上供给多个芯片,打破了摩尔定律的功用和容量极限。
Myron指出:“凭仗咱们的同质3D IC,咱们能够打破摩尔定律的容量极限,然后可供给容量是28nm最大型单芯片FPGA容量2倍的器材。然后运用咱们的首款异构器材,咱们能够将FPGA芯片与高速收发器芯片组合在一起,供给28nm单芯片器材无法完成的高体系功用与带宽。运用UltraScale+ 3D %&&&&&%,咱们将持续供给逾越摩尔定律极限的高容量与功用。”
源于ULTRARAM的功用功耗比优势
Myron说经过选用最新大型片上存储器UltraRAM,许多UltraScale+规划相对28nm将取得更多的功用功耗比进步。赛灵思将在大部分UltraScale+器材中新增UltraRAM。
Myron指出:“从根本上来说,片上存储器(如LUT RAM 或分布式RAM和Block RAM)和片外存储器(DDR或片外SRAM等)之间的距离越来越大。有许多处理器密集型运用需求不同类型存储器。尤其是当您规划更大型更杂乱的规划时,就更需求较快速的片上存储器。Block RAM太细太少。而假如您将存储器放在片外,不只会增加功耗,让I/O变得杂乱,并且还会增加资料清单(BOM)本钱。
这便是赛灵思开发UltraRAM的原因。Myron 指出:“咱们所做的便是增加片上存储器分层结构的层数,以及能够在规划中轻松完成大型存储器模块。咱们不只帮忙规划人员轻松放置恰当尺度的片上存储器,并且时序也有保证。”
经过LUT或分布式RAM,规划人员能够增加1b和kb级巨细的RAM,而BRAM可让他们增加10Mb巨细的存储器模块。UltraRAM答应选用UltraScale+器材的规划人员用100Mb级的存储器块完成片上SRAM(如图2所示)。这样做,规划人员只需较少数的片外RAM (SRAM、RLDRAM和TCAM)就能够打造出功用/能效更高的体系。一起还会下降资料清单(BOM)本钱。最大型的UltraScale+ 器材VU13P具有432 Mb的UltraRAM。
图2 – UltraRAM可添补片上存储器和片外存储器之间的存储器空白,然后使规划人员能够运用较大型的本地存储器模块创立功用更高、功耗更低的体系。
源于SmartConnect的功用功耗比优势
另一项新技能SmartConnect,可进一步进步UltraScale+规划的功用功耗比优势。
Myron说:“SmartConnect是东西和硬件协同优化的结晶,也是一种智能办法,即使规划越来越杂乱,也可轻松完成。”
传统上,当工程师在规划中填充的IP模块越多,开支(功耗和占用面积需求)就越大。Myron说凭借SmartConnect,赛灵思已向Vivado®规划套件增加了一些优化功用,然后能够从体系级层面考虑整个规划。SmartConnect具有最有用的互联拓扑结构,可完成最小的占位面积和最高的功用,然后充沛发挥AXI互联的一些最新增强功用以及16nm UltraScale+芯片的优势。
Myron指出:“16nm UltraScale+器材在这个更高的协议层而不只仅是在路由层上具有更高的功率。这意味着在16nm FinFET优势的根底上进一步进步功用功耗比优势。”
图3展现了一个实在的规划,其含有8个视频处理引擎,一切这些引擎均与处理器和储存器相连。Myron说:或许古怪,像这样的一个实在国际的规划,互连逻辑居然差不多占用了规划总面积的一半。这不只影响功耗,并且还会约束频率。而SmartConnect能够主动重组互连模块并在不影响功用的状况下将功耗下降20%。
16nm ULTRASCALE FPGA规范测验
举例阐明FPGA规划方案的功用功耗比优势,在28nm Virtex-7 FPGA中完成的48端口无线CPRI紧缩与基带硬件加快器的功耗为56W(如图4)。在同一功用水平下运转的同一规划完成在16nmVirtex UltraScale+ FPGA中,功耗仅为27W,比较28nm规划功耗下降了55%,功用功耗比进步了2.1倍。加上UltraRAM和SmartConnect供给的额定功用功耗比优势,完成在VirtexUltraScale+中的规划比较28 nm Virtex-7 FPGA完成方案,功用功耗比进步了2.7倍,功耗下降了63%。
相同,在FPGA功耗预算为15W的图画处理PCI模块中,28 nmVirtex-7可完成每秒525次操作的功用。比较之下,完成在16 nm UltraScale中的同一规划则可完成每秒1255次操作的高功用,功用功耗比进步了2.4倍。加上UltraRAM和SmartConnect供给的额定功用功耗比优势,Virtex UltraScale +完成方案比较28 nm Virtex-7 FPGA完成方案,功用功耗飙升3.6倍。
图3 – SmartConnect技能将互联所占用的面积减少达20%,这样在相同功用水平下,功耗可下降20%。
图4 – 16nm UltraScale+可为那些设法在相同功耗预算范围内更快速完成规划以及企图在相同功用水平下大幅下降功耗的规划人员坚持其明显的功用功耗比优势
ZYNQ ULTRASCALE MPSOC可供给超越5倍的功用功耗比优势
虽然赛灵思本来能够选用台积公司20 nm工艺完成其第二代全可编程SoC,但公司仍会挑选等候选用台积公司的16 nm FinFET工艺来完成该器材。该器材的异构多处理特性集结合16nm UltraScale架构的功用功耗比优势,能够将16nm Zynq UltraScale+ MPSoC打造成更高效的中心处理体系操控器。该器材可供给超越28 nm Zynq SoC 5倍的功用。
上一年,赛灵思针对UltraScale MPSoC架构推出了其“为适宜使命供给适宜引擎”的运用模型,但保留了有关Zynq UltraScale+MPSoC器材应有的特定内核的细节。现在公司正发布全特性集Zynq UltraScale+ MPSoC(如图5所示)。
图5 – 16nm Zynq UltraScale+ MPSoC选用了一组丰厚的处理引擎,规划团队能够为各项使命量身定制处理引擎,然后完成无与伦比的体系功用,然后明显进步其体系价值。
当然,初始28nm Zynq SoC的最大增值是在单个器材中完美集成了ARM处理体系和可编程逻辑。 Zynq SoC的处理体系(PS)和可编程逻辑(PL)模块经过超越3000多个互联(峰值带宽运转速率约为84 Gbps)衔接在一起。PS和PL之间的严密相连所供给的吞吐量和功用不是一个包括FPGA和独立ASSP的双芯片体系架构能简简单单完成的。
现在凭借16nm UltraScale+ MPSoC,赛灵思明显进步了处理体系和可编程逻辑之间的功用,为器材供给了超越6,000次互联(峰值带宽运转速率为500Gbps)。赛灵思公司全可编程SoC产品商场营销与办理总监Barrie Mullins指出:“这使得Zynq UltraScale+ MPSoC处理体系与逻辑体系之间的衔接速率比选用28nm Zynq SoC或许完成的衔接速率快6倍。并且双芯片(ASSP +FPGA)架构的体系功用远远落后于此。”
Mullins说Zynq UltraScale+ MPSoC的中心是64位四核ARM Cortex-A53处理器,其可供给2倍于28nmZynq SoC的双核Cortex-A9处理体系的功用。运用处理体系具有硬件虚拟化和非对称处理功用,可全面支撑ARM的TrustZone®套件的安全特性。
赛灵思还为Zynq UltraScale+MPSoC供给了一个双核ARM Cortex-R5实时处理子体系,可帮忙用户向其体系增加确定性操作。实时处理器可保证为需求最高档别吞吐量、安全性和可靠性的运用供给即时体系呼应。
为进一步进步处理功用,Zynq UltraScale+ MPSoC还内置了一系列的专用图形引擎。ARM Mali™-400MP专用图形加快内核可帮忙主CPU分管图形密集型使命。为帮忙GPU,赛灵思向用于视频紧缩/解紧缩(支撑8Kx4K (15fps)和4Kx2K (60fps)的H.265视频规范)的可编程逻辑块增加了一个硬化的视频编解码器内核。DisplayPort源内核可帮忙用户加快视频数据分组,一起还防止其体系运用外部DisplayPort TX发送器芯片。
Zynq UltraScale+ MPSoC还具有一系列片上存储器增强功用。该产品系列中的最大型器材,其可编程逻辑中除Block RAM外,还包括UltraRAM。一起Zynq UltraScale+ MPSoC的处理内核同享L1和L2高速缓存。
Zynq UltraScale+ MPSoC还选用具有ECC功用的位数更宽的72位DDR接口内核(64位+ECC的8位)。该接口能供给用于DDR4的2,400Mbps速率,可支撑32GB容量的更大内存深度DRAM。
Zynq UltraScale+ MPSoC上的专用安全单元可供给军事级安全性,比方安全发动、密钥与库办理,以及防纂改功用等——这些都是设备间通讯以及互联操控运用的规范需求。此外,Zynq UltraScale+MPSoC的可编程逻辑体系还选用了针对150G Interlaken、100GEthernet MAC和PCIe® Gen4的集成衔接功用块。板载模仿混合信号(AMS) 内核有助于规划团队运用体系监控器(System Monitor)测验其体系。
凭借一切这些功用,不是任何运用都会用到MPSoC中的每个引擎。因而,赛灵思为Zynq UltraScale+MPSoC供给了一个极端灵敏的专用电源办理单元(PMU)。该内核运用户能够操控电源域和分区(粗/细精度),仅为体系正运用的处理单元供电。并且,规划团队能够对该内核进行编程,以完成动态操作,然后保证体系仅运转履行给定使命所需的功用,然后下降功耗。PMU还可完成许多安全性和可靠性,比方信号和差错的检测与缓解、安全状况形式,以及体系阻隔与维护。
Myron表明,归功于上述讨论的16nm新增的一切这些处理功用,选用Zynq Ultra-Scale+ MPSoC构建的规划比较选用28nm Zynq SoC完成的规划,功用功耗比优势均匀进步5倍。
16nm ZYNQ ULTRASCALEMPSOC测验规范
为了阐明Zynq UltraScale+ MPSoC的功用功耗比优势,让咱们来看一下该器材服务的许多运用中的3个运用的规范测验成果,不同色彩用于演示处理引擎的多样性(如图6所示)。
图6 – Zynq UltraScale+ MPSoC具有丰厚的处理模块、外设集和16nm逻辑块,可帮忙规划团队创立出比选用28nm Zynq SoC完成的规划高出5倍功用功耗比优势的立异式体系。
为创立一个运转全1080p视频的视频会议体系,规划人员选用一个带有独立H.264 ASSP的Zynq SoC。运用Zynq UltraScale+ MPSoC的优势,规划人员现在能够在单个Zynq UltraScale+ MPSoC中完成4Kx2K UHD体系,并且在相同功耗预算条件下,该体系比较双芯片体系而言,功用功耗比进步了5倍。
赛灵思公司高档SoC产品线司理Sumit Shah表明:“在需求运用Zynq SoC和两个ASSP的公共安全无线电运用中,现在您只需运用一个Zynq UltraScale+ MPSoC就可完成整个规划,并且相对此前的装备,体系功耗下降了47%,功用进步了2.5倍,然后完成了4.8倍的功用功耗比优势。”
Shah说,相同的,此前完成在两个28nm Zynq SoC上的轿车多摄像头驾驶员辅佐体系,现在能够缩小到一个Zynq UltraScale+ MPSoC上。单芯片体系比双芯片规划的功用进步2.5倍,功耗下降50%。相对此前完成方案而言,这可将功用功耗比净进步5倍。
针对一切UltraScale Plus产品系列的前期客户参加方案正在如火如荼进行。首个流片和规划东西的前期试用版别估计将于2015年第二季度推出。公司有望在2015年第四季度开端向客户出货UltraScale+器材。