Cortex-A15架构解析：探究微弱功能的隐秘

　　本年的新手机趋势无异是全面向四核挨近，不过相同是四核，在实践的功用上其实是千差万别。例如针对入门级干流商场的四核手机遍及选用的都是Cortex-A7以及 Cortex-A9 等级的CPU内核，这类内核功用、本钱以及发热都会较低，因而在入门商场上大行其道。

　　而在高端智能手机中则呈现了一些新的改变，除了上一年就现已锋芒毕露的高通Krait系列架构四核外，ARM正统的Cortex-A15也开端走上了四核手机的舞台，例如三星的Exynos 5 Octa、NVIDIA 的Tegra 4。

　　Cortex-A15是ARM Cortex-A宗族中现在最微弱的CPU内核架构，发布时刻为2010年，德州仪器是最早（2011年）投产依据该架构处理器（类型为OMAP 5）的授权厂商。

　　和ARM的Cortex-A7、Cortex-A9等微架构比较，Cortex-A15有很大的不同。

　　A15和A9相同具有乱序履行，可是Cortex-A15具有（两倍）的指令发射端口和履行资源，指令解码才能也要高出50%，动态分支猜想才能更强（选用了多层级分支表缓存），指令拾取带宽更强（128 bit vs 64 bit），这些都能让A15的流水线履行具有更高的功率。除此以外，A15选用了VFPv4浮点单元规划，能履行FMA指令以及硬件除法指令，相较而言A9的峰值向量浮点功用根本上只要A15的一半。

　　不过在实践中，A15 的对手应该是高通自行规划的 ARMv7A 兼容处理器架构 Krait。高通对 Krait 的架构细节泄漏并不是许多，大致上便是 3 个指令解码端口（和 A15 相同）、7个指令发射端口（A15 是8个）、4个发射端口（A15 是8个），具有4KB+4KB的单周期时延L0 Cache规划。

　　假如选用老掉牙的Dhrystone DMIPS/MHz作为功用衡量方针，Krait 是3.3，A9 是2.5，而A15则是3.5，从纸面上看Krait确实十分合适作为A15的对手。

　　不过Dhrystone的缺陷是清楚明了，它是彻底能够塞进CPU的L1 cache里履行，这就意味着无法以此对L2 cache（A15是一体化规划，Krait是分离式规划，一体化规划能够削减内存交流导致的许多时延）、乱序履行的硬件功率/杂乱性、内存子体系单元（A15的内存单元能够完成在必定条件下预履行一条加载指令，而Krait能否具有这样的才能尚不清楚）等许多体系架构差异对实践功用的影响作出有价值评价。

　　当然，ARM选用的DMIPS方针实践上并非28年前的那个Dhrystone，而是来自EEBMC Coremark（其实 Coremark 便是前者的改善版别，首要是为了削减预优化、对测验有比较严厉的规矩），可是CoreMark相同能够塞进如今大多数处理器的L1 cache里，Dhrystone不能反映如今移动设备实在运用的问题在这儿仍然存在。

　　由于运用环境日趋杂乱，要正确评价一个移动设备处理器的功用变得越来越杂乱，由于现在的移动设备跑的网页阅读、三维游戏、音视频、人工智能等都不或许能够彻底塞进L1 Cache里，由于这些运用牵涉到许多的数据处理。

　　这时分，人们在台式机功用评价上学到的经历和测验方法就能够在移动设备上选用了。对CPU测验来说，最合理的测验方法是选用多种核算规划的实在运用源代码以本机代码进行编译再进行测验，在这样的状况下移动设备的核算单元、内存单元都得以充沛检测，测验成果最具参阅价值。

　　能够取得业界（核算机工业、学术科研）官方认可的CPU测验当属SPEC.org的SPEC CPU，它便是选用源代码方法，让测验人员能够编译为本机代码来测验，许多处理器在研制伊始就选用SPEC CPU作为最重要的功用评价方针。

　　SPEC CPU的最新版别为CPU2006，可是CPU2006针对的是当时的台式机、作业站、服务器处理器运用环境，内存容量（CPU2006 支撑多线程测验，因而要求的内存容量适当高，8线程处理器用16 GB内存也是有点牵强）和自身存储空间（未编译时就要数GB空间，编译后就要占用1xGB了）要求都较高，因而选用CPU2006对现在的移动设备来说是不太实践的。

　　SPEC CPU是每隔几年就更新一次，在CPU2006之前的旧版别为CPU2000，它的speed整数功用测验彻底能够在1GB等级的移动设备上运转，在从前乃至有一些 CPU2000的测验被移植到GPU上做加快功用测验。

　　ARM阵营很少发布SPEC CPU测验成果，这当然也是有原因的，由于在曩昔的不少时刻里，ARM针对的设备大都只要几百兆内存空间，塞进操作体系后，留给程序运转的空间就更少，此外由于省电先决的考量ARM处理器的功用其实真的不怎么样。

　　不过有意思的是，本年ARM阵营里的NVIDIA在发布Tegra 4的时分发布了CPU2000INT的测验成果：在1.9GHz 频率设定的NVIDIA参阅渠道里，Tegra 4的SPEC PU2000int_base 为1168。这个测验成果适当于2003年第四季度 SPEC.org 上发布的AMD K8 Sledgehammer 2GHz测验成果。

　　NVIDIA还进行了在小米手机2（选用高通 Snapdragon S4 Pro 即 APQ8064 1.7GHz）上的CPU2000测验，而且依据高通发布的S800相对S600在IPC（每周期指令）和频率上的改变起伏而预算出来的S800的CPU2000测验成果：

　　从图表来看，S600的CPUINT2000_base测验成果适当于Tegra 4的一半不到，这在很大程度上反映了Cortex-A15相对Krait系处理器的实在运用不同。

　　需求指出的是，两边的测验渠道自身也是有一些影响的，例如小米手机2履行这个测验的时分，CPU频率是否存在降频现象，NVIDIA对此没有阐明。

　　一般来说，像APQ8064在四核全速运转的时分，会在一段时刻内由于过热而导致频率从最高的1.7GHz开端下降。当然，NVIDIA在这儿发布的是speed形式下的CPU2000INT测验成果，这个形式下是单线程的测验，只要一个CPU内核会被运用。

　　比较惋惜的是高通对这个测验成果没有提出异议（听说高通关于处理器功用的孰高孰低并不十分垂青，他们戏称是卖基带送CPU），而CPU2000的装备对一般人来说是适当杂乱的作业，所以这个测验暂时没有第三方运用相同的渠道测验佐证。

　　威盛电子在发布Nano X2处理器的时分从前发布过一份文件，里边也有选用CPU2000对Nano X2 1.2+GHz和Atom D525进行测验，其间gcc编译器出来的CPU2000 INT成果分别为799和582，选用Intel编译器出来的成果分别是955和725。

　　NVIDIA的Tegra 4的CPU归于ARMv7A指令集，因而编译器很或许是armcc或许gcc，NVIDIA新近收买的PGI是一家老牌编译器厂商，或许它能供给内部测验版给 NVIDIA，仅仅PGI过往从未发布过ARM系编译器。

　　到这儿，咱们应该对Cortex-A15的架构特色以及和它的一些竞争对手在功用上的差异有大致的了解，不过这样的旗舰级处理器在智能设备的实践运用状况又怎么呢？

　　有选用四核Cortex-A15手机了吗？

　　这个问题其实来自于一些人的猜想，咱们看见一些文章以为Cortex-A15的功用高可是功耗大，并不必定适用于手机。

　　这个问题放在一年前的话或许会有各种不同的答案，可是现在是2013年8月下旬，答案现已十分明晰：现已有选用四核Cortex-A15的手机上市，而且会有更多的选用Cortex-A15的手机上市，这也为Cortex-A15是否适用于手机的争辩画上了一个句号。现在，清晰可用于手机的Cortex-A15架构的四核移动处理器首要有两种，一种是三星的Exynos Octa，别的一种是NVIDIA Tegra 4。

　　三星公司在4月27日上市的Galaxy S4有多个类型，可是从处理器来分，就分为两种机型：高通Snapdragon 600和三星Exynos 5410。

　　S600其实相似于上一年大红大紫的APQ8064，CPU微架构为Krait 300，相对APQ8064的Krait微架构来说，它添加了硬件数据预取器，能预先将数据从内存中抓到L2 cache里。除此以外Krait 300还改善了分支猜想的准确度，这些改变能改善Krait 300的IPC（每周期指令）大约15%，加上最高频率提高至1.9GHz（取决于手机厂商，像HTC One就挑选了较低的或许说和APQ8064上限相同的1.7GHz），因而能够以为S600的CPU功用比之前的S4 Pro最多提高了大约28.5%左右，更挨近于Cortex-A15的功用，不过它运用的制程和S4 Pro相同仍然是28nm LP，这个制程没有在漏电流上作优化，因而在耗电方面S600比S4 Pro更大。

　　为什么三星不挑选单一类型处理器的方法呢？首要三星肯定要支撑自家研制的处理器，这是毫无疑问的，因而依据Cortex-A15的E5410天然成了装备之一;其次是三星作为一家韩国公司，一起也是一家跨国公司，产品需求卖向全球，有些确完成已迈向了4G LTE，有些则仍是3G年代，面临世界各地的通讯制式、协作运营商的要求以及全球行销的潜规矩，高通方面的产品是不得不考量的，因而在这儿也把定位比较挨近的S600作为另一种装备以支撑LTE。

　　三星Galaxy S4 GT-I9500主电路板正面

　　三星Exynos 5410管芯图，深色部分是四核A15区域，粉红色部分是四核A7区域

　　在国际版的GT-I9500（以及中国大陆区的联通版、电信版）选用的三星Exynos 5 Octa内部类型为Exynos 5410，CPU部分是一组四核Cortex-A15加另一组四核 Cortex-A7的调配方法。不过Exynos 5410只支撑big.LITTLE形式里的IKS（核内切换器），不支撑GTS（大局使命调度）形式，因而看上去尽管有物理上的八个内核，可是本质上同一时刻内最多只能完成一起运用四核A15或一起运用四核A7，怎么切换则是由依据当时使命的负荷性质决议。

　　NVIDIA Tegra 4推出多个月后，除了自家的SHIELD和HP、华硕以及东芝等厂商的笔记本电脑外，还会被用于一些手机里边，现在现已发布的有中兴的U988S，据闻还会有更重量级的手机随后出来。

　　NVIDIA Tegra 4管芯图，橙色区为4+1Cortex-A15中心，绿色小方块区域为GPU

　　Tegra 4和三星Exynos 5410的主CPU都选用了四核Cortex-A15，不过NVIDIA没有选用ARM的big.LITTLE结构，而是选用自己4+1核的结构，4+1 中的“1”被称作伴侣核。

　　“伴侣核”是一个选用省电规划、运转在较低频率下的Cortex-A15内核，用于处理负载较轻的使命以到达省电的意图，一旦负载较重就会切换到主CPU核上。

　　和Cortex-A15+Cortex-A7的big.LITTLE比较，这样的规划据称有两个优点：

　　首要，是由于“伴侣核”与主CPU中心架构彻底相同，CPU切换时（或许说程序履行的现场切换）的时刻比Cortex-A15切换到Cortex-A7的方法快许多，这是由于不必进行杂乱的映射;

　　其次，Cortex-A15的单核功用比Cortex-A7高许多，因而大多数一般的运用中并不需求频频切换到主CPU，然后到达更省电的意图。当然，具体的耗电状况需求比及设备出来后进行具体测验。

　　在商业社会里衡量一款产品是否成功，要害的方针之一天然是出货量。依照Digitimes征引TrendForce（集邦科技）在本年七月末的一份研究报告，三星Galaxy S4的出货量将会到达2300万部的总出货量，而在更早之前现已有媒体报道指出三星Galaxy S4的出货量“现已”到达两千万台。

　　假如仅仅靠品牌知名度和洽不好看的话，任何产品也不或许做到快速的许多出货，Galaxy S4作为旗舰级产品，它的规范装备在吸引力方面起到了很大的效果，四核Cortex-A15或许四核S600的选用是它成功的要害要素之一，这些成功反过来也会对人们的品牌认受度发生正面形象。

　　上图便是咱们前面提及的预期购买手机品牌查询百分比，能够看到在三星发布了Galaxy S4第一季度到第二季度改变值是呈上升态势，而苹果方面则是仍然不断地下滑。

　　所以从这一末节中咱们能够得出结论，商场上现已有四核Cortex-A15手机上市，而且从商场趋势来看这样的产品现已取得了实质性的认可。

　　不同类型的Cortex-A15芯片规划是否相同呢？

　　ARM的试验室里尽管也有自己开发的处理器实体，可是这些处理器是作为研制之用，不会拿出来卖给终究顾客的，商场上的“ARM”处理器都是ARM透过架构授权或许内核授权的方法由第三方厂商开发或许凑集而成。

　　因而在商场上你会看到形形色色、林林总总的ARM处理器，它们来自不同的芯片规划公司、不同的制造厂商，由于规划技术水平、经历以及制造厂的制程不同，实践上出来的芯片在一些方针、功用上会有不行忽视的差异。

　　就比如咱们这儿说到过三星Exynos 5410和NVIDIA Tegra 4，CPU都选用了四核Cortex-A15，可是两者的差异其实多，例如：

　　1、Exynos 5410选用三星的28nm LP HKMG制程，最高频率设定是1.6GHz，Tegra 4选用台积电的28nm HPL制程，最高设定频率为1.9GHz;

　　2、Exynos 5410选用了A15*4 + A7*4的规划，Tegra 4 选用了高频A15*4+低频（700~800MHz）低耗电A15*1的规划;

　　3、两者的GPU天壤之别，Exynos 5410选用了ImgTec授权的PowerVR SGX544MP3 （tri-core） @480MHz，Tegra 4 选用的是NVIDIA自己开发的GPU架构，几许单元为单精度浮点，像素单元为20位浮点，这应该是汲取了当年GeForce FX代代受挫的经历而特别编造的平衡规划。

　　4、两者的die size（管芯尺度）不相同，Exynos 5410依照EDN的说法应该是122mm^2，而Tegra 4大约是80mm^2，后者比前者小了大约33%，Tegra 4的规划方针更倾向于功用、耗电、本钱三者的平衡，而三星由于选用的PowerVR是归于分块式拖延渲染器（TBDR），因而片上需求有TBDR独有的电路，这些电路会添加不少面积。

　　从这一末节咱们能够看出，相同是选用四核A15的处理器，在许多方面都是彻底不相同的，这将对处理器的功用、功用、耗电构成不少的影响，终究反映到终端设备——手机、平板电脑上的表现也会有必定的不同。

　　同一款处理器不同版别在耗电上相同吗？

　　NVIDIA在较早之前发布的SHIELD选用的是前面说到的Tegra 4处理器，这是NVIDIA的第四代Tegra处理器，和其他手机SoC芯片厂商有多款不同芯片供挑选不同的是，NVIDIA这几年走的都是单芯片多类型道路，也便是把芯片单纯依照频率、GPU使能规划来区分多个类型供客户挑选。

　　SHIELD 选用的Tegra 4具体类型是T40，是Tegra 4的尖端功用版别，最高频率设定为1.9GHz，GPU规划使能规划为72 core可是频率多少并不清楚，Tegra 4 GPU的文档有说到在672MHz时分的功用规范，可是这不代表T40的GPU便是这样的规范。

　　不过手机明显不会上这样规范的Tegra 4，由于SHIELD的形制较大，能够塞进电扇辅佐散热，电池容量也能够支撑这样规范跑挨近10小时的游戏，即便是旗舰等级手机的个头只要它的三分之一不到。

　　NVIDIA供给的手机版Tegra 4类型为AP40，这个版别在多个方面做了精简，例如T40有许多的I/O口，AP40只保留了必要的，温控的战略也会有不同。

　　从一些厂商供给的音讯，通过这些精简后，AP40的TDP（热规划功率，代表能让设备低于结温所需的散热才能）从T40的8-10瓦下降到了3瓦等级，这适当下降到了1/3不到，改变十分大。

　　那么功率下降到这么多，功用是否会有大的下降呢？这是一个风趣的问题。不同的厂商会选用不同的功耗操控战略。一般在多中心一起高负荷作业下，手机的处理器作业速度会跟着温度的上升而下降，然后把总的功耗降到较低的水平。

　　不过，单中心作业的时分，频率的下降速度就会慢许多。而且大部分的状况下，CPU高负荷的往往是间歇性的，关于大部分的运用，实践的功用应该不会有什么影响。

　　CPU功用的重要性

　　Cortex-A15 相关于S600、S800、Cortex-A9、Cortex-A7 等“对手”来说优势便是具有更强的单中心功用。在多线程程序并不十分遍及的状况下，单中心功用的重要性是毋庸置疑的。

　　其实无论是手机仍是咱们的台式机、笔记本电脑，日常的不少程序都选用单线程代码。多线程程序的开发需求比较杂乱的代码编写、经历以及调试，而且许多使命并不简略做到并行化，因而通过许多年今后，实践上真实的多线程重负荷的程序即便在PC上也并不遍及，在移动渠道上就更少了。

　　除了一些专门用来烧机的软件外，能让多核尤其是四核手机老是处于跑满状况的运用可说是少之又少，更常见的状况是某些高核算负荷的使命让四核冲起来一下就跑完了。

　　举个简略的比如，例如刷微博或许刷网页的状况，里边包含许多图文的信息，刷的时分速度快的处理器能够很快地显示出内容，而速度较慢的处理器则需求等候一段时刻。

　　刷完今后CPU总的占有率会突然下降，之后都是一些单线程的程序让单个内核处于较丰满的负载状况。

　　真实需求CPU高负荷的时刻占总时刻的份额很低，乃至连1%都远远不到，可是这个时刻尽管很短，却往往是影响用户体会的一个十分重要的要素。

　　因而，CPU的峰值功用的重要性毋庸置疑。此外，现在有一种趋势，移动处理器面临的屏幕分辨率乃至遍及比笔记本电脑乃至台式机更高，这意味着界面的处理压力越来越高。

　　界面的改写和网页改写的状况相似，对CPU的功用要求高，可是时刻短，用户的体会感触很直接。

　　因而更高的处理器速度也将是一种硬性的需求，而不是可有可无的铺排。可是关于功用和功耗的评价需求有理性的剖析，有一些人一味着重拷机软件下的CPU频率过热降频状况对手机用家来说其实是某种程度的误导，这和实践的运用状况彻底不相同。

　　多核处理器的含义更多在于多使命的状况。Android和Windows都是典型的多使命操作体系，多核处理器在处理多使命的时分大大提高了多个程序一起运转时的处理和响应速度。

　　不过，多使命关于中心数量的需求是有限的，PC CPU和移动处理器干流的中心都是两到四核，这不是偶尔的。

　　尽管体系中有多个线程和多个使命一起存在，可是出于活泼状况的往往也就少量几个，因而更多的CPU中心含义是不大的。现在有些厂商推出的所谓八核Cortex-7的处理器，在绝大部份的状况下功用必定还不如双核Cortex-A15。

　　ARM推出A12就等于否定A15？

　　ARM是一家十分朴实的规划公司，它并不向终端顾客、厂商出售任何处理器，而是供给授权给第三方公司，让其自行规划或许堆砌出自己的处理器。

　　这样的优点是它能够节省掉一大笔行销上的资源，ARM规划一款处理器内核并不会发生任何库存压力，它只消告知厂商这个处理器怎么做对接以及能够用来干嘛就能够了，接下来便是等着收钱了。

　　在这样的状况下，ARM能够做到十分灵敏多变，当看到商场上（或许是将会）存在空挡时分，就能很快推出相应的“产品”。依照时刻来看，Cortex-A12的推出其实便是瞄准了Cortex-A7/A53和Cortex-A57之间的空地，归于未来一年后的中端偏低商场的主力。

　　在Cortex-A12推出后，有些人就立刻下结论，这代表了ARM对Cortex-A15在手机运用上的否定。

　　假如以big.LITTLE布局来看Cortex-A12归于ARM产品规划中的big，也便是倾向功用先决的内核，现在确认的制程包含了GlobalFoundries的SLP-28和台积电的28 HPM。Cortex-A12和Cortex-A9相同是双发射乱序履行，可是和A9比较，A12的乱序履行不只限于整数流水线，而是浮点流水线和内存操作都具有了乱序履行。

　　此外 A12完成了VFPv4浮点单元而且将Neon向量单元列为规范装备，Coremark测验能够做到单核3.0 DMIPS/MHz，比较之下A9 和A15 分别是2.5和35。

　　所以很明显，A12功用处于A9和A15功用之间，这对ARM来说是很正常不过的作业。事实上ARM在发布A12的一起还更新了A9，说到A9 r4版的功用更新，依照幻灯片，对分支猜想和内存子体系作改善后的r4在IPC 上能做到初版A9 的1.4倍左右。

　　Cortex-A9至今现已有多个版别，见上图的r1-r4描绘

　　假如单看IPC的话，A9 r4是不是和A12很相似？那假如依照某些人的思想，A9 r4岂不是能够用来否定A15？

　　现在A9 r4现已在NVIDIA Tegra 4i里边选用，依照NVIDIA的数据，在BBench中比较A9 r1有25%的功用提高，而在SPECint 2000中也有15%的功用提高，依据Tegra 4i的终端很或许会在下一年第一季度就能看到，而A12还没有任何厂商宣告选用，A15即便退下前方也未必是由于A12的呈现，由于A15的定位顶替者其实是依据ARMv8的 A57。

　　余论与跋文

　　看到这儿，信任咱们现已根本了解了Cortex-A15大致架构和功用、定位，而装备四核Cortex-A15的三星Galaxy S4手机现已取得了十分瞩意图成功。

　　不同厂商、不同类型的四核Cortex-A15处理器在许多方面都存在不少的不同，这些不同或由于规划意念、经历，或由于各安闲某范畴的优势，或由于产品定位，或由于制程，这些不同让咱们不能简略地类比，例如直接把某类型的Cortex-A15四核处理器在功用、功耗的方针类推到另一类型上。

　　手机功用测验是比较特别的，它是一个关闭的东西，从硬件视点看，绝大多数状况下你不能把里边的东西卸下来拿到另一部不同类型的手机里测验来验证不同硬件组合下的影响，从软件视点看，现在缺少满足的东西和经历了解在测验的时分究竟发生了什么，究竟是广谱的优化仍是定制优化非知情者是很难了解的。

　　关于手机来说，单线程的功用相同不容忽视，这和多线程代码编写的难度有直接关系，实践中许多运用仍是依据单线程的，在此刻Cortex-A15的单线程功用优势就能表现出来。

　　在日常运用中没有多少运用会像拷机程序那样长时刻继续的四核悉数跑满，尤其是在手机运用中，在手机测验中选用这类程序究竟有多少含义是令人置疑的，手机用家真的会整天没事呆看手机跑StabilityTest之类的东西吗？

　　Cortex-A12上市的时刻点或许是下一年下半年今后的作业，它的功用定位便是顶替Cortex-A9，而Cortex-A15的顶替者将会是Cortex-A57，Cortex-A12在此刻（A57年代）扮演的便是中阶偏低的人物。

　　总归，我信任在未来的一年里，Cortex-A15四核版的手机将会越来越多，相应的芯片类型也会层出不穷，其间应该不乏成功的产品

扫一扫打开手机网站

微信扫一扫关注我们

Cortex-A15架构解析：探究微弱功能的隐秘

联系我们

微信扫一扫关注我们

为您推荐

芯对话 | 微处理器监控电路革新：CBM70X系列 重构系统可靠性

芯对话 | 从音频到工业 CBM8655/CBM8656低噪声运放实践指南

无线传输扩频技术和加密通信原理解析

高性能碳化硅隔离栅极驱动器如何选型

ADALM2000实验：变压器

小漫电子经销HXY MOSFET(华轩阳电子) SI2302-HXY 场效应管(MOSFET)

联系我们

微信扫一扫关注我们

芯对话 | 微处理器监控电路革新：CBM70X系列重构系统可靠性