您的位置 首页 ADAS

浮点矩阵相乘IP核并行改善的规划与完成

基于Altera浮点IP核实现浮点矩阵相乘运算时,由于矩阵阶数的增大,造成消耗的器件资源虽增加但系统性能反而下降的问题,针对现有IP核存在数据加载不连贯、存储带宽不均匀的不足,提出采用并行化数据存储、

嵌入式核算作为新一代核算体系的高效运转方法,应用于多个高功能范畴,如阵列信号处理、核武器模仿、核算流体动力学等。在这些科学核算中,需求很多的浮点矩阵运算。而现在已完成的浮点矩阵运算是直接运用VHDL言语编写的浮点矩阵相乘处理单元[1],其关键技术是乘累加单元的规划,这样规划的硬件,其功能依赖于规划者的编程水平。此外,FPGA厂商也推出了必定规划的浮点矩阵运算IP核[2],尽管此IP核应用了本厂家的器材,并经过专业调试和硬件实测,功能安稳且优于手写代码,但仍可对其进行改善,以进一步进步运算速度。

1 Altera浮点矩阵相乘IP核原理

Altera公司推出的浮点矩阵相乘IP核ALTFP_MATRIX_MULT,是在Quartus软件9.1版别以上的环境中运用,可以进行必定规划的浮点矩阵相乘运算,包括A、B矩阵数据输入,数据浮点乘加,数据缓存及相加输出四大部分。其间最能体现浮点核算功能的是浮点乘加部分,而周围的操控电路及输出则影响到体系的最高时钟频率,间接地影响体系全体功能。

整个矩阵相乘电路原理是将输入的单路数据(A、B矩阵共用数据线),经过操控器发生A、B矩阵地址信号,操控着A矩阵数据输出和B矩阵数据输出,并将数据并行分段输出到浮点乘加模块进行乘加运算,之后串行输出到一个缓存器模块中,再以并行方法输出到浮点相加模块,最终取得核算成果。从其原理可以看出,在数据输入输出方面仍有许多可改善的当地。

2 IP核存在的缺点及改善

2.1 存在缺点

(1)输入数据带宽的不均衡性。在矩阵A、B的数据输入时,Altera的IP核将A矩阵数据存于M144K的Block RAM中,而将B矩阵数据存于M9K的Block RAM中,导致IP核中A矩阵数据的带宽小于B矩阵数据的带宽,并需求必定数量的存放器组使A矩阵数据带宽可以匹配于B矩阵数据带宽。由此可见,A、B矩阵数据的存储遭到器材束缚和存储束缚,一起因为在浮点乘加模块的输入端(A、B矩阵数据)带宽不同,形成A矩阵数据的输入需求额定的处理时刻。

(2)加载数据的不连贯性。在矩阵数据加载时,IP核经过将数据分段成等分的几部分,用于向量相乘。因为矩阵A存储带宽窄需求4步存放(由Blocks决议),在第3个周期时才加载数据B用于核算,送到一个FIFO中存储;在第6个时钟周期时加载矩阵A分段的第二部分进行各自的第二部分核算,最终当核算到第15个周期时,才可经过浮点相加,核算出矩阵C的第一个值,之后核算出矩阵C的其他值C11。从上述结构可见,在分段相乘之后,选用先对一个FIFO进行存储,存满后再对下一个数据FIFO进行存储,形成时刻上糟蹋过多。

2.2 规划改善

鉴于上述缺点,在输入A、B矩阵的存储方法上,进行串行输入到并行输入的改善,使得两个矩阵能同步输入到浮点乘加模块。在数据加载方法上,将A矩阵用3个周期加载结束,再处理相乘运算;将分段相乘成果进行直接存储相加,取得C矩阵的第一个值,减缩运算时刻。规划的改善框图如图1所示。

浮点矩阵相乘IP核并行改善的规划与完成.pdf

声明:本文内容来自网络转载或用户投稿,文章版权归原作者和原出处所有。文中观点,不代表本站立场。若有侵权请联系本站删除(kf@86ic.com)https://www.86ic.net/qiche/adas/194515.html

为您推荐

联系我们

联系我们

在线咨询: QQ交谈

邮箱: kf@86ic.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部