1). 浮点运算单元(FPU)简介
Float Point Unit,浮点运算单元是专用于浮点运算的协处理器,在核算范畴,例如三角函数以及时域频域改换一般会用到浮点运算。当CPU履行一个需求浮点数运算的程序时,有三种方法能够履行:软件仿真器(浮点运算函数库)、附加浮点运算器和集成浮点运算单元。差异于以往的ARM9处理器,现在根据Cortex构架的ARM处理均集成了浮点运算单元。如Nvidia Tegra 2, Tegra 3和 NXP/Freescale i.MX 6集成了VFPv3浮点运算单元,NXP/Freescale i.MX 7 则集成了VFPv4浮点运算单元。ARM 浮点架构 (VFP) 为半精度、单精度和双精度浮点运算中的浮点操作供给硬件支撑。它彻底符合 IEEE 754 规范,并供给彻底软件库支撑,与 NEONTM 多媒体处理功用结合运用时,可增强图画运用程序的功用(如缩放、2D 和 3D 转化、字体生成和数字过滤)。
2). 浮点调用约好(Calling Convention)
调用约好由运用二进制接口(Application Binary Interface, ABI)来界说参数是如安在调用过程中传递以及怎么获取返回值,关于ARM CPU常用的ABI为EABI,供给了两种相互不兼容的方法来传递浮点数:
调用约好 |
描绘 |
GCC flag |
|
EABI soft-float |
Floats are passed in normal (integer) registers. |
-mfloat-abi=soft or -mfloat-abi=softfp |
|
EABI hard-float |
Floats are passed in floating point registers (VFP). |
-mfloat-abi=hard |
一般穿插编译ToolChain现已装备好所需的ABI而无需在指令行从头设置,而且ToolChain供给的库也现已主动装备为对应的数据格式。
两个二进制文件(如可履行文件和C库文件)运用不同的调用约好,相互之间是不兼容的。一切的程序和库有必要遵从同一个调用约好进行编译,要么软浮点,要么硬浮点。假如你企图在一个根据硬浮点编译的平台上运转一个根据软浮点的程序时,会呈现 ” No such file or directory ” 过错,虽然这这个文件是存在的而且能够履行。
别的,硬浮点调用约好需求运用浮点运算单元(FPU)的寄存器,因此在不带有浮点运算单元寄存器的处理器上则无法完成。
下面列出Toradex Colibri Tegra ARM 核算机模块 BSP 上所选用的调用约好
BSP Version |
Calling Convention |
|
BSP V1.x |
EABI soft-float |
|
BSP V2.x and later |
EABI hard-float |
3). 协处理器/硬件引擎
如本文开篇所述,现在根据Cortex架构的ARM处理器都内置了浮点运算单元(FPU)来加快浮点数据操作,一般浮点运算单元会增加额定的指令到现有的指令会集。于此相关的NEON指令集增加了单指令多数据操作(single instruction act on multiple data ,SIMD),它完成的是NEON 媒体处理器引擎,供给了根据VFPv3指令集的浮点运算单元功用。
更多介绍请参阅:
– en.wikipedia.org/wiki/ARM_architecture
– wiki.debian.org/ArmHardFloatPort/VfpComparison
./ Toradex Colibri产品系列所供给的协处理器/硬件引擎
Module/CPU family |
VFP Unit |
NEON unit |
|
Colibri PXA(1) |
– |
– |
|
Colibri/Apalis iMX6 |
VFPv3 |
Yes |
|
Colibri T20 |
VFPv3-D16 |
– |
|
Colibri/Apalis T30 |
VFPv3 |
Yes |
|
Colibri VFxx |
VFPv3 |
Yes |
- 注:PXA 系列中心板没有硬件浮点运算单元,可是GCC编译器供给了经过优化的根据Intel Integer SIMD extension(iWMMXt)的软浮点运算仿真功用。
4). 编译器选项
相关介绍请见如下,下面相同以Toradex产品为例:
gcc.gnu.org/onlinedocs/gcc-4.7.3/gcc/ARM-Options.html#ARM-Options
./ Toradex Colibri Tegra 系列 BSP 编译器选项
BSP Version |
GCC flag |
|
BSP V1.x |
-march=armv7-a -mfloat-abi=softfp -mfpu=vfpv3-d16 |
|
BSP V2.x and later |
-march=armv7-a -mfloat-abi=hard -mfpu=vfpv3-d16 |
./ Toradex Colibri PXA编译器选项
运用软浮点调用约好编译器,一起编译器选项不能包括FPU相关,发生的代码中不包括由FPU来履行的指令,而是依赖于CPU整数指令集根据相关库进行运算。
—————————————————————————————-
-march=armv5te -mtune=xscale -O3
—————————————————————————————-
./ Toradex Colibri T20编译器选项
发生的代码兼容于含NEON 协处理器的CPU 。取决于在mfloat-abi 选项所装备的调用约好为”softfp” 仍是”hard”
—————————————————————————————-
-march=armv7-a -mfloat-abi=xxx -mfpu=vfpv3-d16 -mtune=cortex-a9 -O3
—————————————————————————————-
./ Toradex Colibri/Apalis i.MX6/T30编译器选项
取决于在mfloat-abi选项所装备的调用约好为”softfp” 仍是”hard”
—————————————————————————————-
-march=armv7-a -mfloat-abi=xxx -mfpu=neon -mtune=cortex-a9 -O3
—————————————————————————————-
./ Toradex Colibri VFxx编译器选项
取决于在mfloat-abi选项所装备的调用约好为”softfp” 仍是”hard”,未来能够经过更多的mfpu 选项来优化NEON的完成。
—————————————————————————————-
-march=armv7-a -mfloat-abi=xxx -mfpu=neon -mtune=cortex-a5 -O3
—————————————————————————————-
5). 检测一个二进制文件的浮点调用约好
相同以Toradex产品为例,其所发布的Linux Images 一切的object 方针文件都运用ELF,具体介绍请参阅:
en.wikipedia.org/wiki/Executable_and_Linkable_Format
首要架构信息(如i686 或许ARM)能够经过” file afile “程序来获取,架构相关特点信息能够经过” readelf –A afile “程序来获取 (原生或许穿插编译ToolChain都能够运用readelf)
假如readelf指令输出信息里边包括”Tag_ABI_VFP_args: VFP registers”,则调用约好为硬浮点;如没有,则为软浮点。
./ 以Colibri T20 编译的同享方针文件为例
•运用 VFPv3-D16 指令和寄存器
•不运用 SIMD extensions
•硬调用约好
—————————————————————————————————————————————————
$ file colibri-t20/usr/lib/libcurl.so.5.3.0
colibri-t20/usr/lib/libcurl.so.5.3.0: ELF 32-bit LSB shared object, ARM, version 1 (SYSV), dynamically linked, not stripped
$ readelf -A colibri-t20/usr/lib/libcurl.so.5.3.0
Attribute Section: aeabi
File Attributes
Tag_CPU_name: “7-A”
Tag_CPU_arch: v7
Tag_CPU_arch_profile: Application
Tag_ARM_ISA_use: Yes
Tag_THUMB_ISA_use: Thumb-2
Tag_FP_arch: VFPv3-D16
Tag_ABI_PCS_wchar_t: 4
Tag_ABI_FP_denormal: Needed
Tag_ABI_FP_exceptions: Needed
Tag_ABI_FP_number_model: IEEE 754
Tag_ABI_align_needed: 8-byte
Tag_ABI_align_preserved: 8-byte, except leaf SP
Tag_ABI_enum_size: int
Tag_ABI_HardFP_use: SP and DP
Tag_ABI_VFP_args: VFP registers
Tag_CPU_unaligned_access: v6
—————————————————————————————————————————————————
./ 以NXP/Freescale Vybrid 编译的同享方针文件为例
•运用 VFPv3 指令和寄存器
•运用用 NEON SIMD extensions
•软调用约好
—————————————————————————————————————————————————
$ file twr-vf65gs10/usr/lib/libcurl.so.5.3.0
twr-vf65gs10/usr/lib/libcurl.so.5.3.0: ELF 32-bit LSB shared object, ARM, version 1 (SYSV), dynamically linked, not stripped
$ readelf -A twr-vf65gs10/usr/lib/libcurl.so.5.3.0
Attribute Section: aeabi
File Attributes
Tag_CPU_name: “7-A”
Tag_CPU_arch: v7
Tag_CPU_arch_profile: Application
Tag_ARM_ISA_use: Yes
Tag_THUMB_ISA_use: Thumb-2
Tag_FP_arch: VFPv3
Tag_Advanced_SIMD_arch: NEONv1
Tag_ABI_PCS_wchar_t: 4
Tag_ABI_FP_denormal: Needed
Tag_ABI_FP_exceptions: Needed
Tag_ABI_FP_number_model: IEEE 754
Tag_ABI_align_needed: 8-byte
Tag_ABI_align_preserved: 8-byte, except leaf SP
Tag_ABI_enum_size: int
Tag_ABI_HardFP_use: SP and DP
Tag_CPU_unaligned_access: v6
—————————————————————————————————————————————————
./ 以Colibri PXA 编译的同享方针文件为例
•不运用浮点运算单元
•不运用SIMD extensions
•软调用约好
—————————————————————————————————————————————————
$ file colibri-pxa/usr/lib/libcurl.so.5.3.0
colibri-pxa/usr/lib/libcurl.so.5.3.0: ELF 32-bit LSB shared object, ARM, version 1 (SYSV), dynamically linked, not stripped
$ readelf -A colibri-pxa/usr/lib/libcurl.so.5.3.0
Attribute Section: aeabi
File Attributes
Tag_CPU_name: “5TE”
Tag_CPU_arch: v5TE
Tag_ARM_ISA_use: Yes
Tag_THUMB_ISA_use: Thumb-1
Tag_ABI_PCS_wchar_t: 4
Tag_ABI_FP_denormal: Needed
Tag_ABI_FP_exceptions: Needed
Tag_ABI_FP_number_model: IEEE 754
Tag_ABI_align8_neededU: Yes
Tag_ABI_align8_preserved: Yes, except leaf SP
Tag_ABI_enum_size: int
——————————————————————————————————————————————————