当前位置：首页 > news >正文

AArch64架构下128位浮点运算的实现与优化

news 2026/7/26 13:27:19

1. 理解AArch64下的128位浮点运算支持问题

在AArch64架构的软件开发中，我们经常会遇到需要高精度浮点运算的场景。根据Arm 64位架构ABI规范，long double数据类型被定义为128位浮点数（即所谓的"四倍精度浮点"）。然而在实际开发中，使用Arm Compiler 6编译包含long double运算的代码时，开发者经常会遇到令人困惑的链接错误。

问题的根源在于硬件支持的限制。虽然AArch64架构支持硬件浮点运算指令，但这些指令仅针对32位（float）和64位（double）浮点数。对于128位的long double类型，Arm架构并没有提供对应的硬件指令支持。因此，编译器需要依赖软件库函数来实现这些运算。

当你在代码中使用long double进行运算时，编译器会生成对特定库函数的调用，例如__multf3（用于乘法运算）、__addtf3（用于加法运算）等。但Arm的标准C/C++库中并未包含这些函数的实现，这就导致了常见的链接错误："Error: L6218E: Undefined symbol __multf3"。

注意：这个问题与编译器版本无关，而是Arm标准库的固有设计决策。即使是最新版本的Arm Compiler 6也会遇到同样的问题。

2. 解决方案概述与准备工作

2.1 整体解决思路

要解决这个问题，我们需要从开源项目中获取这些128位浮点运算函数的实现，然后将其编译为可供Arm Compiler 6使用的库。具体步骤如下：

从LLVM的compiler-rt项目中获取相关源文件
使用Arm Compiler 6编译这些源文件
将编译得到的对象文件链接到你的项目中

2.2 必要的开发环境准备

在开始之前，请确保你的开发环境满足以下要求：

已安装Arm Compiler 6（推荐使用6.16或更高版本）
具备基本的命令行操作能力（Linux/macOS的终端或Windows的PowerShell）
有足够的磁盘空间（完整解压LLVM仓库需要约1GB空间，但我们只需要其中一小部分文件）
网络连接正常（需要从GitHub下载代码）

对于Windows用户，建议安装7-zip或其他支持ZIP文件解压的工具。Linux/macOS用户可以直接使用系统自带的unzip命令。

3. 获取并准备源代码

3.1 从LLVM获取源代码

我们需要的128位浮点运算函数实现位于LLVM项目的compiler-rt子模块中。为了确保稳定性，Arm推荐使用特定的提交版本（b68bae6a94fb5b5251cf6b08eb81799ea99ea0df）。

获取源代码的最简单方法是直接下载该提交的ZIP存档：

wget https://github.com/llvm/llvm-project/archive/b68bae6a94fb5b5251cf6b08eb81799ea99ea0df.zip

提示：由于LLVM项目体积较大，完整下载可能需要一些时间。建议只提取我们需要的部分文件，而不是解压整个仓库。

3.2 提取必要文件

解压时，我们只需要compiler-rt/lib/builtins目录下的特定文件。在Linux/macOS上可以使用以下命令：

unzip -qq b68bae6a94fb5b5251cf6b08eb81799ea99ea0df.zip \ "llvm-project-b68bae6a94fb5b5251cf6b08eb81799ea99ea0df/compiler-rt/lib/builtins/*" \ -d .

Windows用户可以使用7-zip等工具图形化地提取这些文件。解压后，你应该能看到一个包含多个.c和.h文件的目录。

3.3 整理源代码文件

我们需要将以下44个文件复制到一个新的工作目录中：

核心运算实现文件：addtf3.c, divtf3.c, multf3.c, subtf3.c
类型转换文件：extenddftf2.c, extendhftf2.c, extendsftf2.c等
辅助功能文件：fp_lib.h, int_lib.h, int_types.h等

为了方便操作，可以创建一个脚本来自动完成这个复制过程。以下是Linux下的示例脚本（copy_source_files.sh）：

#!/bin/bash SRC_DIR="llvm-project-b68bae6a94fb5b5251cf6b08eb81799ea99ea0df/compiler-rt/lib/builtins" DEST_DIR="/path/to/your/workspace" mkdir -p $DEST_DIR cp $SRC_DIR/{addtf3.c,ashlti3.c,clzti2.c,comparetf2.c,divtf3.c,eprintf.c,extenddftf2.c,extendhftf2.c,extendsftf2.c,fixtfdi.c,fixtfsi.c,fixtfti.c,fixunstfdi.c,fixunstfsi.c,fixunstfti.c,floatditf.c,floatsitf.c,floatunditf.c,floatunsitf.c,fp_add_impl.inc,fp_div_impl.inc,fp_extend.h,fp_extend_impl.inc,fp_fixint_impl.inc,fp_fixuint_impl.inc,fp_lib.h,fp_mode.h,fp_mode.c,fp_mul_impl.inc,fp_trunc.h,fp_trunc_impl.inc,int_endianness.h,int_lib.h,int_math.h,int_types.h,int_util.h,int_util.c,lshrti3.c,multf3.c,powitf2.c,subtf3.c,trunctfdf2.c,trunctfhf2.c,trunctfsf2.c} $DEST_DIR

Windows用户可以创建一个类似的批处理文件（copy_source_files.bat）。执行脚本后，你的工作目录应该只包含上述必要的源文件。

4. 编译与构建库文件

4.1 编译源代码

为了获得最佳性能，Arm推荐使用-Ofast优化级别来编译这些库函数。同时，我们需要指定目标架构为AArch64：

armclang --target=aarch64-arm-none-eabi -march=armv8-a -Ofast -c *.c -DCOMPILER_RT_HAS_FLOAT16

这个命令会为每个.c文件生成对应的.o目标文件。编译选项说明：

--target=aarch64-arm-none-eabi：指定目标为AArch64架构的裸机环境
-march=armv8-a：指定ARMv8-A架构
-Ofast：使用激进的优化级别（包括可能影响精度的优化）
-DCOMPILER_RT_HAS_FLOAT16：定义宏，启用16位浮点支持

重要警告：不要使用-O0优化级别编译这些库函数，这可能导致生成的代码不正确。同时，必须使用-ffp-mode=fast或-ffast-math选项来确保正确的代码生成。

4.2 创建静态库

为了方便后续使用，我们可以将这些目标文件打包成一个静态库：

armar aarch64_float128_armclang_6.16.a --create *.o

这里我们以Arm Compiler 6.16为例，在库文件名中包含了编译器版本信息。这样做的目的是为了在使用不同版本编译器时能够区分不同的库文件。

生成的.a文件就是包含了所有128位浮点运算函数的静态库，可以在多个项目中重复使用。

5. 在项目中使用128位浮点支持

5.1 基本使用方法

要在你的项目中使用这个库，只需要在链接阶段将生成的.a文件包含进来。例如：

armclang --target=aarch64-arm-none-eabi -march=armv8-a -Ofast -c your_source.c -o your_source.o armlink your_source.o aarch64_float128_armclang_6.16.a -o output.axf \ --userlibpath=/path/to/your/library

5.2 示例代码分析

让我们看一个使用long double的完整示例。这个程序演示了如何进行128位浮点乘法运算，并打印结果：

#include <stdio.h> #include <stdint.h> typedef struct { uint64_t lower; uint64_t upper; } float128_print_t; const char *float128_to_str(long double a) { float128_print_t f = *(float128_print_t *)(&a); static char str[35]; // 足够存放"0x" + 32位十六进制数 + '\0' snprintf(str, sizeof(str), "0x%016lx%016lx", f.upper, f.lower); return str; } __attribute__((noinline)) long double multiply(long double a, long double b) { return a * b; } int main(void) { long double a = 1.25; long double b = 2.50; printf("a * b = %s\n", float128_to_str(multiply(a, b))); return 0; }

这个示例中有几个关键点需要注意：

由于标准库不支持直接打印long double，我们定义了一个辅助函数float128_to_str，将128位浮点数转换为十六进制字符串表示。
multiply函数被标记为noinline，这是为了方便我们观察编译器生成的代码。
在main函数中，我们进行了简单的乘法运算并打印结果。

5.3 构建与运行示例

使用以下命令构建这个示例：

armclang --target=aarch64-arm-none-eabi -march=armv8-a -Ofast -c example.c -o example.o armlink example.o aarch64_float128_armclang_6.16.a -o example.axf \ --userlibpath=/path/to/your/library

运行程序后，输出应该是：

a * b = 0x40009000000000000000000000000000

这个十六进制值对应的是3.125的128位浮点表示，即1.25乘以2.5的正确结果。

6. 调试与验证

6.1 检查生成的代码

使用fromelf工具可以查看生成的汇编代码，验证编译器是否正确调用了我们的库函数：

fromelf -cdvs example.axf -o example.txt

在输出文件中，你应该能看到类似以下的汇编代码片段：

multiply 0x0000a204: 4ea01c02 ...N MOV v2.16B,v0.16B 0x0000a208: 4ea11c20 ..N MOV v0.16B,v1.16B 0x0000a20c: 4ea21c41 A..N MOV v1.16B,v2.16B 0x0000a210: 17fffe97 .... B __multf3 ; 0x9c6c

这表明编译器确实生成了对__multf3函数的调用，而不是尝试使用不存在的硬件指令。

6.2 常见问题排查

在实际使用中，你可能会遇到以下问题：

链接错误：如果仍然看到未定义符号的错误，请检查：
- 库文件路径是否正确（--userlibpath参数）
- 库文件名是否拼写正确
- 是否包含了所有必要的源文件
运行时错误：如果程序运行结果不正确，请检查：
- 是否使用了正确的优化选项（-Ofast）
- 是否避免了-O0优化级别
- 是否启用了-ffp-mode=fast或-ffast-math
精度问题：由于软件实现的限制，128位浮点运算的精度和性能可能不如硬件支持的32/64位浮点运算。如果遇到精度问题，可以考虑：
- 检查算法是否对精度特别敏感
- 考虑是否真的需要128位精度
- 测试不同优化级别的影响