STM32浮点单元（FPU）使用与性能优化

电子设计联盟 · 发表于 2025-2-27 08:00:00

b1h2vhzsnjw6404285829.gif

点击上方蓝色字体，关注我们

本文将深入探讨如何启用 FPU、进行精确计算以及优化代码性能，并提供详细的代码示例。

FPU 是处理器中的硬件模块，专门处理浮点运算（如加、减、乘、除），相比软件实现，其执行速度更快，精度更高。

根据研究，STM32F4、F7、H7 和 L4 系列支持 FPU，其中 F4 和 L4 支持单精度浮点（32 位），而 H7 系列支持双精度浮点（64 位），这为高精度应用提供了更多选择。

zhmyjtgdxr46404285930.png

例如，STM32 官方网站提供了详细的系列对比。

m2xwct4rxhh6404286030.png

1
启用 FPU 的步骤
要使用 FPU，需要完成以下两个步骤：

设置编译器标志：确保编译器生成硬件浮点指令。对于 GCC，使用 -mfloat-abi=hard 标志，指示使用硬件 FPU。可以通过 IDE（如 STM32CubeIDE）或命令行设置。例如，在 STM32CubeIDE 中，右键项目 -> 属性 -> C/C++ Build -> Settings -> MCU Settings，确保启用硬件浮点支持。

启用 FPU 寄存器：在代码中设置系统控制块（SCB）的协处理器访问控制寄存器（CPACR），启用 FPU。代码如下：

#include "stm32f4xx.h"SCB->CPACR |= ((3UL 20) | (3UL 22)); // 启用 CP10 和 CP11，允许 FPU 使用
2
使用 FPU 进行精确计算
启用 FPU 后，可以执行各种浮点运算。

以下是使用 FPU 的典型示例：

基本运算：直接使用浮点变量进行加减乘除，如：

float a = 5.5f; float b = 3.25f; float c = a + b;标准库函数：使用数学库函数，如 sinf、cosf 等。例如，计算正弦值：

float angle = 0.0f;float sine = sinf(angle);一个实际应用是控制 LED 亮度，通过正弦波生成呼吸效果：

#include "stm32f4xx.h"intmain(void){ SCB->CPACR |= ((3UL 20) | (3UL 22)); // 启用 FPU // 初始化 PWM 输出，假设使用 TIM3 CH1 控制 LED RCC->APB1ENR |= RCC_APB1ENR_TIM3EN; TIM3->ARR = 1000; // 自动重装载值 TIM3->CCR1 = 0; // 初始占空比 TIM3->CCMR1 = TIM_CCMR1_OC1M_2 | TIM_CCMR1_OC1M_1; // PWM 模式 1 TIM3->CCER |= TIM_CCER_CC1E; // 启用通道 1 TIM3->CR1 |= TIM_CR1_CEN; // 启用定时器 float angle = 0.0f; while (1) { float brightness = (sinf(angle) + 1.0f) / 2.0f * 1000.0f; TIM3->CCR1 = (uint32_t)brightness; angle += 0.01f; if (angle > 2.0f * 3.14159f) angle = 0.0f; for (volatileint i = 0; i 10000; i++); // 简单延时 }}
3
性能优化与比较
FPU 的主要优势是提升浮点运算性能。

以下是比较 FPU 和软件浮点运算性能的示例代码：

#include "stm32f4xx.h"#includevolatilefloat result;volatileuint32_t start, end;intmain(void){ // 启用 FPU SCB->CPACR |= ((3UL 20) | (3UL 22)); // 测量 FPU 性能 start = DWT->CYCCNT; for (int i = 0; i 1000; i++) { result = sinf((float)i) * cosf((float)i); } end = DWT->CYCCNT; uint32_t fpu_time = end - start; // 禁用 FPU，模拟软件浮点（需设置编译器为 -mfloat-abi=soft） // 这里假设已切换编译器设置 start = DWT->CYCCNT; for (int i = 0; i 1000; i++) { result = sinf((float)i) * cosf((float)i); } end = DWT->CYCCNT; uint32_t soft_time = end - start; while (1); // 无限循环，供调试}
运行发现，FPU 模式下的执行时间通常比软件浮点模式快数倍，尤其在密集计算场景中。
4
精度与异常处理
STM32F4 系列的 FPU 支持单精度浮点（32 位），精度约为 6-7 位有效数字，适合大多数嵌入式应用。

而 H7 系列支持双精度浮点（64 位），精度更高，适合科学计算和金融应用。

需要注意的是，尝试使用双精度运算可能导致异常（如 STM32F4 不支持），需检查数据类型和编译器设置。

浮点异常处理涉及检测溢出、下溢和无效操作，可通过配置 FPU 的控制寄存器实现，具体方法可参考 ARM Cortex-M 编程指南。
5
优化技巧与注意事项

减少不必要的浮点运算：将浮点运算替换为定点运算（如使用整数代替小数），减少 FPU 使用。

数据类型选择：优先使用 float 而非 double，减少内存和计算开销。

中断与任务管理：在多任务或中断场景下，确保 FPU 状态正确保存，防止寄存器冲突。
通过正确启用和使用 FPU，STM32 微控制器可在浮点运算中实现高精度和高性能。

3fct344ufwd6404286131.jpg

2bgzbxzcrwi6404286231.gif

点击阅读原文，更精彩~