当前位置：首页 > news >正文

神经网络计算量那些事：FLOPs/MACs/MACCs到底怎么算？从公式到代码的完整对照

news 2026/7/1 1:25:48

神经网络计算量全解析：从FLOPs到MACs的实战指南

在深度学习模型优化过程中，计算量评估是每个开发者必须掌握的核心技能。面对FLOPs、MACs、MACCs这些专业术语，新手往往一头雾水——它们究竟代表什么？如何准确计算？更重要的是，这些指标如何指导我们的模型设计决策？

1. 计算量指标的本质区别

当我们谈论神经网络的计算复杂度时，实际上是在讨论模型执行数学运算的数量级。不同的指标从不同角度衡量这种计算负担：

FLOPs（Floating Point Operations）：浮点运算次数，包括加法和乘法
MACs（Multiply-Accumulate Operations）：乘累加运算，一次乘法加一次加法计为1次
MACCs（Multiply-Accumulate Counts）：与MACs类似，但部分文献定义不同

关键区别：FLOPs通常忽略偏置项(bias)的计算，而MACs会将其纳入统计

以标准卷积运算为例，其计算过程可以分解为：

滑动窗口与输入特征图的局部区域相乘
将乘积结果累加得到输出特征图的一个像素
加上偏置项（如果存在）

这种差异导致FLOPs和MACs的计算公式存在明显区别：

指标类型	计算公式	包含偏置项
FLOPs	H_out × W_out × K_h × K_w × C_in × C_out	否
MACs	H_out × W_out × K_h × K_w × C_in × C_out + H_out × W_out × C_out	是

2. 卷积层计算实战：手动推导与验证

让我们通过一个具体案例，体验从理论到实践的全过程。假设我们有一个输入张量：

input_tensor = torch.randn(1, 1, 200, 3) # (batch, channel, height, width)

应用以下卷积层：

conv = nn.Conv2d(1, 64, kernel_size=(8, 1), stride=(2, 1), padding=(0, 0))

2.1 输出尺寸计算

首先确定输出特征图的尺寸：

H_out = floor((H_in + 2×padding_h - dilation_h×(kernel_h-1) -1)/stride_h +1) = floor((200 + 0 - 1×(8-1) -1)/2 +1) = floor((200 -7 -1)/2 +1) = 97 W_out = floor((3 + 0 -1×(1-1) -1)/1 +1) = 3

因此输出尺寸为(1, 64, 97, 3)

2.2 计算量详细分解

对于这个卷积层，各指标计算如下：

FLOPs计算（忽略偏置）：

97 × 3 × (8×1) × 64 = 148,992

MACs计算（包含偏置）：

148,992 (乘法) + 97×3×64 (加法) = 167,616

注意：这里的加法操作特指偏置项的累加，不是指MACs中的累加步骤

3. 代码验证：thop与fvcore.nn实战对比

理论计算需要实际验证，我们使用两个主流工具进行交叉验证：

import torch import torch.nn as nn from thop import profile from fvcore.nn import FlopCountAnalysis class SimpleCNN(nn.Module): def __init__(self): super().__init__() self.conv = nn.Conv2d(1, 64, kernel_size=(8,1), stride=(2,1)) def forward(self, x): return self.conv(x) model = SimpleCNN() input_tensor = torch.randn(1, 1, 200, 3) # 使用thop计算MACs macs, params = profile(model, inputs=(input_tensor,)) print(f"THOP MACs: {macs}") # 使用fvcore计算FLOPs flops = FlopCountAnalysis(model, input_tensor) print(f"Fvcore FLOPs: {flops.total()}")

运行结果应当显示：

THOP MACs: 167616.0 Fvcore FLOPs: 148992

这与我们手动计算的结果完全一致，验证了理论推导的正确性。

4. 计算量优化的实用技巧

理解了计算量的本质后，我们可以采取多种策略优化模型效率：

4.1 卷积核设计原则

核尺寸选择：3×3卷积通常比5×5更高效
深度可分离卷积：将标准卷积分解为深度卷积和点卷积
分组卷积：减少通道间的全连接

4.2 结构优化策略

瓶颈结构：在ResNet等架构中广泛使用
通道注意力：动态调整通道重要性
神经架构搜索：自动寻找高效结构

4.3 工具链推荐

工具名称	主要功能	适用场景
thop	MACs计算	快速评估
fvcore	FLOPs分析	详细剖析
torchprofile	层级分析	调试优化
Netron	可视化	架构理解

5. 计算量与实际性能的关系

虽然计算量是重要指标，但实际推理速度还受多种因素影响：

内存访问成本：数据搬运可能成为瓶颈
并行度：现代GPU的并行计算能力
算子融合：减少内核启动开销
硬件特性：不同芯片对运算的优化程度

一个典型例子是深度可分离卷积：

# 标准卷积 nn.Conv2d(64, 128, kernel_size=3) # 深度可分离版本 nn.Sequential( nn.Conv2d(64, 64, kernel_size=3, groups=64), nn.Conv2d(64, 128, kernel_size=1) )

虽然数学上等效，但后者计算量大幅降低：

类型	FLOPs (H=224,W=224)	参数量
标准	224×224×3×3×64×128 = 3.7G	73,728
分离	224×224×(3×3×64 + 64×128) = 0.5G	9,472

在实际项目中，我发现这种结构转换通常能带来2-3倍的加速，但具体效果取决于硬件平台和框架实现。有一次在边缘设备部署时，标准卷积几乎无法实时运行，而改用深度可分离结构后帧率立即达标。

查看全文

http://www.jsqmd.com/news/534477/

避坑指南：STM32驱动Air780EG连接阿里云物联网平台，这些AT指令和配置细节别搞错

LangChain4j实战：从零构建企业级智能对话系统的核心模块与演进

RK3568摄像头图像方向问题全解析：从镜像到代码修改的完整指南

深度视觉开发实战：SR300相机Python环境部署与应用指南

像素时装锻造坊多场景落地：独立游戏开发、NFT头像、像素艺术展素材生成

从‘虚低Loss’到‘真实学习’：手把手教你用dataset.map预处理数据，正确开启SFTTrainer的completion_only_loss

如何免费体验完整的三国杀网页版：无名杀游戏指南

WuliArt Qwen-Image Turbo详细步骤：LoRA权重目录结构说明与自定义挂载方法

实战记录：从零到反弹shell的fastjson反序列化漏洞利用全过程（附POC）

2026年源杰科技研报：CW激光器与硅光CPO的机遇

Qt流式布局二选一：QListView方案 vs 自定义FlowLayout，从‘标签云’到‘动态表单’的实战场景选择指南

RexUniNLU中文理解能力评测：多项任务性能对比

4大技术突破！ClickHouse如何重塑实时数仓处理范式

OFA-Image-Caption助力AIGC内容创作：自动化生成图片社交媒体文案

M1芯片MacOS通过Homebrew一键安装wget的完整指南

办公自动化实战：用Python+Word宏实现智能电子印章插入

ROG游戏本屏幕色彩异常终极解决方案：G-Helper完整指南

2026年通信行业周报：OFC光通信与GTC多AGENT架构

构建企业级知识库语义搜索引擎：NLP-StructBERT与MySQL协同实战

SR300深度相机Ubuntu集成方案：解决Python连接难题的技术实践

语音增强领域新突破：UL-UNAS凭什么比传统U-Net快3倍？技术细节全解析

安全强化学习避坑指南：PPO-Lagrangian实现中，拉格朗日乘子更新为什么用detach和clamp？

深入解析GLU家族：从SigmoidGLU到SwiGLU的演进与应用

告别Word和PDF！用Python的win32ui库直接驱动打印机，搞定标签打印（附完整代码）

玩转OurBMC第十七期：CXL协议实战应用与BMC集成探秘

WinDbg 用户层调试进阶教程

3分钟快速部署：如何用Docker Compose搭建企业级项目管理平台

科哥Image-to-Video镜像体验：从部署到生成第一个视频的全过程记录

python 实现服务器监控，cpu,内存，磁盘空间，网络等