当前位置：首页 > news >正文

高级Bloaty使用技巧：自定义数据源和正则表达式过滤的完整教程

news 2026/7/26 23:21:47

高级Bloaty使用技巧：自定义数据源和正则表达式过滤的完整教程

【免费下载链接】bloatyBloaty: a size profiler for binaries项目地址: https://gitcode.com/gh_mirrors/bl/bloaty

Bloaty是一个强大的二进制文件大小分析工具，能够深入分析ELF、DWARF和Mach-O格式的可执行文件，准确地将二进制文件中的每一个字节归属到产生它的符号或编译单元。对于开发者来说，理解二进制文件的体积分布是优化应用性能的关键步骤。本文将深入探讨Bloaty的两个高级功能：自定义数据源和正则表达式过滤，帮助你更精确地分析二进制文件的体积构成。

为什么需要自定义数据源？ 🤔

当使用Bloaty分析复杂项目时，默认的数据源可能无法满足特定的分析需求。例如，在分析包含多个第三方库的大型项目时，compileunits数据源会显示所有源文件的完整路径，这使得结果难以阅读：

$ ./bloaty -d compileunits bloaty FILE SIZE VM SIZE -------------- -------------- 34.8% 10.2Mi 43.4% 2.91Mi [163 Others] 17.2% 5.08Mi 4.3% 295Ki third_party/protobuf/src/google/protobuf/descriptor.cc 7.3% 2.14Mi 2.6% 179Ki third_party/protobuf/src/google/protobuf/descriptor.pb.cc

这样的输出虽然详细，但难以快速识别哪些库占用了最多空间。自定义数据源正是为解决这类问题而生。

创建自定义数据源配置文件 📝

Bloaty使用Protocol Buffers文本格式的配置文件来定义自定义数据源。让我们创建一个简单的配置文件，将第三方库按项目分组：

创建文件my_config.bloaty：

custom_data_source: { name: "library_groups" base_data_source: "compileunits" rewrite: { pattern: "^(\\.\\./)?src" replacement: "bloaty_core" } rewrite: { pattern: "^(\\.\\./)?third_party/protobuf" replacement: "protobuf_lib" } rewrite: { pattern: "^(\\.\\./)?third_party/capstone" replacement: "capstone_lib" } rewrite: { pattern: "^(\\.\\./)?third_party/re2" replacement: "re2_lib" } }

这个配置文件定义了名为library_groups的自定义数据源，它基于compileunits数据源，并使用正则表达式重写规则将文件路径分组。

使用自定义数据源进行分析 🔍

应用自定义数据源非常简单：

$ ./bloaty -c my_config.bloaty -d library_groups bloaty FILE SIZE VM SIZE -------------- -------------- 56.6% 16.7Mi 16.6% 1.11Mi protobuf_lib 24.9% 7.35Mi 68.5% 4.58Mi capstone_lib 9.4% 2.77Mi 3.2% 221Ki re2_lib 4.6% 1.36Mi 4.1% 280Ki bloaty_core

现在你可以清晰地看到每个库对二进制文件大小的贡献比例！

正则表达式重写规则详解 🎯

Bloaty的自定义数据源使用RE2正则表达式语法，支持捕获组引用。让我们看一个更复杂的例子：

custom_data_source: { name: "function_categories" base_data_source: "shortsymbols" rewrite: { pattern: "^std::" replacement: "STL" } rewrite: { pattern: "^google::protobuf::" replacement: "ProtoBuf" } rewrite: { pattern: "^bloaty::" replacement: "BloatyCore" } rewrite: { pattern: "^(.*)::[^:]+$" replacement: "\\1" } }

这个配置将符号按命名空间分组，特别适合分析C++项目中的模板实例化。

分层数据源分析 📊

Bloaty的强大之处在于支持分层数据源分析。你可以组合多个数据源来获得更详细的视图：

$ ./bloaty -c my_config.bloaty -d library_groups,compileunits bloaty FILE SIZE VM SIZE -------------- -------------- 56.6% 16.7Mi 16.6% 1.11Mi protobuf_lib 30.5% 5.08Mi 26.0% 295Ki third_party/protobuf/src/google/protobuf/descriptor.cc 12.8% 2.14Mi 15.8% 179Ki third_party/protobuf/src/google/protobuf/descriptor.pb.cc 8.2% 1.36Mi 6.9% 78.4Ki third_party/protobuf/src/google/protobuf/text_format.cc

这种分层视图让你既能看到整体库的占用情况，又能深入查看每个库中具体哪些文件占用空间最多。

正则表达式过滤功能 🎚️

除了自定义数据源，Bloaty还提供了强大的正则表达式过滤功能。使用--source-filter选项可以只显示匹配特定模式的条目：

$ ./bloaty -c my_config.bloaty -d library_groups,compileunits --source-filter ^bloaty_core bloaty FILE SIZE VM SIZE -------------- -------------- 100.0% 1.36Mi 100.0% 280Ki bloaty_core 39.4% 549Ki 40.7% 114Ki src/bloaty.cc 13.9% 193Ki 15.0% 42.1Ki src/dwarf.cc 10.8% 150Ki 0.5% 1.28Ki src/main.cc

这个命令只显示属于bloaty_core组的文件，非常适合专注于分析自己项目的代码。

实际应用场景 💡

场景1：识别模板膨胀问题

C++模板是代码膨胀的常见原因。使用以下配置可以快速识别模板实例化问题：

custom_data_source: { name: "template_analysis" base_data_source: "fullsymbols" rewrite: { pattern: "<.*>" replacement: "<T>" } }

场景2：分析嵌入式系统固件

对于嵌入式开发，你可能只关心特定段的内容：

$ ./bloaty firmware.elf -d sections --source-filter "\.(text|data|rodata|bss)"

场景3：比较不同版本的大小变化

结合自定义数据源和差异分析：

$ ./bloaty new_version.elf -- old_version.elf -c my_config.bloaty -d library_groups

内置自定义数据源示例 📦

Bloaty自带了一些有用的自定义数据源，位于 custom_sources.bloaty：

class_or_namespace- 提取类或命名空间名称
stripped_sections- 清理节名称
section_prefix- 提取节前缀

例如，使用class_or_namespace数据源：

$ ./bloaty -c custom_sources.bloaty -d class_or_namespace my_binary

最佳实践建议 ✨

从简单开始：先使用默认数据源了解整体情况，再根据需要创建自定义数据源
分层分析：结合多个数据源获得不同粒度的视图
使用配置文件：将常用配置保存到文件中，便于重复使用和团队共享
正则表达式测试：在应用到大型二进制文件前，先在小样本上测试正则表达式
结合过滤：自定义数据源和正则表达式过滤结合使用效果最佳

性能考虑 ⚡

自定义数据源和正则表达式过滤会在分析过程中增加一些开销，但对于大多数二进制文件来说，这种开销是可以接受的。如果分析非常大的二进制文件时遇到性能问题，可以考虑：

使用更简单的正则表达式
减少重写规则的数量
先使用--source-filter过滤掉不关心的部分

总结 🎉

Bloaty的自定义数据源和正则表达式过滤功能为二进制文件大小分析提供了极大的灵活性。通过创建针对性的数据源和过滤规则，你可以：

按库、模块或功能区域分组分析
快速识别代码膨胀的根源
专注于分析特定部分的代码
创建可重复使用的分析配置

掌握这些高级技巧后，你将能够更高效地优化应用程序的大小，识别不必要的依赖，并更好地理解二进制文件的组成结构。

开始使用这些技巧来深入了解你的二进制文件吧！Bloaty的强大功能将帮助你成为更优秀的性能优化专家。🚀

【免费下载链接】bloatyBloaty: a size profiler for binaries项目地址: https://gitcode.com/gh_mirrors/bl/bloaty

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.jsqmd.com/news/587952/

unity中相机没有视锥效果线框了，如何打开

UBANTU安装Duckietown细节操作与错误记录

效率提升秘籍：利用快马生成智能安装器，极速部署openclaw开发环境

揭秘Farm模块图追踪技术：如何实现极速热更新与精准依赖分析

终极QuickJS压缩指南：从零开始的高效数据处理方案

解决VirtualBox/VMware虚拟机在win10下运行ensp时AR启动卡死问题

Input Projector（输入投影层）

天梯赛L2题解（041-044）

多少家庭不是穷，是被面子慢慢拖垮的

机器学习超参数调优实战：3个技巧让模型性能提升30%

Farm 性能监控与优化终极指南：10个技巧快速定位构建瓶颈

终极指南：5个简单技巧优化Agenda性能，大幅减少MongoDB查询压力

10个知名企业如何利用NideShop快速搭建高转化电商平台的终极指南 [特殊字符]

At.js 终极兼容性指南：从 IE7+ 到现代浏览器的完美解决方案

终极指南：如何扩展Bloaty功能 - 自定义解析器和数据源开发完整教程

零服务器运维：前端资源的Serverless云集成终极指南

NideShop高可用架构设计：负载均衡与故障转移机制终极指南

零基础搭建java开发环境：利用快马ai一键生成jdk17配置教程

【JavaEE32-后端部分】Spring事务进阶：@Transactional三大利器，把事务玩明白【AI辅助理解】

XXMI启动器：多维度解析二次元游戏模组统一管理平台

终极揭秘：Bloaty的RangeMap数据结构如何实现精准二进制尺寸分析

分离调试文件完整指南：为什么构建ID验证对Bloaty二进制分析至关重要

构建智能分拣系统：基于快马平台与龙虾openclaw的完整抓取实战项目开发

如何在Rails应用中集成Paperclip与Bootstrap：创建响应式文件上传界面的完整指南

Canvas动画表视图控制器：iOS开发者的终极零代码动画解决方案

一道多项式作业题目的构思

OmX与机器学习集成：打造更智能的编码助手终极指南

实战指南：基于vmware官网案例用快马构建企业级虚拟化解决方案

终极指南：AriaNg项目测试覆盖率工具配置与报告生成

CRI-O与Podman完美配合：构建完整容器开发生态终极指南