当前位置：首页 > news >正文

LLM4Decompile：用AI魔法让二进制代码重获新生！[特殊字符]

news 2026/5/24 22:48:04

LLM4Decompile：用AI魔法让二进制代码重获新生！🚀

【免费下载链接】LLM4DecompileLLM4Decompile是前端技术的革新之作，面向软件逆向工程领域的革命性工具。此开源项目利用大型语言模型深入二进制世界的奥秘，将复杂的机器码魔法般地转换回清晰易读的C源代码。无论是应对GCC优化级别的重重挑战，还是跨越Linux x86_64架构的鸿沟，LLM4Decompile都能通过其精进的V1.5至V2系列模型，提供高达63.6%的重构代码可执行率，实现了从原始二进制到功能重现的惊人飞跃。借助于Ghidra等反编译工具的深化整合与22亿-token级别的训练，它不仅提升了代码解读的准确性，也拓宽了对不同架构和编译设置的支持边界。开发者们，准备探索那些隐藏在数字迷雾中的程序逻辑，让LLM4Decompile成为你重构旧世界、理解复杂代码库的得力助手。立即加入，解锁软件分析的新维度！项目地址: https://gitcode.com/GitHub_Trending/ll/LLM4Decompile

LLM4Decompile是一款革命性的开源大型语言模型，专为二进制代码反编译而设计。这款前沿工具能够将复杂的机器码神奇地转换回清晰易读的C源代码，让逆向工程变得前所未有的简单高效。无论您是安全研究人员、软件开发者还是逆向工程爱好者，LLM4Decompile都将成为您探索二进制世界的得力助手。

🔍 什么是二进制反编译？

反编译是将已编译的二进制代码（机器码）转换回人类可读的高级语言源代码的过程。传统反编译工具往往难以处理高度优化的代码，而LLM4Decompile利用先进的AI技术，实现了从二进制到可读源代码的精准转换。

上图展示了LLM4Decompile的完整工作流程：从原始C源代码编译成二进制，再通过AI模型将二进制反编译回高质量的C代码。这个过程不仅保留了原始代码的功能，还确保了反编译后的代码具有高度的可读性。

🚀 核心功能与优势

1.支持多种优化级别

LLM4Decompile能够处理GCC编译器的O0到O3所有优化级别的二进制文件，覆盖了从无优化到最高级别优化的所有场景。

2.卓越的性能表现

根据官方测试结果，LLM4Decompile在多个基准测试中表现出色：

从图中可以看出，LLM4Decompile-6.7B在HumanEval-Decompile基准测试中达到了45.37%的平均准确率，远超GPT-4o的16.01%，在ExeBench测试中也达到了17.98%的准确率。

3.双模型架构

项目提供了两种主要模型：

LLM4Decompile-End：直接从二进制反编译为C代码
LLM4Decompile-Ref：基于Ghidra输出的伪代码进行精炼优化

上图展示了LLM4Decompile-Ref的工作流程，通过Ghidra生成伪代码，再由AI模型进行精炼优化，最终得到高质量的C源代码。

📊 技术架构详解

完整的评估流程

LLM4Decompile采用先进的评估管道，确保反编译质量的可靠性。该管道包括：

编译阶段：使用Docker容器和Revised Clang编译器生成二进制文件
追踪阶段：通过DWARF调试信息和Tree-sitter解析器建立源代码与二进制之间的映射
过滤阶段：通过去重算法确保数据的质量和多样性

模型性能演进

LLM4Decompile的V1.5版本通过更大的训练数据集（15B tokens）和更长的上下文长度（4096 tokens），相比早期版本实现了超过100%的性能提升。

🛠️ 快速开始指南

环境搭建

要开始使用LLM4Decompile，只需几个简单的步骤：

git clone https://gitcode.com/GitHub_Trending/ll/LLM4Decompile cd LLM4Decompile conda create -n 'llm4decompile' python=3.9 -y conda activate llm4decompile pip install -r requirements.txt