2025_NIPS_MASTER: Enhancing Large Language Model via Multi-Agent Simulated Teaching
文章总结与翻译
一、主要内容
本文聚焦大语言模型指令微调中高质量数据获取难、成本高的核心问题,提出了一种基于多智能体模拟教学的数据增强方法MASTER(Multi-Agent Simulated Teaching Enhanced Resource)。该方法通过构建多智能体课堂模拟器(MACLASS),模拟三种符合教学法的场景(纠错、协作辩论、类比推理),让教师智能体与学生智能体进行交互,对Orca-Math-200k、ProcQA、OpenHermes2.5等现有数据集进行扩充,生成了高质量微调数据集BOOST-QA。
实验部分采用LLaMA-3-7B-base、Qwen2.5-7B-base、Mistral-7B-base三种主流基础模型,在数学、编程、通用任务等多个基准数据集(如MATH、HumanEval、MMLU等)上进行验证。结果表明,使用BOOST-QA微调的模型在多任务泛化能力上显著优于原始数据集及其他数据增强基线方法(如RandomAug、CoT Collection等),尤其在复杂推理任务和多选题任务中表现突出,部分场景性能提升最高达31.46%。此外,消融实验证实三种教学场景的组合使用是提升模型性能的关键,单一或两种场景的增强效果有限。
二、创新点
- 提出了多智能体模拟教学场景在模型后训练数据合成中的应用,构建了MASTER这一新型数据增强框架,突破了传统方法依赖人工提示词、缺乏真实交互机制的局限。
- 通过模拟真实课堂的三种教学场景(纠错、辩论、类比推理),将教育学原理融入智能体交互过程,生成的BOOST-QA数据集兼具生态有效性和泛化能
