基于LLaMA-Factory构建企业知识库问答模型(RAG+微调)-方案选型对比
1. 问题背景与选型目标
企业知识库问答系统,不是为了“能回答问题”,而是要在有限成本、可控风险、可维护的前提下,稳定地给出准确、可追溯、符合业务逻辑的答案。
当团队决定使用开源大模型(如 LLaMA 系列)并基于 LLaMA-Factory 进行微调时,会立刻面临一个核心抉择:到底是走“纯 RAG(检索增强生成)”路线,还是走“模型微调”路线,又或者把两者结合起来?这不是一个学术问题,而是一个工程与资源分配问题。
这个选择会直接决定:
- 硬件成本:光用 RAG 可能一张消费级显卡就行,一旦上微调,显存、训练时长立刻成为瓶颈。
- 研发周期:RAG 更偏向搜索与提示工程,上手快;微调涉及数据处理、训练、评估,周期长得多。
- 回答质量:RAG 强在事实准确性和可追溯性,弱在理解隐式知识和语言风格;微调刚好相反。
- 长期维护:知识更新频率直接决定哪种方案更可持续。知识天天变,微调就跟不上。
- 团队能力需求:RAG 更依赖工程能力,微调更依赖算法和数据能力。
本文的核心决策问题是:对于一个以 LLaMA-Factory 为核心工具链的团队,在构建企业知识库问答模型时,如何在 RAG、微调、RAG+微调这三条路线之间,基于业务场景、团队结构、预算和长期目标,做出可落地、不后悔的技术选型。
2. 选型对象定义与边界
本次比较的三个方案不在同一技术层级,必须先把边界讲清楚,否则会陷入“鸡同鸭讲”。
方案 A:纯 RAG(检索增强生成)
定位:应用架构模式。使用向量数据库(如 Milvus、Chroma)+ 检索策略(如 Dense/Sparse 混合检索)+ 基座模型(未微调)组成问答链路。模型只负责阅读检索到的片段并生成答案。LLaMA-Factory 不参与。方案 B:纯微调(基于 LLaMA-Factory 的指令微调)
定位:模型能力定制手段。使用 LLaMA-Factory 对基座模型(如 LLaMA-3-8B-Instruct)进行领域知识注入或指令风格微调,将知识“固化”到模型参数中。推理时模型直接根据内化知识回答,不依赖外部检索。方案 C:RAG+微调(组合方案)
定位:系统工程方案。在方案 B 微调过的模型基础上,再接入 RAG 检索链路。微调用于改善模型对领域术语的理解、指令遵循能力和回答风格,RAG 用于提供实时、可更新的知识来源。
比较边界说明:我们比较的不是“LLaMA-Factory 好用还是 LangChain 好用”,而是三种构建知识库问答系统的方法论路径。LLaMA-Factory 是方案 B 和 C 中执行微调的具体工具,其易用性会影响到方案 B/C 的落地成本,因此会在对比中充分体现。
3. 典型业务场景拆解
不拆场景就谈选型,都是耍流氓。以下是四类最常见的企业知识库问答场景。
场景一:中小企业内部规章制度问答
- 核心目标:员工能快速查到考勤、报销、IT 使用等内部制度,答案必须准确且引用原条文。
- 最关键约束:政策文档经常更新(尤其合规、人事),不能容忍“模型记的是旧版本”。
- 最怕踩什么坑:用微调注入知识,两周后制度改了,模型回答还是旧的,且无法直接定位是哪条文档过期。每次更新都要重新训练,成本爆炸。
场景二:垂直领域(如医疗、法律、工业设备)客服/咨询
- 核心目标:提供专业、术语准确、逻辑严谨的回答,用户容忍度低,错误答案可能有严重后果。
- 最关键约束:领域知识不仅需要“查得到”,还需要模型理解复杂定义和推理链。客户对回答专业性和语气有很高期待。
- 最怕踩什么坑:纯 RAG 虽然能查到原文,但模型不理解深层逻辑,拼凑出来的答案机械、甚至有矛盾;微调如果没有高质量数据,会产生“一本正经胡说八道”且难以追溯。
场景三:高并发、低延迟的在线产品帮助中心
- 核心目标:毫秒级响应,支撑峰值 QPS,答案标准化程度高。
- 最关键约束:推理速度优先,不能让用户等。知识变更频率中到高(产品更新)。
- 最怕踩什么坑:RAG 链路的检索延迟叠加 LLM 推理延迟,导致总响应超时。若为加速而选择微调模型直接回答,又面临知识更新滞后问题。
场景四:本地完全私有化部署,数据不出域
- 核心目标:所有数据和模型都在内网,安全合规第一。
- 最关键约束:无法使用外部 API,硬件资源受限(可能是几张 A100 或甚至只有消费级显卡)。
- 最怕踩什么坑:选了依赖云端向量数据库或模型服务的 RAG 方案,导致无法落地;选了超大模型微调,发现显存根本不够,LLaMA-Factory 的 QLoRA 等虽能缓解,但推理依然占用高。
4. 关键比较维度设计
以下是需要重点考虑的维度及为什么重要。
| 维度 | 为什么重要 |
|---|---|
| 学习成本 | 团队能用多快上手,直接决定前三个月是出活还是填坑。 |
| 开发复杂度 | 涉及组件越多,集成和 debugging 成本越高。 |
| 微调门槛 | 启动微调对数据、显卡、经验的最低要求,决定方案可行性。 |
| 推理部署复杂度 | 影响上线后运维人力,和故障恢复速度。 |
| 社区生态与资料丰富度 | 遇到 Bug 能不能 Google 到答案,没有生态就别想快速解决。 |
| 与主流模型兼容性 | 换模型(如从 LLaMA-3 换到 Qwen-2.5)的成本多高。 |
| 性能与资源占用 | 直接决定硬件成本和可支持的并发。 |
| 适合的团队能力结构 | 方案必须匹配现有人员能力,否则就是空中楼阁。 |
| 可扩展性 | 从支持 1000 个文档到 10 万个文档,从 10 QPS 到 100 QPS,架构是否扛得住。 |
| 生产维护成本 | 方案上线后长期运营需要几个人、干什么活,这才是总成本的大头。 |
5. 逐项深度对比
方案 A:纯 RAG(基座模型 + 检索链路)
定位:快速构建可溯源、知识新鲜度高的问答系统。模型是“读稿机”,不是“领域专家”。
最大优势:
- 知识实时更新:文档入库即可被检索到,更新零延迟。
- 可解释性强:每个答案可附带来源 chunk,方便审核。
- 对模型能力依赖相对低:7B 级别的模型就能在阅读准确率上取得不错效果,不需要昂贵的大模型。
- 工程生态成熟:LangChain/LlamaIndex + 多种向量数据库,文档齐全。
最明显短板:
- 复杂推理与隐性知识丢失:对于需要跨文档综合、理解隐含条件的问题,RAG 很难办。例如“如果合同是 2023 年前签的且没有补充条款,客户的免费维保截止到哪天?”这种问题,检索再多也可能错。
- 回答风格不可控:基座模型可能输出啰嗦、过于中性或格式不一致的答案,难以完全符合企业语气。
- 检索质量是天花板:一旦检索漏掉关键文档,模型再强也白搭。调优检索本身就是一个深坑。
最适合什么团队:
- 工程能力强,熟悉搜索系统、Embedding、向量数据库,但算法调参经验有限的团队。
- 知识库更新频繁,不能接受模型重训周期的业务。
最不适合什么团队:
- 数据大多为非结构化且需要深度理解的场景,没有专人搞检索优化。
- 对回答的专业口吻和逻辑严谨性有极高要求,单纯 RAG 调不好会显得产品很“毛糙”。
真实工程中最常见的问题:
- 分块策略不当:按固定长度切分导致语义被割裂,检索到的片段缺少上下文。需要针对文档结构定制 splitter,投入远超预期。
- 多跳问题失败:涉及到需要两步以上推理的问题,系统准确率断崖式下降。
- 中文检索效果打折扣:通用 Embedding 模型在中文专业术语上表现不佳,需要自建领域 Embedding 微调,这又绕回了部分训练需求。
方案 B:纯微调(基于 LLaMA-Factory 指令微调)
定位:训练出一个“内化领域知识、遵循特定风格”的专属模型,LLaMA-Factory 大幅降低了实施门槛。
最大优势:
- 领域理解与推理深度:模型真正“学会”了概念之间的关系,能处理模糊查询和隐性意图。
- 回答风格高度可控:通过指令数据可以精确控制格式、语气、拒绝策略,适合需要标准化客服的场景。
- 推理时没有检索延迟:端到端生成,响应速度比 RAG 链路快而且更稳定。
- LLaMA-Factory 极大简化微调:WebUI 操作、支持 LoRA/QLoRA、全参微调等多种方式,一键导出合并,单卡也能玩。
最明显短板:
- 知识更新等于重训:每次知识变更都需重新准备数据、训练、评估、部署,周期长且成本高,不适合高频更新的知识库。
- 幻觉风险更难控制:知识被编码在模型黑盒参数中,错误回答难以追溯和修正,容易出现“自信满满的错误”。
- 灾难性遗忘:领域微调可能削弱模型通用能力,导致闲聊或边界问答变差。需要混合数据训练,增加了数据工程成本。
- 数据质量要求极高:微调效果完全取决于数据。企业往往需要人工构造数千条高质量问答对,耗时耗力。LLaMA-Factory 只管训练不管数据。
最适合什么团队:
- 拥有领域专家和数据标注资源,能产出高质量微调数据集。
- 业务场景要求回答具有强一致性风格,且知识相对稳定(如基础医学知识、法律条文释义)。
- 希望通过私有化部署一个“看起来很懂行”的模型来提升品牌形象。
最不适合什么团队:
- 知识库变化快,或文档总量巨大且持续增长,无法承担反复微调。
- 缺乏对模型评估的深入理解,不知道怎么测有没有训坏,容易被“效果好”的表面现象欺骗。
真实工程中最常见的问题:
- 数据配比失衡:用 500 条公司制度数据微调,模型开始在所有对话中强行套用制度口吻,丧失通用助手能力。
- 过拟合而不自知:评估集和训练集同源,分数很好看,一上线用户问个稍变相的问题就崩了。
- 部署后无法热更新:一旦发现有错误知识,只能回滚模型或重新训练,需要整套模型版本管理和灰度发布机制,这超出了 LLaMA-Factory 的范围。
方案 C:RAG + 微调(组合方案)
定位:取长补短。微调解决“怎么说”的问题,RAG 解决“说什么”的问题,追求生产级最优体验。
最大优势:
- 知识与风格分离控制:用微调注入领域术语、推理模式、输出格式,用 RAG 保证事实和时效性。这是最接近理想的企业级方案。
- 修复能力互补:RAG 答案出错可以修索引和检索;微调风格出错可以校正数据再训,互不干扰。
- 可迭代性强:可以先上 RAG 快速验证,同时并行准备微调数据,逐步迭代,风险可控。
最明显短板:
- 系统复杂度剧增:需要同时维护检索管道、向量数据库、微调数据集、训练流水线、模型服务。组件多,故障点成倍增加。
- 延迟叠加:检索 + 重新排序 + LLM 推理,端到端延迟是所有方案中最高的,必须做大量工程优化。
- 技术栈要求高:团队必须同时具备搜索引擎、数据构造、模型训练、推理优化多方面能力,缺一不可。
- 成本不是线性叠加:人力、硬件、时间成本可能是纯 RAG 或纯微调的 1.5 倍以上,因为要维护两套系统。
最适合什么团队:
- 有一定规模,目标是打造长期、高质量、高可维护的知识库产品。
- 已经成功实施了纯 RAG 并摸清了业务痛点,在追问“怎么才能答得更好”时,决定引入微调。
最不适合什么团队:
- 刚起步,团队不超过 3 个人,任何一招还没吃透,上来就搞组合拳,只会卡在集成的泥潭里。
- 预算极度有限,无法承担维护两套技能栈的人力。
真实工程中最常见的问题:
- 微调后的模型与检索结果“对抗”:微调时模型内化了一些过时知识,当检索提供新信息时,模型可能不相信检索结果,坚持自己的参数记忆,导致答案错误。需要特殊训练数据来教会模型“相信检索上下文”。
- 工程链路耦合过紧:检索的分块切分、Embedding 模型、微调后的基座模型三者相互影响,改一个就得全局回归测试,团队容易被拖垮。
6. 真实工程视角对比
这几个问题才是实际选型会上争论的焦点。
| 问题 | 纯 RAG | 纯微调 (LLaMA-Factory) | RAG+微调 | 判断逻辑 |
|---|---|---|---|---|
| 谁更容易快速跑通第一个版本 | ✅ 最快 | ❌ 慢 | ❌ 最慢 | RAG 有大量现成模版,无需训练。微调需要数据准备和训练周期。 |
| 谁更适合长期维护 | ✅ 依赖工程能力 | ❌ 依赖完整 MLOps | ⚠️ 两者都要,维护成本最高 | 知识更新是核心变量。长尾看,RAG 的增量更新成本低。但微调模型风格稳定后,也可持续服务,只要知识稳定。 |
| 谁更适合单卡/低显存环境(24GB) | ✅ 7B 模型 + 量化可直接运行 | ✅ LLaMA-Factory QLoRA 可微调 7B 模型 | ⚠️ 推理加检索链路部分需内存,整体可用 | 微调门槛被 LLaMA-Factory 拉低,单卡可跑 7B 的 LoRA。但推理也占显存,组合方案需注意显存峰值。 |
| 谁更适合复杂训练策略 | 不适用 | ✅ LLaMA-Factory 支持多模态、RLHF、多任务 | ✅ 微调部分适用 | LLaMA-Factory 支持多种训练方法,扩展性强,比手写 Trainer 简单得多。 |
| 谁更适合中文场景 | ⚠️ 取决于 Embedding 和基座模型 | ✅ 可选用中文优化基座模型微调 | ✅ 同时优化 | RAG 中文效果很大程度依赖 Embedding 模型,需要额外评估。微调可选择 Qwen 等中文强模,LLaMA-Factory 已支持。 |
| 谁更适合企业级标准化流程 | ⚠️ RAG 尚无统一标准 | ⚠️ LLaMA-Factory 简化训练,但评估部署需自建 | ⚠️ 所有都需要定制 | 企业标准化意味着可审计、可回滚、可监控,三者都需要额外平台建设。 |
| 谁更适合做二次开发 | ✅ 开源组件多,可深度定制 | ✅ LLaMA-Factory 源码清晰,可扩展 | ⚠️ 接口多,耦合深 | RAG 链路的每个组件都可替换;LLaMA-Factory 基于 HuggingFace 架构,二次开发成本中等。 |
| 谁更适合中小团队(非大厂平台团队) | ✅ 先上路 | ❌ 容易陷入训练细节 | ❌ 不推荐一步到位 | 中小团队早期适合 RAG 先解决有无,积累业务理解后再考虑微调。LLaMA-Factory 降低了微调门槛,但数据才是真正拦路虎。 |
7. 成本与资源评估
硬件成本(训练 + 推理)
- 纯 RAG:推理只需运行一个 7B 量化模型(约 6-8GB 显存),加上向量数据库内存。单卡 24GB 轻松胜任。
- 纯微调(LLaMA-Factory):以 LLaMA-3-8B 为例,全参微调需要 4×A100 或同等级显存(约 160GB),一般中小企业不现实。实际会用 QLoRA,单卡 24GB 可微调,训练 5K-1W 条数据约几小时到十几小时。推理同 RAG 部署。
- RAG+微调:训练硬件需求同上;推理可能需要更高显存以容纳微调后模型权重 + 检索上下文,但依然 24GB 可行。需要额外 CPU/内存用于向量检索。
时间成本
- 纯 RAG:第一个可用原型 1-2 周。主要时间花在文档处理、chunk 策略和提示词调试上。
- 纯微调(LLaMA-Factory):首次搭建环境 + 学习 LLaMA-Factory 约 1 周,核心时间在数据构造。要做出能上线的效果,通常需要 3-6 周反复清洗数据、训练、评估。
- RAG+微调:通常分两阶段,3 个月起步才能打磨到生产级别。
人力与学习曲线
- 纯 RAG:需要 1 名熟悉 Python 和后端的工程师,掌握 LangChain/LlamaIndex 基本用法。算法要求低。
- 纯微调:需要 1 名具备算法背景的工程师,理解 Transformer、懂得 loss 曲线怎么看、会做数据清洗。LLaMA-Factory 让操作变简单,但判断力没法速成。
- RAG+微调:需要至少 2 人或一个全栈算法工程团队,或者一个能同时横跨检索和训练的通才(贵且难招)。
看似便宜但实际成本高的情况
- 只用 RAG 不微调,但拼命调 RAG:为了提升 5% 准确率,反复折腾分块、检索策略、重排序模型,最后人力投入可能超过做一次微调,且效果上限锁死。
- 用微调完全替代 RAG 应对频繁更新的知识:重训费用累积,引发业务对时效的不满,隐性机会成本极高。
- LLaMA-Factory 一键微调太容易,导致团队忽视数据质量:训出一堆垃圾模型,反复回炉,浪费算力和时间,预算不知不觉烧光。
8. 风险与踩坑分析
风险 1:选了功能强但团队不会用的方案
典型就是 RAG+微调。看起来什么都能解决,但团队连单一的 embedding 微调都没做过,强行上组合,结果每一个环节都是半吊子。规避:先做到极致 RAG,自然能找到微调的需求点,再引入。
风险 2:选了上手简单但扩展性差的方案
有人觉得 RAG 就是搭个 LangChain 示例,处理几百个文档没问题,但一到 10 万文档,检索准确率跳崖,向量数据库扛不住,没有做混合检索和过滤。规避:初期设计就要考虑索引更新、多路召回、粗排精排的架构,不要用教学代码上生产。
风险 3:误把底层库和上层框架做同级比较
“我用 LLaMA-Factory 微调,是不是就不需要用 HuggingFace Trainer 了?” 没有理解 LLaMA-Factory 是对 Trainer 的封装,导致 debug 时看不懂底层报错。规避:团队至少有一人要深入理解 transformers 库,用框架不丢人,但没有退路就很危险。
风险 4:忽略部署链路造成后期重构
用 LLaMA-Factory 训出模型后,发现不知道怎么变成 API 服务、怎么做流式输出、如何和前端对接。结果模型是好的,但工程不可用。规避:在微调前就用基座模型跑通一整套推理部署流程(如 vLLM + FastAPI),验证链路再开始训模型。
风险 5:只看训练效果不看长期维护成本
微调模型在测试集上 BLEU/ROUGE 很高,上线后用户问题分布一变,没人持续评估和增量训练,6 个月后模型就过时了。规避:从一开始就建立评估体系(定期 sampling 用户真实问题,人工打分),把维护成本纳入立项预算。
风险 6:低估数据处理复杂度
LLaMA-Factory 让训练操作变简单,很多人以为数据就是丢进去一堆文档。实际上,需要清洗 HTML、处理表格、分割长文、构造问答对、去重、质量筛选。数据处理会占项目总时间 60% 以上。规避:分配专门的资源给数据处理,并预先建立一套数据处理 pipeline。
风险 7:高估团队的分布式能力
看到 LLaMA-Factory 支持多卡 DeepSpeed,就认为单卡不够能轻松扩展。但 DeepSpeed 配置、多卡通信、OOM 调试都很折磨,新人一踩就是几天。规避:尽量用单卡 QLoRA 把流程跑通,真实需要全参微调时再评估是否真的有必要,或者干脆换更大的单卡。
风险 8:忽略社区活跃度与后续版本兼容问题
LLaMA-Factory 是一个活跃项目,但更新频繁,API 可能变动,依赖库版本兼容可能出现问题。如果项目很久以后需要复现历史模型,环境可能已不可用。规避:锁定环境(Docker),固定依赖版本,保存完整的训练配置与数据快照。
9. 推荐决策框架
根据以下问题顺序做判断,而不是凭直觉。
知识更新频率是核心变量
- 如果知识每天/每周都在变 →优先用 RAG 方案,不要妄想靠微调跟进。
- 如果知识相对稳定(季度/年度更新) → 微调可以成为选项。
是否有可用的领域标注数据,或能低成本构造?
- 有 ≥2000 条高质量问答对,且可以持续维护 → 可以考虑微调路线。
- 暂时没有,且短时间内无法获得 → 先走纯 RAG,用线上数据积累后再考虑微调。
回答的风格要求和推理深度如何?
- 只需要准确引用,对风格无特殊要求 → RAG 足够。
- 要求特定话术、专业解释、法律或医疗级逻辑 → 必须通过微调改善基座能力,组合效果最佳。
团队能力结构偏向工程还是算法?
- 团队以软件工程师为主 → RAG 是他们熟悉的领域(搜索 + 后端)。
- 团队有 NLP 算法背景,做过训练 → 逐步引入 LLaMA-Factory 微调,控制范围。
预算和时间是否允许“两步走”?
- 如果要求 1 个月内上线 → 纯 RAG,别犹豫。
- 如果有 3-6 个月打磨期,且对最终品质要求高 → 规划 RAG 先行 + 微调数据累积 + 最终合并路径。
是否需要完全私有部署且硬件受限(只有 1-2 张 24G 显卡)?
- 是 → RAG + QLoRA 微调 7B 模型是完全可行的物理上限,LLaMA-Factory 的 QLoRA 就是为这准备的。全参微调别想。
核心方程:方案选择 = 知识更新频率 × 数据可用度 × 团队能力矩阵
10. 场景化结论
个人开发者 / 独立创业者
推荐:纯 RAG
理由:一个人全栈,必须把复杂度压到最低。用 LLaMA-Factory 微调需要耗费大量时间在数据上,投入产出比低。RAG 加一个好用的开源前端,你就能很快推出产品。如果后期发现回答风格不对,再考虑用 LLaMA-Factory 做一次针对性微调,但起步别碰。
技术博客作者 / 内容团队
推荐:纯 RAG,并公开讲解
理由:你的目标是展示技术可行性或做内容,不是交付企业级系统。RAG 最容易解释、最容易复现。LLaMA-Factory 可以作为进阶文章的主题,如“用 LLaMA-Factory 微调提升 RAG 的回答质量”。
中小企业技术团队(1-3 人,预算有限)
推荐:先极致优化纯 RAG,然后在瓶颈期引入微调
理由:中小企业知识库场景绝大多数可用 RAG 解决。当出现大量失败 case 都指向模型“没理解指令/风格不对”时,再由团队中有算法基础的人,基于 LLaMA-Factory 用 QLoRA 做一次针对性指令微调。绝不要一开始就搞组合方案。LLaMA-Factory 降低了微调门槛,这个团队正可用。但注意,训练数据必须基于线上真实 bad case 构造,而不是拍脑袋写。
有算法工程师但没有平台团队的公司
推荐:以 RAG 为基座,用 LLaMA-Factory 做专项微调,逐步走向组合方案
理由:你们有能力判断模型好坏、清洗数据、控制训练,缺的是工程化部署和平台。LLaMA-Factory 提供了标准化训练流程,刚好补足。但不要自己去造完整的 MLOps 轮子,用现有的工具(MLflow, Docker)做版本管理即可。这类团队最容易犯的错误是过度训练,记住:微调只解决检索解决不了的那 20% 的问题。
有训练平台建设能力的团队
推荐:RAG+微调的工业级一体化方案
理由:你们有能力搭建完整的评估、数据回流、自动微调、模型 A/B 测试等平台。在此之上,RAG 管道和微调管道可以形成数据飞轮:线上 RAG 的差评 case 回流标注,触发 LLaMA-Factory 的自动微调任务,微调后模型替换上线,完成闭环。LLaMA-Factory 可被集成为你们平台的一个任务组件。
11. 最终结论
没有最佳方案,只有最匹配当前资源与阶段的方案。
优先选纯 RAG 的情况:知识更新快、团队偏工程、需要快速验证、硬件严格受限、对回答风格一致性要求不高。这是最小可行产品(MVP)的最优路径。
优先选纯微调(LLaMA-Factory)的情况:知识稳定、对回答专业度和风格一致性要求极高、有领域专家可构造高质量数据,且不想维护检索管道。它是一个深度打磨回答质量的工具,但必须承受重训代价。
应该先不要用 RAG+微调的情况:团队首次接触 LLM 应用、没有专人分别负责检索和训练、或者系统尚未上线收集到真实反馈。组合方案的复杂度足以吃掉一个 3 人团队的所有时间而没有任何产出。它应该是一个演进目标,而不是一个起步方案。
对中小企业最务实的建议:
从LLaMA-Factory + 基座模型运行一个最基本的推理服务开始,然后用纯 RAG 构建第一版问答系统。把 LLaMA-Factory 当做备用武器——当你发现 RAG 的答案“正确但不够好”,且问题清晰可定义时,再打开 LLaMA-Factory,用你们积累下来的精选数据做一次指令微调。LLaMA-Factory 让微调这件事不再是少数人的特权,但判断“要不要微调、微调哪里”的决策权,永远是工程负责人不可推卸的责任。
