当前位置：首页 > news >正文

Agent模型冷启动问题

news 2026/6/8 1:49:34

1、设计模式问题

A2A 的信息同步和任务协作，有哪些模式，什么时候用什么模式？

除了七个一级智能体由一个系统编码统管，其余智能体散落在各个业务科技研发中心的系统中，A2A 协作的所有数据实体，如何存储维护，如何还原完整的 Agent Trajectory？

1.1 信息同步和任务协作模式

A2A模式：适用于复杂任务，拆解规划执行、React、人机协作。（智能体间任务交互需使用A2A模式）
MCP模式：适用于工具调用、算法原子能力（智能体作为能力提供给外部调用，需使用MCP模式）。
同步调用模式：适用于快速操作。主agent发送请求并等待执行agent一次性返回完整响应。

4、异步回调模式：适用于耗时任务。主agent发送异步请求，执行agent立即返回“处理中”状态和任务id，执行完成后回调结果给主agent，回调也是A2A协议。

5、流式输出模式：适用于实时、增量结果。执行agent持续推送状态和增量结果，主agent增量处理分片结果。

1.2 智能体归属

1.3数据存储维护

1、结构化数据：采用Mysql存储，存储task任务信息、Agent执行状态数据、关键节点数据、结果数据。

2、非结构化数据：采用OSS对象存储，存储文档、图片、音频、视频、日志。

临时办法（字段约束）：允许（哪些需要约束，哪些不用约束）-考虑后期的维护

参考设计

1.4完整Agent Trajectory

1、Agent执行轨迹：langfuse记录Agent执行轨迹，通过全局唯一的trace id和parent_span_id（父agent的span id），确保跨Agent的链路关联。

2、Agent和业务应用轨迹：langfuse和业务应用的APM系统（应用性能监控）打通，支持全链路监控和可观测性：业务应用A-->智能体B-->智能体C-->业务应用D。

2、Agent LLM 模型冷启动问题

冷启动用 DeepSeek V3.2，基于上线后的实际数据优化 PE，数据进一步积累后SFT+DPO一个小模型，是baseline。但这个baseline，用户体验差，早期用户数据太少，收敛太慢，存在极大的失败风险。

如何实现在线影子模式，规模化生产 real sample，提升学习效率，加快收敛时间？

是否还有更好的提升学习效率和样本效率的方法？

2.1 异常主理人现状

方案：

检索+大模型兜底，二级意图识别。

现状：

准确率如下图。基于产品自己造的种子问题+7天研发人员的自测日志+测试自己捏造了一些问题。

核心问题：

该项目为全新的的项目，业务没有参与问题收集和验证，导致：

产品/研发/测试自己造的问题与生产实际用户会问的问题相差过大；
意图定义不清晰，例如没人可以说清楚三个报告子意图的核心区别；
另一方面自己造的问题质量也不高——提供的样本意图边界模糊、有重复样本，例如“查询可用的接驳车辆”，同时出现在“问答查询”、“流程任务”两个意图中。

2.2 如何规模化得到高质量样本

三种方案

方案1（直接捞生产数据标注）

适用于有真实业务、有真实数据的情况

业务深度参与，明确每种意图的清晰定义、典型问题、对话流程；
捞取没有AI之前业务人员与真人客服之间的对话，用LLM进行筛选，并让业务进行进步一过滤、标注矫正；
基于业务标注后的样本中的错误样本，进行PE/SFT微调；
循环2-3直到某一次业务标注的准确率达到80%以上。

方案2（影子模式，让Agent直接上线回答用户问题）

适用于有真实业务、没有真实数据（或缺少）的情况

业务深度参与，明确每种意图的清晰定义、典型问题、对话流程；
基于业务的规则，用PE方法构造shadowAgent;
直接将模拟的shadowAgent上线，用户的问题会走到真人客服的同时也会走到这个shadow Agent，但是不会返回Agent的结果给客户，仅做日志保存。
对拿到的日志和对应的真人回复进行对比，收集到差异很大的问题；
对问题收集到的问题进行模型+业务标注，得到chosen、rejected样本；
基于标注后的样本中的错误样本，进行PE/DPO微调；
循环3-6直到某一次业务标注的准确率达到80%以上。

方案3（用两个Agent模拟用户和客服）

适用于没有真实业务、也没有真实数据的情况

业务深度参与，明确每种意图的清晰定义、典型问题、对话流程；
基于业务的规则，用PE方法构造模拟用户Agent、客服Agent（待上线的）；
批量生成该场景的对话数据生成；
将合成的对话数据进行模型+业务标注；
基于标注后的样本中的错误样本，进行PE/SFT微调；
重复3-5直到某一次业务标注的准确率达到80%以上。

三种方案的对比

	优点	缺点(风险)	业务参与标注程度
方案1（直接捞生产数据标注）	工程量小，技术路线成熟。	需要该对话场景在应用AI之前已经存在。需要有大量的真实用户与客服的对话数据。	高
方案2（影子模式，让Agent直接上线与客服同时回答用户问题）	可以得到天然的人工客服与shadowAgent的正负样本对，用于DPO训练。	需要该对话场景在应用AI之前已经存在或者与AI应用同时上线。工程开发量较大，技术路线在问答领域不成熟；由于初始的shadowAgent能力与真人客服差异过大，导致样本有效率非常低，最终导致退化为方案1。	中
方案3（用两个Agent模拟用户和客服）	适用于没有任何对话数据的全新场景。	算法实现风险大。	中

2.3 如何更好的利用用户反馈（AI寄件智能体碰到的问题）

为大量智能体设计标准化、低门槛、高可用的用户反馈流程，核心目标是：快速收集有效反馈数据、精准定位智能体问题、支撑迭代优化，同时兼顾用户体验（避免反馈负担）和数据统一性（适配多智能体场景）。

这套智能体用户反馈流程以「低门槛、标准化、数据闭环」为核心，分 5 步落地：

触发：智能体回答后显「赞 / 踩」核心入口 + 可选详细反馈入口，不打扰用户；

核心反馈：1 步完成（赞 = 正向 10 分，踩 = 负向 0 分），系统自动关联智能体 / 会话 / 用户 ID；

详细反馈：不满意必补问题分类（标准化 + 场景化选项），满意可选填亮点，支持文本 / 截图；

数据处理：统一字段存储，自动分类去重、优先级排序，同步至优化看板；

闭环：内部按优先级修复问题，对外同步反馈进度 + 定期公示优化成果。

关键设计：分分支减少用户负担（满意不强制、不满意强引导），可适配各类智能体（仅调整问题分类），靠技术复用 + 运营监控保障落地。

2.4业务如何参与到对话Agent建设中

现状：意图准确率92%，PV2000+，UV2000+，点踩率+兜底率共2.2%

上线前	规划业务场景与构建语料体系：负责梳理和规划的业务场景，定义用户意图与对话逻辑，并按照场景系统性地构建了语料标签体系。
落地中	方案设计与交互逻辑梳理：设计PDD文档和流程图，明确功能边界与业务流程，并细致梳理交互逻辑，确保小丰在用户体验与系统实现间的协调一致。
上线后	持续排查badcase：定期跟踪线上问题，分析生产环境中的badcase，建立持续的监控与优化机制（业务侧每天收集10+点踩/兜底case，分析原因，日度闭环处理）

2.5如何提高样本训练效率

结合RLHF+SFT

第一步：使用RLHF训练长思考模型，基于少量高质量样本，进行大量的ROLL OUT，直到模型猜出正确答案(主要为规则，面向意图/实体等)，再进行奖励训练，以此让模型从少量的高质量样本中获得大量的经验。

第二步：基于第一步得到的长思考模型，产生大量样本训练用于上线的SFT模型。

名词	解释
ROLL OUT	输入一个样本到LLM，采样得到大量的输出。

2.6结论

（1）根据不同场景选择不同的数据构造方案

场景	适用方案
该对话场景在应用AI之前已经存在，已有大量客户与真人客服的对话，业务参与度高。	方案1（直接捞生产数据标注）
该对话场景在应用AI之前已经存在或者与AI应用同时上线，但还没有大量对话数据，业务参与度中等。	方案2（影子模式，让Agent直接上线与客服同时回答用户问题）
该对话场景在应用AI之前无法上线。	方案3（用两个Agent模拟用户和客服）