Agent模型冷启动问题
1、设计模式问题
A2A 的信息同步和任务协作,有哪些模式,什么时候用什么模式?
除了七个一级智能体由一个系统编码统管,其余智能体散落在各个业务科技研发中心的系统中,A2A 协作的所有数据实体,如何存储维护,如何还原完整的 Agent Trajectory?
1.1 信息同步和任务协作模式
- A2A模式:适用于复杂任务,拆解规划执行、React、人机协作。(智能体间任务交互需使用A2A模式)
- MCP模式:适用于工具调用、算法原子能力(智能体作为能力提供给外部调用,需使用MCP模式)。
- 同步调用模式:适用于快速操作。主agent发送请求并等待执行agent一次性返回完整响应。
4、异步回调模式:适用于耗时任务。主agent发送异步请求,执行agent立即返回“处理中”状态和任务id,执行完成后回调结果给主agent,回调也是A2A协议。
5、流式输出模式:适用于实时、增量结果。执行agent持续推送状态和增量结果,主agent增量处理分片结果。
1.2 智能体归属
1.3数据存储维护
1、结构化数据:采用Mysql存储,存储task任务信息、Agent执行状态数据、关键节点数据、结果数据。
2、非结构化数据:采用OSS对象存储,存储文档、图片、音频、视频、日志。
临时办法(字段约束):允许(哪些需要约束,哪些不用约束)-考虑后期的维护
参考设计
1.4完整Agent Trajectory
1、Agent执行轨迹:langfuse记录Agent执行轨迹,通过全局唯一的trace id和parent_span_id(父agent的span id),确保跨Agent的链路关联。
2、Agent和业务应用轨迹:langfuse和业务应用的APM系统(应用性能监控)打通,支持全链路监控和可观测性:业务应用A-->智能体B-->智能体C-->业务应用D。
2、Agent LLM 模型冷启动问题
冷启动用 DeepSeek V3.2,基于上线后的实际数据优化 PE,数据进一步积累后SFT+DPO一个小模型,是baseline。但这个baseline,用户体验差,早期用户数据太少,收敛太慢,存在极大的失败风险。
如何实现在线影子模式,规模化生产 real sample,提升学习效率,加快收敛时间?
是否还有更好的提升学习效率和样本效率的方法?
2.1 异常主理人现状
方案:
检索+大模型兜底,二级意图识别。
现状:
准确率如下图。基于产品自己造的种子问题+7天研发人员的自测日志+测试自己捏造了一些问题。
核心问题:
该项目为全新的的项目,业务没有参与问题收集和验证,导致:
- 产品/研发/测试自己造的问题与生产实际用户会问的问题相差过大;
- 意图定义不清晰,例如没人可以说清楚三个报告子意图的核心区别;
- 另一方面自己造的问题质量也不高——提供的样本意图边界模糊、有重复样本,例如“查询可用的接驳车辆”,同时出现在“问答查询”、“流程任务”两个意图中。
2.2 如何规模化得到高质量样本
三种方案
方案1(直接捞生产数据标注) 适用于有真实业务、有真实数据的情况 |
|
方案2(影子模式,让Agent直接上线回答用户问题) 适用于有真实业务、没有真实数据(或缺少)的情况 |
|
方案3(用两个Agent模拟用户和客服) 适用于没有真实业务、也没有真实数据的情况 |
|
三种方案的对比
优点 | 缺点(风险) | 业务参与标注程度 | |
方案1(直接捞生产数据标注) |
|
| 高 |
方案2(影子模式,让Agent直接上线与客服同时回答用户问题) |
|
| 中 |
方案3(用两个Agent模拟用户和客服) |
|
| 中 |
2.3 如何更好的利用用户反馈(AI寄件智能体碰到的问题)
为大量智能体设计标准化、低门槛、高可用的用户反馈流程,核心目标是:快速收集有效反馈数据、精准定位智能体问题、支撑迭代优化,同时兼顾用户体验(避免反馈负担)和数据统一性(适配多智能体场景)。
这套智能体用户反馈流程以「低门槛、标准化、数据闭环」为核心,分 5 步落地:
触发:智能体回答后显「赞 / 踩」核心入口 + 可选详细反馈入口,不打扰用户;
核心反馈:1 步完成(赞 = 正向 10 分,踩 = 负向 0 分),系统自动关联智能体 / 会话 / 用户 ID;
详细反馈:不满意必补问题分类(标准化 + 场景化选项),满意可选填亮点,支持文本 / 截图;
数据处理:统一字段存储,自动分类去重、优先级排序,同步至优化看板;
闭环:内部按优先级修复问题,对外同步反馈进度 + 定期公示优化成果。
关键设计:分分支减少用户负担(满意不强制、不满意强引导),可适配各类智能体(仅调整问题分类),靠技术复用 + 运营监控保障落地。
2.4业务如何参与到对话Agent建设中
现状:意图准确率92%,PV2000+,UV2000+,点踩率+兜底率共2.2%
上线前 | 规划业务场景与构建语料体系:负责梳理和规划的业务场景,定义用户意图与对话逻辑,并按照场景系统性地构建了语料标签体系。 |
落地中 | 方案设计与交互逻辑梳理:设计PDD文档和流程图,明确功能边界与业务流程,并细致梳理交互逻辑,确保小丰在用户体验与系统实现间的协调一致。 |
上线后 | 持续排查badcase:定期跟踪线上问题,分析生产环境中的badcase,建立持续的监控与优化机制(业务侧每天收集10+点踩/兜底case,分析原因,日度闭环处理) |
2.5如何提高样本训练效率
结合RLHF+SFT
第一步:使用RLHF训练长思考模型, 基于少量高质量样本,进行大量的ROLL OUT,直到模型猜出正确答案(主要为规则,面向意图/实体等),再进行奖励训练,以此让模型从少量的高质量样本中获得大量的经验。
第二步:基于第一步得到的长思考模型,产生大量样本训练用于上线的SFT模型。
名词 | 解释 |
ROLL OUT | 输入一个样本到LLM,采样得到大量的输出。 |
2.6结论
(1)根据不同场景选择不同的数据构造方案
场景 | 适用方案 |
该对话场景在应用AI之前已经存在,已有大量客户与真人客服的对话,业务参与度高。 | 方案1(直接捞生产数据标注) |
该对话场景在应用AI之前已经存在或者与AI应用同时上线,但还没有大量对话数据,业务参与度中等。 | 方案2(影子模式,让Agent直接上线与客服同时回答用户问题) |
该对话场景在应用AI之前无法上线。 | 方案3(用两个Agent模拟用户和客服) |
(2)基于RLHF+SFT,结合ROLL OUT,提高训练数据利用效率。
(3)业务参与度高是Agent优化好的必要条件。
3、字节反馈:
1、参考 https://github.com/volcengine/agentkit-samples/blob/main/02-use-cases/multimedia/app/multimedia-agent/src/multimedia_agent/agent.py ,构建多智能体系统。
多Agent系统使用OTEL来Tracing 整条调用链路,通过Tracing ID可以还原整个多智能体的调用链路。
智能体的状态通过veADK的session管理持久化在数据库中。
主Agent ReactPlanner通过思考和上下文来决定remote agent的调用方式和时机。
https://github.com/volcengine/agentkit-samples/blob/main/02-use-cases/multimedia/app/multimedia-agent/src/multimedia_agent/prompt.py
2、在 Rollout 机制稳定性、Reward 准确性尚未验证,且正负样本规模不足(<1K)的情况下,引入 RL 会显著放大噪声与偏差,难以收敛并存在 reward hacking 风险,因此不建议在该阶段尝试 RL。
在收集到足够高质量的样本(10-100)个之前,也不要使用SFT+DPO, DPO 提出的动机本身就是“小样本不适合 RL”(Rafailov et al., 2023(DPO 动机)),但 DPO 仍然依赖偏好质量,不是“噪声免疫”。
可以先考虑使用托管Prompt方式来管理多版本的Prompt,通过收集线上输入作为评测集的input+准确性评估器等来对Prompt调优,以及使用不同版本的智能体做AB测试。
---主要还是先最好人工标注出100条左右的高质量数据集
- 规模化 造生产真实数据,我们也可以提供sandbox沙箱,来让DeepSeek 就指导Agent 如何去干,并且RL打分。 可以做,但最最前期还说得有一些精品数据,pe版本管理,写出一些大概能执行的pe来
三个阶段
1. agent架构设计,多agent,或者单agent和tools,或a2a等,根据不同场景,选择合适的架构
2. prompt调优,根据业务场景,优化各个agent的prompt
上述架构和prompt,在初期是非常建议开展的,而且效果一般很明显。看上去咱们现在也处于这个阶段。
在上述两种手段都已经达到一定优化程度后,可以继续提升模型能力,也就是agent rl
1和2的迭代过程中,应该也能积累一些质量不错的real sample。可以作为之后rl的部分数据集
veadk对接了方舟的agent rl,提供了llm as a judge的模式,用在强化学习的reward过程
基于veadk实现的agent,能比较方便地run起整个强化学习流程
字节核心结论:
可以同步做影子模式,用对抗生成的方式来产生较多数据,但基础的baseline(DS+PE+业务标注高质量数据)是核心要重点投入的,也是效果显著的。
Agent影子模式规模化生产Real Sample 的实现
【Agent影子模式规模化生产Real Sample 的实现】
