当前位置: 首页 > news >正文

Agent模型冷启动问题

1、设计模式问题

A2A 的信息同步和任务协作,有哪些模式,什么时候用什么模式?

除了七个一级智能体由一个系统编码统管,其余智能体散落在各个业务科技研发中心的系统中,A2A 协作的所有数据实体,如何存储维护,如何还原完整的 Agent Trajectory?

1.1 信息同步和任务协作模式

  1. A2A模式:适用于复杂任务,拆解规划执行、React、人机协作。(智能体间任务交互需使用A2A模式)
  2. MCP模式:适用于工具调用、算法原子能力(智能体作为能力提供给外部调用,需使用MCP模式)
  3. 同步调用模式:适用于快速操作。主agent发送请求并等待执行agent一次性返回完整响应。

4异步回调模式:适用于耗时任务。主agent发送异步请求,执行agent立即返回“处理中”状态和任务id,执行完成后回调结果给主agent,回调也是A2A协议。

5、流式输出模式:适用于实时、增量结果。执行agent持续推送状态和增量结果,主agent增量处理分片结果。

1.2 智能体归属

1.3数据存储维护

1、结构化数据:采用Mysql存储,存储task任务信息、Agent执行状态数据、关键节点数据、结果数据。

2、非结构化数据:采用OSS对象存储,存储文档、图片、音频、视频、日志。

临时办法(字段约束):允许(哪些需要约束,哪些不用约束)-考虑后期的维护

参考设计

1.4完整Agent Trajectory

1、Agent执行轨迹:langfuse记录Agent执行轨迹,通过全局唯一的trace id和parent_span_id(父agent的span id),确保跨Agent的链路关联。

2、Agent和业务应用轨迹:langfuse和业务应用的APM系统(应用性能监控)打通,支持全链路监控和可观测性:业务应用A-->智能体B-->智能体C-->业务应用D。

2、Agent LLM 模型冷启动问题

冷启动用 DeepSeek V3.2,基于上线后的实际数据优化 PE,数据进一步积累后SFT+DPO一个小模型,是baseline。但这个baseline,用户体验差,早期用户数据太少,收敛太慢,存在极大的失败风险。

如何实现在线影子模式,规模化生产 real sample,提升学习效率,加快收敛时间?

是否还有更好的提升学习效率和样本效率的方法?

2.1 异常主理人现状

方案:

检索+大模型兜底,二级意图识别。

现状:

准确率如下图。基于产品自己造的种子问题+7天研发人员的自测日志+测试自己捏造了一些问题。

核心问题:

该项目为全新的的项目,业务没有参与问题收集和验证,导致:

  1. 产品/研发/测试自己造的问题与生产实际用户会问的问题相差过大
  2. 意图定义不清晰,例如没人可以说清楚三个报告子意图的核心区别;
  3. 另一方面自己造的问题质量也不高——提供的样本意图边界模糊、有重复样本,例如“查询可用的接驳车辆”,同时出现在“问答查询”、“流程任务”两个意图中。

2.2 如何规模化得到高质量样本

三种方案

方案1(直接捞生产数据标注)

适用于有真实业务、有真实数据的情况

  1. 业务深度参与,明确每种意图的清晰定义、典型问题、对话流程;
  2. 捞取没有AI之业务人员与真人客服之间的对话,用LLM进行筛选,并让业务进行进步一过滤、标注矫正;
  3. 基于业务标注后的样本中的错误样本,进行PE/SFT微调;
  4. 循环2-3直到某一次业务标注的准确率达到80%以上。

方案2(影子模式,让Agent直接上线回答用户问题)

适用于有真实业务、没有真实数据(或缺少)的情况

  1. 业务深度参与,明确每种意图的清晰定义、典型问题、对话流程;
  2. 基于业务的规则,用PE方法构造shadowAgent;
  3. 直接将模拟的shadowAgent上线,用户的问题会走到真人客服的同时也会走到这个shadow Agent,但是不会返回Agent的结果给客户,仅做日志保存
  4. 对拿到的日志和对应的真人回复进行对比,收集到差异很大的问题;
  5. 对问题收集到的问题进行模型+业务标注,得到chosen、rejected样本;
  6. 基于标注后的样本中的错误样本,进行PE/DPO微调;
  7. 循环3-6直到某一次业务标注的准确率达到80%以上。

方案3(用两个Agent模拟用户和客服)

适用于没有真实业务、也没有真实数据的情况

  1. 业务深度参与,明确每种意图的清晰定义、典型问题、对话流程;
  2. 基于业务的规则,用PE方法构造模拟用户Agent、客服Agent(待上线的)
  3. 批量生成该场景的对话数据生成;
  4. 将合成的对话数据进行模型+业务标注;
  5. 基于标注后的样本中的错误样本,进行PE/SFT微调;
  6. 重复3-5直到某一次业务标注的准确率达到80%以上。

三种方案的对比

优点

缺点(风险)

业务参与标注程度

方案1(直接捞生产数据标注)

  1. 工程量小,技术路线成熟。
  1. 需要该对话场景在应用AI之前已经存在。
  2. 需要有大量的真实用户与客服的对话数据。

方案2(影子模式,让Agent直接上线与客服同时回答用户问题)

  1. 可以得到天然的人工客服与shadowAgent的正负样本对,用于DPO训练。
  1. 需要该对话场景在应用AI之前已经存在或者与AI应用同时上线。
  2. 工程开发量较大,技术路线在问答领域不成熟;
  3. 由于初始的shadowAgent能力与真人客服差异过大,导致样本有效率非常低,最终导致退化为方案1。

方案3(用两个Agent模拟用户和客服)

  1. 适用于没有任何对话数据的全新场景。
  1. 算法实现风险大。

2.3 如何更好的利用用户反馈(AI寄件智能体碰到的问题)

为大量智能体设计标准化、低门槛、高可用的用户反馈流程,核心目标是:快速收集有效反馈数据、精准定位智能体问题、支撑迭代优化,同时兼顾用户体验(避免反馈负担)和数据统一性(适配多智能体场景)。

这套智能体用户反馈流程以「低门槛、标准化、数据闭环」为核心,分 5 步落地:

触发:智能体回答后显「赞 / 踩」核心入口 + 可选详细反馈入口,不打扰用户;

核心反馈:1 步完成(赞 = 正向 10 分,踩 = 负向 0 分),系统自动关联智能体 / 会话 / 用户 ID;

详细反馈:不满意必补问题分类(标准化 + 场景化选项),满意可选填亮点,支持文本 / 截图;

数据处理:统一字段存储,自动分类去重、优先级排序,同步至优化看板;

闭环:内部按优先级修复问题,对外同步反馈进度 + 定期公示优化成果。

关键设计:分分支减少用户负担(满意不强制、不满意强引导),可适配各类智能体(仅调整问题分类),靠技术复用 + 运营监控保障落地。

2.4业务如何参与到对话Agent建设中

现状:意图准确率92%,PV2000+,UV2000+,点踩率+兜底率共2.2%

上线前

规划业务场景与构建语料体系:负责梳理和规划的业务场景,定义用户意图与对话逻辑,并按照场景系统性地构建了语料标签体系。

落地中

方案设计与交互逻辑梳理:设计PDD文档和流程图,明确功能边界与业务流程,并细致梳理交互逻辑,确保小丰在用户体验与系统实现间的协调一致。

上线后

持续排查badcase:定期跟踪线上问题,分析生产环境中的badcase,建立持续的监控与优化机制(业务侧每天收集10+点踩/兜底case,分析原因,日度闭环处理)

2.5如何提高样本训练效率

结合RLHF+SFT

第一步:使用RLHF训练长思考模型, 基于少量高质量样本,进行大量的ROLL OUT,直到模型猜出正确答案(主要为规则,面向意图/实体等),再进行奖励训练,以此让模型从少量的高质量样本中获得大量的经验。

第二步:基于第一步得到的长思考模型,产生大量样本训练用于上线的SFT模型。

名词

解释

ROLL OUT

输入一个样本到LLM,采样得到大量的输出。

2.6结论

(1)根据不场景选择不同的数据构造方案

场景

适用方案

该对话场景在应用AI之前已经存在,已有大量客户与真人客服的对话,业务参与度高。

方案1(直接捞生产数据标注)

该对话场景在应用AI之前已经存在或者与AI应用同时上线,但还没有大量对话数据,业务参与度中等。

方案2(影子模式,让Agent直接上线与客服同时回答用户问题)

该对话场景在应用AI之前无法上线。

方案3(用两个Agent模拟用户和客服)

(2)基于RLHF+SFT,结合ROLL OUT,提高训练数据利用效率。

(3)业务参与度高是Agent优化好的必要条件。

3、字节反馈:

1、参考 https://github.com/volcengine/agentkit-samples/blob/main/02-use-cases/multimedia/app/multimedia-agent/src/multimedia_agent/agent.py ,构建多智能体系统。

多Agent系统使用OTEL来Tracing 整条调用链路,通过Tracing ID可以还原整个多智能体的调用链路。

智能体的状态通过veADK的session管理持久化在数据库中。

主Agent ReactPlanner通过思考和上下文来决定remote agent的调用方式和时机。

https://github.com/volcengine/agentkit-samples/blob/main/02-use-cases/multimedia/app/multimedia-agent/src/multimedia_agent/prompt.py

2、在 Rollout 机制稳定性、Reward 准确性尚未验证,且正负样本规模不足(<1K)的情况下,引入 RL 会显著放大噪声与偏差,难以收敛并存在 reward hacking 风险,因此不建议在该阶段尝试 RL。

在收集到足够高质量的样本(10-100)个之前,也不要使用SFT+DPO, DPO 提出的动机本身就是“小样本不适合 RL”(Rafailov et al., 2023(DPO 动机)),但 DPO 仍然依赖偏好质量,不是“噪声免疫”。

可以先考虑使用托管Prompt方式来管理多版本的Prompt,通过收集线上输入作为评测集的input+准确性评估器等来对Prompt调优,以及使用不同版本的智能体做AB测试。

---主要还是先最好人工标注出100条左右的高质量数据集

  1. 规模化 造生产真实数据,我们也可以提供sandbox沙箱,来让DeepSeek 就指导Agent 如何去干,并且RL打分。 可以做,但最最前期还说得有一些精品数据,pe版本管理,写出一些大概能执行的pe来

三个阶段

1. agent架构设计,多agent,或者单agent和tools,或a2a等,根据不同场景,选择合适的架构

2. prompt调优,根据业务场景,优化各个agent的prompt

上述架构和prompt,在初期是非常建议开展的,而且效果一般很明显。看上去咱们现在也处于这个阶段。

在上述两种手段都已经达到一定优化程度后,可以继续提升模型能力,也就是agent rl

1和2的迭代过程中,应该也能积累一些质量不错的real sample。可以作为之后rl的部分数据集

veadk对接了方舟的agent rl,提供了llm as a judge的模式,用在强化学习的reward过程

基于veadk实现的agent,能比较方便地run起整个强化学习流程

字节核心结论:

可以同步做影子模式,用对抗生成的方式来产生较多数据,但基础的baseline(DS+PE+业务标注高质量数据)是核心要重点投入的,也是效果显著的。

Agent影子模式规模化生产Real Sample 的实现

【Agent影子模式规模化生产Real Sample 的实现】

http://www.jsqmd.com/news/971620/

相关文章:

  • 告别虚拟机:在Windows 11的WSL2里一键部署Empire 4.2渗透测试环境
  • 【深度解析】从无状态 ChatBot 到有状态 AI Companion:大模型记忆系统原理与工程落地
  • 2026年常州遗产继承纠纷律师怎么选?看这三点关键不踩雷 - 本地品牌推荐
  • 2026年济南门窗定制小区定制哪家好?泉米阁领先 - myqiye
  • 别再死记硬背了!用Python+spaCy实战NLP句法分析,5分钟搞定依存关系可视化
  • 第【7】期--自由空间光通信(FSO)在Gamma-Gamma湍流信道下的BER性能仿真-maltab完整代码+报告
  • 避坑指南:RuoYi-flowable从源码构建到Docker镜像打包的完整流程(附Node版本与Java依赖问题解决)
  • HarmonyOS Hi3861 WiFi实战:手把手教你用C代码实现一个简易的无线中继器(STA+AP混合模式)
  • 从大模型基础到视觉 Transformer
  • 2026年大同离婚律师哪家好?5位专业实力值得推荐 - 本地品牌推荐
  • 零基础落地!三个精益实操技巧,激活员工主动改善意识
  • AI 生成C# WinForm 窗体 = 目前就是垃圾
  • 蜘蛛池是什么,池录入效果怎样
  • 别再手动部署了!用Docker Compose一键搞定RuoYi-flowable工作流系统(含Node版本避坑指南)
  • 2026年 HC420/780DPD+Z 双相高强钢镀锌板推荐榜:卓越强度与抗腐蚀性能深度解析 - 品牌发掘
  • STC15单片机实战:用IIC驱动LCD1602,告别繁琐的8位并行线(附Proteus仿真文件)
  • 论云上自动化运维及其应用
  • Empire 4.2实战:用Docker Compose一键拉起完整靶场(含监听器、后门生成)
  • 多平台电商通用采集系统:一套代码打通淘宝/天猫/1688/京东/拼多多/抖音
  • 灭蟑螂服务口碑哪家好,河南洁管家靠谱吗? - myqiye
  • WPS双进程之谜:手动关闭wpscloudsv,实测能省多少内存?(附详细步骤)
  • 在个人电脑上高效跑WRF:利用多核并行(mpirun)与CONUS物理方案加速你的天气模拟
  • Word VBA调试时文件被锁死?教你用On Error GoTo跳过4198错误并释放文件
  • 别再死记硬背了!用Python模拟RDT协议(可靠数据传输)的发送与接收全过程
  • 2026年ISO认证申请流程揭秘,恒业咨询解读! - myqiye
  • PyTorch卷积层参数调参避坑指南:搞懂padding、stride和output_padding,告别形状不匹配报错
  • C语言多线程编程踩坑记:pthread_create传参类型不匹配警告的三种解法
  • 2026年常州企业老板力荐合同纠纷律师推荐:5位实战型专家值得信赖 - 本地品牌推荐
  • 【深度解析】从 Oceanus 泄露事件看前沿大模型的代码推理、自动化安全测试与治理挑战
  • UART非阻塞式打印