当前位置: 首页 > news >正文

非结构化上下文演化下基于上下文老虎机的在线多LLM选择

大语言模型(LLMs)的响应行为、调用成本与优势特点各不相同,

- 有的员工(比如GPT-4o)能力强、什么都懂,但贵得离谱,还慢;

-有的员工(比如本地小模型)便宜又快,但只会干简单活,复杂问题就翻车;

• 还有的员工(比如 Claude)特别擅长处理长文本,但对代码问题反应就一般。

这使得为特定用户查询选择最合适的LLM变得极具挑战性。

本文研究在线场景下的自适应多LLM选择问题:在该场景中,学习器需通过多轮查询优化与用户交互,且无法访问离线数据集或模型内部参数,只能依次选择LLM。

该问题的核心挑战源于非结构化上下文演化:

- 对话的提示词(上下文)会“乱变”,而且你根本没法提前预测它会怎么变。第二轮的提示词,完全是由第一轮的回答和用户的反馈共同决定的

- 提示词会通过一个黑盒流程,根据上一轮模型的输出动态变化,这一过程无法被模拟、建模或预先学习。

为解决这一问题,本文首次提出了适用于非结构化提示动态场景下的序列LLM选择上下文老虎机框架。会“边做边学”的智能决策系统:

- 它不用提前知道用户接下来会问什么,也不用提前模拟所有可能的上下文;

- 它只需要根据当前这一轮的上下文(比如用户的当前提问),动态选择最合适的LLM;

- 选完之后,根据模型的回答效果(比如用户是否满意、回答是否正确),它会慢慢学习“什么样的上下文,该选什么样的模型”,越选越准。

我们定义了“短视后悔”(myopic regret)概念,并基于LinUCB算法开发了一种新算法,该算法无需依赖未来上下文预测,即可证明能实现次线性后悔。

 

http://www.jsqmd.com/news/873866/

相关文章:

  • C++虚函数与多态机制
  • 原来训大模型,就像开一家小餐馆!
  • 缅怀不朽功勋,汲取奋进力量——纪念张柏荣院士
  • 面向心理咨询 Agent 的 Harness 危机关键词拦截
  • FlexNet Publisher许可证文件合并实战指南
  • Docker 入门笔记(后端开发必学)
  • 事件驱动仿真技术在航天系统中的应用与优化
  • 电脑里的“大脑”和“画家”:CPU和GPU到底谁在偷偷帮你干活?
  • 观察Taotoken按Token计费模式如何帮助项目控制预算
  • 腾讯混元全新翻译模型Hy-MT2开源,小程序「腾讯Hy翻译」开放体验
  • Java并发编程:ReentrantLock与AQS原理剖析
  • 2026亲测10款降AIGC网站红黑榜!优缺点无死角剖析,达标率对标顶级水准
  • µVision调试器与SEGGER J-Link兼容性解析
  • 【咨询业AI Agent应用成熟度评估模型】:基于217家机构实测数据的4级能力图谱与升级路线图
  • Docker 日常操作笔记(开发最常用命令)
  • 为什么iPhone微信聊天记录搜不到“?“,而安卓可以。
  • 混合精度优化在LLM推理加速中的实践与调优
  • Keil MDK中System Viewer空白问题的解决方案
  • 社交AI Agent不是Chatbot!5个被99%团队忽略的协议层设计陷阱(附LinkedIn/小红书级SDK接口规范)
  • 通过curl命令直接测试Taotoken聊天补全接口的配置与调用方法
  • AI赋能 绿色未来 —— 华硕重磅亮相第二十八届海峡两岸经贸交易会
  • 3个实用方法彻底解决阅读APP书源失效问题
  • Docker 里面的镜像(Image)和容器(Container)到底是什么
  • Python爬虫实战:爬取论文期刊 文献整理+管理表生成
  • Claude不是在模仿人,是在重构认知:3个被忽略的递归反思协议(附企业级调优checklist)
  • 5个技巧让你用Python零成本获取A股专业数据
  • Python、BMA-Stacking融合LightGBM、GBDT、KNN多模型电商交易欺诈风险预警研究|附代码数据
  • Apple ID身份协商协议全解析:rO/scnt/m动态参数生成原理
  • 三亚夜市哪家最有特色 - 资讯纵览
  • pycryptodome导入失败的四大底层原因与诊断方案