当前位置：首页 > news >正文

非结构化上下文演化下基于上下文老虎机的在线多LLM选择

news 2026/7/17 12:25:20

大语言模型（LLMs）的响应行为、调用成本与优势特点各不相同，

- 有的员工（比如GPT-4o）能力强、什么都懂，但贵得离谱，还慢；

-有的员工（比如本地小模型）便宜又快，但只会干简单活，复杂问题就翻车；

• 还有的员工（比如 Claude）特别擅长处理长文本，但对代码问题反应就一般。

这使得为特定用户查询选择最合适的LLM变得极具挑战性。

本文研究在线场景下的自适应多LLM选择问题：在该场景中，学习器需通过多轮查询优化与用户交互，且无法访问离线数据集或模型内部参数，只能依次选择LLM。

该问题的核心挑战源于非结构化上下文演化：

- 对话的提示词（上下文）会“乱变”，而且你根本没法提前预测它会怎么变。第二轮的提示词，完全是由第一轮的回答和用户的反馈共同决定的

- 提示词会通过一个黑盒流程，根据上一轮模型的输出动态变化，这一过程无法被模拟、建模或预先学习。

为解决这一问题，本文首次提出了适用于非结构化提示动态场景下的序列LLM选择上下文老虎机框架。会“边做边学”的智能决策系统：

- 它不用提前知道用户接下来会问什么，也不用提前模拟所有可能的上下文；

- 它只需要根据当前这一轮的上下文（比如用户的当前提问），动态选择最合适的LLM；

- 选完之后，根据模型的回答效果（比如用户是否满意、回答是否正确），它会慢慢学习“什么样的上下文，该选什么样的模型”，越选越准。

我们定义了“短视后悔”（myopic regret）概念，并基于LinUCB算法开发了一种新算法，该算法无需依赖未来上下文预测，即可证明能实现次线性后悔。

查看全文

http://www.jsqmd.com/news/873866/

C++虚函数与多态机制

原来训大模型，就像开一家小餐馆！

缅怀不朽功勋，汲取奋进力量——纪念张柏荣院士

面向心理咨询 Agent 的 Harness 危机关键词拦截

FlexNet Publisher许可证文件合并实战指南

Docker 入门笔记（后端开发必学）

事件驱动仿真技术在航天系统中的应用与优化

电脑里的“大脑”和“画家”：CPU和GPU到底谁在偷偷帮你干活？

观察Taotoken按Token计费模式如何帮助项目控制预算

腾讯混元全新翻译模型Hy-MT2开源，小程序「腾讯Hy翻译」开放体验

Java并发编程:ReentrantLock与AQS原理剖析

2026亲测10款降AIGC网站红黑榜！优缺点无死角剖析,达标率对标顶级水准

µVision调试器与SEGGER J-Link兼容性解析

【咨询业AI Agent应用成熟度评估模型】：基于217家机构实测数据的4级能力图谱与升级路线图

Docker 日常操作笔记（开发最常用命令）

为什么iPhone微信聊天记录搜不到“？“，而安卓可以。

混合精度优化在LLM推理加速中的实践与调优

Keil MDK中System Viewer空白问题的解决方案

社交AI Agent不是Chatbot！5个被99%团队忽略的协议层设计陷阱（附LinkedIn/小红书级SDK接口规范）

通过curl命令直接测试Taotoken聊天补全接口的配置与调用方法

AI赋能绿色未来 —— 华硕重磅亮相第二十八届海峡两岸经贸交易会

3个实用方法彻底解决阅读APP书源失效问题

Docker 里面的镜像（Image）和容器（Container）到底是什么

Python爬虫实战：爬取论文期刊文献整理+管理表生成

Claude不是在模仿人，是在重构认知：3个被忽略的递归反思协议（附企业级调优checklist）

5个技巧让你用Python零成本获取A股专业数据

Python、BMA-Stacking融合LightGBM、GBDT、KNN多模型电商交易欺诈风险预警研究|附代码数据

Apple ID身份协商协议全解析：rO/scnt/m动态参数生成原理

三亚夜市哪家最有特色 - 资讯纵览

pycryptodome导入失败的四大底层原因与诊断方案

相关文章：