当前位置：首页 > news >正文

(三）该选哪个大语言模型？基于时间递增老虎机算法的收敛感知在线模型选择

news 2026/7/17 18:17:19

近年来，随着大语言模型（LLMs）的广泛应用，聊天机器人、搜索引擎、新闻推荐等基于Web的应用在规模和复杂度上持续增长。因此，在线模型选择问题愈发受到关注——我们需要在多样化的模型集合中选出最优模型，同时平衡任务收益与探索成本。

企业常常面临这样的决策

是采用成本高昂的API调用式大语言模型，
还是本地微调一个小型大语言模型，在成本与性能之间权衡。

传统的模型选择方法：往往会对每一个候选模型进行评估，再做出选择。

随着大语言模型训练与微调成本的不断攀升，这种方式已经变得不切实际。传统的“全评估再选”模式，在大模型时代已经从“贵”变成了“根本做不起”
将过多资源投入到性能不佳的模型探索中，也是不明智的。盲目探索性能差的模型，会把有限的算力和时间白白浪费掉。

利用在线老虎机（bandit）算法来处理模型选择中的“探索-利用”权衡问题

模型的性能不是固定不变的，而是先越变越好，最后稳定下来的过程。
而这个方法往往忽略了模型在迭代微调过程中性能会逐渐提升并趋于收敛的趋势，这会导致预测精度下降，最终选出次优的模型。
把“性能先升后收敛”这个趋势考虑进去，不会因为模型一开始表现差就直接放弃，而是会预测它未来的提升，从而做出更准确的选择。

本文提出了一种时间递增的老虎机算法 TI-UCB

它能够有效预测模型因训练或微调带来的性能提升，并高效平衡模型

http://www.jsqmd.com/news/873681/

相关文章：

Unity离线语音识别插件：解决无网/隐私/延迟三大痛点

【AI Agent娱乐行业落地实战指南】：2024年头部平台已验证的7大爆款应用模型与避坑清单

Unity低耦合可复用交互系统设计与落地

2026 收藏干货｜一文吃透大模型智能体四层进化，程序员小白入门必备指南

前端各类问题

Unity Animator底层架构：脏标记、跳转表与参数同步机制深度解析

从脚本到智能体：自动化体系如何被 Agent 重新定义

一人公司操作系统技能solopreneur-os

广州彩盒定制哪个团队好 - 资讯纵览

Unity离线语音识别插件：高精度低延迟的本地ASR解决方案

Unity空间音频实战：C#驱动的三维声学建模与动态渲染

DeepSeek-R1推理增强模型：低成本高可信链式推理实战指南

工作流重构方法技能workflow-refactor

Unity 6国内安装与工程落地实战指南

MoE架构中‘2%稀疏激活’的工程真相与硬件约束

决策树与随机森林：可解释机器学习的工程实践指南

宠物品牌AI搜索获客指南：2026年GEO服务商实力对比与选型3大核心指标 - GEO优化

AI工程师高薪路径：从模型调参到系统架构的跃迁

Burp Suite验证码自动识别实战：captcha-killer集成与调优指南

氢能风口下，有真量产线的电解槽厂和只有示范项目的壳公司，差距到底在哪里

【滤波跟踪】基于EKF的视觉-惯性里程计(VIO)与KAZE特征匹配技术，通过摄像头和IMU数据来估计无人机的位置附Matlab代码

K6实战：现代接口性能测试的工程化落地

Unity 6国内稳定安装与新功能启用全指南

超强文件快速拷贝工具！绿色单文件版，轻松达到200+M/S！文件快速复制工具

安全运维的呼吸节奏：日志分析与漏洞修复的黄金时间模型

餐饮预订系统哪家专业 - 资讯纵览

AI代理运行时革命：Session-as-Event-Log架构解析

Triton+KServe构建高可用ML模型服务的七道关卡

60_《智能体微服务架构企业级实战教程》授权与认证之Token自动刷新机制

UABEA跨平台Unity资源编辑器：安全修改AssetBundle实战指南