当前位置：首页 > news >正文

2025_NIPS_Follow-the-Perturbed-Leader Nearly Achieves Best-of-Both-Worlds for the m-Set Semi-Bandit

news 2026/3/26 23:14:55

文章核心总结与翻译

一、主要内容

本文聚焦m-集半臂赌博机问题（从d个臂中精确选择m个臂的组合半臂赌博机场景），研究了Follow-the-Perturbed-Leader（FTPL）算法在对抗性和随机性环境下的性能。在对抗性环境中，已知Follow-the-Regularized-Leader（FTRL）算法能达到O(√(nmd))的最优遗憾界，但需通过优化问题计算臂选择概率；而FTPL算法通过随机扰动选择损失最小的m个臂，无需复杂计算。作者证明了带Fréchet扰动的FTPL算法在对抗性环境下达到近最优遗憾界O(√(nm)(√(d log d)) + m^(5/6))，在随机性环境下实现对数级遗憾界O(∑(log n)/Δ_i)（Δ_i为非最优臂的次优间隙），接近“两全其美”（Best-of-Both-Worlds, BOBW）性能。同时通过下界证明，算法中的额外因子（log d和m^(5/6)/d(1/2)）无法通过现有方法移除，进一步改进需全新分析框架。

二、创新点

首次将FTPL算法扩展到m-集半臂赌博机场景，实现了对抗性和随机性环境下的近BOBW性能（m ≤ d/2时）。
扩展了FTRL分析框架，适配m-集动作空间凸包无内点的特性，简化了原有证明逻辑。
解决了m-集半臂赌博机中臂选择概率结构复杂的分析难题，通过Fréchet扰动的特性保证算法效率。
建立了算法的下界，明确现有方法的性能极限，为后续研究指明方向。

http://www.jsqmd.com/news/244946/

相关文章：

进阶-存储过程3-存储函数

2025_NIPS_Follow-the-Perturbed-Leader Nearly Achieves Best-of-Both-Worlds for the m-Set Semi-Bandit

模组日志技术体系介绍！

一文彻底搞懂机器学习评估之“留出法”：从理论、实践到陷阱的深度剖析

进阶-存储对象4-触发器

大数据实战：如何构建高效的大数据处理平台？

人工智能入门教程

进阶-锁章节

2025_NIPS_C-LoRA: Contextual Low-Rank Adaptation for Uncertainty Estimation in Large Language Models

精益生产不是口号，中小企业上手最快的5类工具

模组日志体系总体说明！

深度测评8个AI论文写作软件，助本科生轻松搞定毕业论文！

Agent的核心特质：自主决策、感知环境、持续交互

聚焦老龄化AI赋能京能天云数据-智慧康养服务 APP重构老年健康管理新范式

2025全球AI大模型发展现状与趋势深度解析：从技术突破到产业应用全景图

超实用的追剪、定长切割与跟随切割项目分享

AI智能体记忆系统完全指南：从形式、功能到动态的三维解析

学霸同款2026 AI论文网站TOP8：本科生毕业论文神器测评

智能体 vs 人工智能：一文读懂AI落地的‘关键一公里‘（建议收藏）

大模型转行完全指南：从小白到专家，从规划到AI的成功路径

AI应用架构师的知识管理方法：如何高效积累和沉淀经验？

MLOps测试流水线：软件测试工程师的AI质量守护指南

大模型产品经理学习路线图+免费资料，小白也能入门_大模型AI大模型产品经理学习路线

AI测试数据集构建：工程化实践与质量保障体系

DeepSeek + RAG 手把手实战：从 0 到 1 打造你的个人知识库助手（附 Python 源码）

手把手教你用8款免费AI神器，从零到一轻松搞定毕业论文

实用工具个人备忘录

免费商用素材网站推荐榜2026：高性价比之选 top5 自媒体/中小微企业/电商

生成式AI的内容安全测试：过滤有害输出

别光说不练，10分钟带你从零搭建RustFS集群