当前位置: 首页 > news >正文

DroPE:不进行长上下文微调实现无缝的零样本上下文扩展 | 直播预约

主题

DroPE:不进行长上下文微调实现无缝的零样本上下文扩展

时间

2026.02.28 周六 22:00 北京时间
2026.02.28 周六 09:00 美东时间
2026.02.28 周六 06:00 美西时间

直播平台

微信视频号:

b站直播间:

Youtube直播间:

https://www.youtube.com/@niceaitalk



内容介绍

到目前为止,想要有效扩展语言模型的上下文长度,通常都需要在预训练序列长度之外进行成本高昂的微调。在本文中,我们通过在训练后移除语言模型的位置嵌入(DroPE),打破了这一关键瓶颈。我们这一简洁方法基于三个重要的理论与实验观察:

  1. 位置嵌入(PE)在预训练阶段至关重要,它提供了关键的归纳偏置,能显著加速模型收敛。

  2. 但模型对这种显式位置信息的过度依赖,也正是导致其在测试时无法泛化到未见过的序列长度的核心原因——即便使用目前流行的位置嵌入缩放方法也难以解决。

  3. 位置嵌入并非高效语言建模的固有必需组件,在预训练结束后,只需经过短暂的重校准阶段,就可以安全地将其移除。

实验表明,DroPE 能够在不进行任何长上下文微调的前提下,实现无缝的零样本上下文扩展,在不损害模型在原始训练上下文上能力的同时,快速适配预训练语言模型。我们的结论在多种模型与数据集规模上均成立,性能远超此前的专用架构以及主流的旋转位置嵌入(RoPE)缩放方法。

Extending the Context of Pretrained LLMs by Dropping Their Positional Embeddings
论文地址:https://arxiv.org/abs/2512.12167

嘉宾

Yoav Gelberg是牛津大学研究员,研究方向为提升语言模型的适应性与可靠性。 他的研究重点包括:训练后模型适配、长上下文语言建模、模型异常行为检测与监控、数据高效的架构设计,研究中常利用神经网络参数空间与模型激活中的结构特性。
个人主页:
https://yoavgelberg.github.io/

主持人

李大卫,亚利桑那州立大学一年级博士生,在ACL,EMNLP,NAACL等顶级会议发表多篇论文,同时担任ARR,ICLR,NeurIPS,AISTATS等国际会议审稿人。研究兴趣包括从结构化/非结构化文本以及参数化模型中蒸馏知识,高效模型训练/推理,以及探索大模型的社会智能和社交智能。

入群

欢迎加入NICE每周分享交流群,可与NICEer唠嗑,以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证,群内无广告。

备注【昵称-单位-方向-NICE入群】

NICE介绍

NICE(Nexus forIntelligenCE)是一个由全球50+位一线青年学者共同发起的顶尖AI前沿交流平台。 成立以来,我们汇聚海内外300+嘉宾,通过百余场线上深度分享与线下高规格活动(北京/上海/苏州等),全网积累超13万关注。目前,NICE已构建起覆盖中、美、欧的国际化团队,正加速在硅谷、纽约、香港等地落地,致力于打造连接学术、产业与未来的全球化AI前沿社区。
NICE主页
https://nice-nlp.github.io
NICE海外
https://nice-intl.github.io
b站
https://space.bilibili.com/507524288
Youtube
https://www.youtube.com/@niceaitalk

编辑:冯可蘅 华盛顿大学
http://www.jsqmd.com/news/419776/

相关文章:

  • 上海清竹园墓园联系方式:使用建议与环境特色介绍 - 十大品牌推荐
  • 上海清竹园墓园联系方式:沟通准备与整体情况说明 - 十大品牌推荐
  • 为AI 构建一个“理想人格“模板:知识渊博、乐于助人、透明坦诚、谦逊自省#从 Alignment 到 Constitution 的范式转移
  • 当开发者变成“消费者“:Vibe Coding 时代的一人生存指南
  • 传统上位机升级:C# WinForms/WPF 集成 YOLO 实现视觉智能化改造
  • LiuJuan Z-Image部署指南:Streamlit可视化界面+显存碎片治理保姆级教程
  • 上海清竹园墓园联系方式:主要联系途径说明 - 十大品牌推荐
  • C# 上位机 + YOLO在车载监控场景中实现行车道检测 + 障碍物检测** 的完整工业级实战代码与指南
  • 上海清竹园墓园联系方式:服务窗口与园区概况简述 - 十大品牌推荐
  • 仓储物流场景下 C# 上位机集成 YOLOv9 实现货物识别与定位
  • 中文情感分析新选择:StructBERT WebUI快速上手指南
  • 基于Java+SSM+Flask法律咨询系统(源码+LW+调试文档+讲解等)/法律咨询/法律问答/法律顾问/法律在线/法律查询/法律解答/法律指南/法律帮助/法律服务平台/法律咨询热线
  • RexUniNLU环境配置避坑指南:让部署不再困难
  • OFA-VE性能优化实战:利用CUDA加速视觉分析推理
  • 基于Java+SSM+Flask网上订餐管理系统(源码+LW+调试文档+讲解等)/在线订餐系统/网络订餐软件/订餐管理平台/外卖订餐系统/网上订餐服务/订餐系统开发/订餐网站设计/网上订餐平台
  • 百川2-13B-4bits量化模型教程:4bit权重文件结构(.safetensors)与加载机制解析
  • 上海清竹园墓园联系方式:咨询指南与注意事项参考 - 十大品牌推荐
  • Qwen3-ASR-0.6B开源ASR工具实操手册:纯本地运行、隐私安全、多格式音频支持
  • 企业级应用:用Qwen3-VL:30B和Clawdbot升级飞书智能办公
  • 这个软件我开发了11年,终于赚钱了!
  • DeepSeekV4爆炸了,中国可以对英伟达说“不”
  • OpenClaw 再升级,OpenFang 重磅开源!
  • 2026年02月27日全球AI前沿动态
  • (一)走进阿里云实时计算Flink版|产品能力篇【上篇】
  • agent 即服务
  • 用 AI 写的串口工具
  • 前英伟达工程师 Chip Huyen :当模型不再稀缺,工程能力才是真正的分水岭
  • 从人机环境系统智能角度分析美四校“自主Coding Agent错了”
  • HTML入门:构建网页的基石
  • 问界发布26年春节出行报告,问界的新变化该咋看?