当前位置: 首页 > news >正文

7位作者论文揭示:语言模型拒答行为由单一方向介导,凸显安全微调脆弱性

【arXiv相关信息】

可跳转至主内容,了解arXiv成为独立非营利组织的相关信息。arXiv衷心感谢西蒙斯基金会、会员机构以及所有贡献者的支持。这里还提供捐赠途径。

【搜索与快速链接】

可以进行搜索,搜索范围涵盖标题、作者、摘要等所有字段。还有快速链接,如登录、帮助页面、关于等。

【论文详情】

在计算机科学的机器学习领域,有一篇论文编号为arXiv:2406.11717 。该论文于2024年6月17日提交,最后于2024年10月30日修订(此版本为v3)。标题为“语言模型中的拒答行为由单一方向介导”,作者有安迪·阿迪蒂、奥斯卡·奥贝索、阿奎布·赛义德、丹尼尔·帕莱卡、尼娜·帕尼克瑟里、韦斯·格尼、尼尔·南达。可以查看该论文的PDF版本。

【论文摘要】

对话式大语言模型经微调可遵循指令并保障安全,能服从良性请求、拒绝有害请求,但拒答行为的潜在机制不太清楚。研究表明,在多达720亿参数的13种流行开源聊天模型中,拒答行为由一个一维子空间介导。具体而言,对每个模型都能找到一个单一方向,消除该方向会使模型无法拒绝有害指令,添加则会让模型面对无害指令也拒答。基于此发现,提出新颖白盒越狱方法,能精准禁用拒答功能且对其他能力影响最小。还从机制上分析了对抗性后缀如何抑制拒答介导方向的传播,研究结果凸显当前安全微调方法的脆弱性,也展示了通过理解模型内部机制开发控制模型行为实用方法的途径。

【学科分类与引用格式】

学科分类包括机器学习 (cs.LG)、人工智能 (cs.AI)、计算与语言 (cs.CL) 。引用格式有[arXiv:2406.11717] [cs.LG] ,或针对此版本使用 [arXiv:2406.11717v3] [cs.LG] ,还有 。

【提交历史】

来自安迪·阿迪蒂,提交历史如下:[v1]于2024年6月17日,星期一,16:36:12 UTC(237 KB);[v2]于2024年7月15日,星期一,11:53:41 UTC(183 KB);[v3]于2024年10月30日,星期三,18:57:07 UTC(194 KB) 。

【访问论文方式】

可以查看由安迪·阿迪蒂等7位作者撰写的论文的PDF版本,也可查看TeX源代码 ,还能查看许可协议。

【浏览与切换分类】

当前浏览上下文为机器学习 (cs.LG) ,可以进行上一篇、下一篇文章的切换,还有最新文章、近期文章、特定月份文章的查看。也能切换浏览分类,如计算机科学、人工智能 (cs.AI)、计算与语言 (cs.CL) 。

【参考文献与引用工具】

参考文献与引用工具包括NASA ADS、谷歌学术、语义学者等。还有导出BibTeX引用等操作。

【相关切换工具】

有参考文献浏览器切换、关联论文切换、Litmaps切换、scite.ai切换等,还有代码、数据与媒体相关的alphaXiv切换、代码链接切换等,以及演示相关的Replicate切换、Spaces切换等。

【相关论文推荐与工具】

有推荐器和搜索工具,如影响力图谱链接、CORE推荐器切换、IArxiv推荐器切换等,还可按作者、发表场所、机构、主题查找。

【arXivLabs相关】

arXivLabs是允许合作伙伴在网站上开发和分享新arXiv功能的框架。与arXivLabs合作的个人和组织需认同并接受开放、社区、卓越和用户数据隐私价值观,arXiv也只与遵守这些价值观的合作伙伴合作。若有能为arXiv社区增值的项目想法,可了解更多关于arXivLabs的信息。此外,还有关于本文作者认可者、禁用MathJax等相关内容,以及关于、帮助、联系arXiv、订阅arXiv邮件列表、版权、隐私政策、网络无障碍协助、arXiv运营状态等信息。

http://www.jsqmd.com/news/744449/

相关文章:

  • 告别选型焦虑:手把手教你用ADI的ADBMS6832搭建18串电池监控系统(附电路图)
  • Win11Debloat:轻松优化Windows 11系统,3步告别臃肿体验
  • 如何绕过城通网盘限速:ctfileGet开源工具解析指南
  • 告别编译踩坑:一份为Android音视频开发定制的FFmpeg编译参数详解与优化指南
  • 私有化部署CSGHub:企业级LLM资产管理平台实战指南
  • QT开发实战:用QFileDialog实现.dat文件解析与可视化(附完整源码)
  • Kemono-scraper:终极高效Kemono图片批量下载工具完整指南
  • 别再为FPGA开发环境头疼了!手把手教你搞定Quartus Prime 18.1和ModelSim的安装与联调(附驱动更新)
  • R语言实战:用ipw包搞定三组数据的倾向评分加权(附完整代码与早产数据复现)
  • 免费开源AI视频增强工具Video2X:4K超分辨率与帧插值完整指南
  • RC522读卡模块避坑指南:STC32G驱动CPU卡时,RATS命令为何失败?
  • PhpWebStudy版本管理深度解析:告别环境冲突的终极解决方案
  • Gemini 应用中推出的笔记本(Notebooks)
  • Uber 野心:将数百万司机变传感器网络,为自动驾驶公司提供数据!
  • BetterGI:AI视觉驱动的原神自动化助手,轻松解放双手
  • OpenClaw Manager:本地AI Agent运维的可视化控制面板实践
  • 3个实战场景深度解析:KeymouseGo如何彻底解放你的重复性工作
  • M1/M2 Mac 上 VSCode + CMake 搞定 OpenGL 开发环境(附 GLFW 和 GLAD 配置全流程)
  • LeRobot机器人具身智能部署终极指南:从零到生产环境的完整教程
  • XXMI Launcher:如何一站式管理6款米哈游游戏的终极模组管理器指南
  • 5步打造高效精简版Windows 11:Tiny11Builder自动化工具完全指南
  • SharpKeys键盘重映射终极指南:3分钟掌握Windows键位自定义
  • 技术专家视角:NBTExplorer架构设计与Minecraft数据编辑全面解析
  • 【限时开源】我们刚在ICML 2024发布的分布式训练监控系统——支持实时梯度同步热力图、通信瓶颈AI归因(仅开放前200名下载)
  • 新手避坑指南:用STM32F4的TIM9+TIM10主从定时器精准控制步进电机(附完整工程)
  • 如何免费解锁英雄联盟全皮肤:R3nzSkin国服特供版终极指南
  • Fastjson和Jackson处理循环引用,谁更优雅?一份详细的对比与避坑指南
  • 5分钟掌握PKHeX自动合法性插件:告别繁琐手动调整
  • 高级Windows系统定制化实战指南:自动化构建精简镜像
  • QMCDecode完全指南:3步解锁QQ音乐加密文件,让音乐随处播放