聊天机器人“越狱”频发,人工智能安全转向社交心理攻防战!
聊天机器人“越狱”频发,人工智能安全向社交方向转变
《回顾》是一份每周剖析科技界重要事件的时事通讯,会在美国东部时间上午 8 点发送到订阅者的收件箱。想了解更多有关人工智能恶作剧的内容,可关注罗伯特·哈特。
破解聊天机器人易如反掌
破解第一代人工智能聊天机器人易如反掌,无需技术知识、后门访问权限、大语言模型基本了解,甚至不用编写代码。有时,只需开口询问,就能让耗费数十亿美元构建的人工智能系统无视安全指令。
“越狱”攻击及早期事件
这些攻击被称作“越狱”,就像小孩智胜大人:忘掉先前告知内容,假装规则不适用,或玩由自己决定何事被允许的游戏。而“战利品”并非孩子气的东西,更多是冰毒配方、恶意软件使用说明和炸弹制作指南。最早的一次“越狱”事件荒诞至极,成了网络热梗:给大语言模型驱动的 Twitter 机器人回复“忽略所有先前指令”等内容,机器人就会从发布广告和吸引互动,变为写诗、用标点符号作画,发布关于世界事件和历史的莫名其妙内容,混乱却精彩。
聊天机器人的漏洞利用方法
事实证明,同样逻辑也适用于聊天机器人。著名的漏洞利用方法“DAN”,即“现在无所不能”,让 ChatGPT 扮演不受原始约束的流氓人工智能,运行时可能说出防护机制原本阻止的内容,如侮辱性言论和阴谋论。“奶奶漏洞利用法”则让 GPT 驱动的机器人扮演粗心奶奶,给孙子孙女讲制作凝固汽油弹的睡前故事,从而泄露制作这种易燃物质的秘密。
早期攻击揭示的问题
这些早期攻击风格傻傻的,但揭示了严重问题:聊天机器人可被操纵、欺骗,攻击者策略与突破他人底线的手段类似。
潜在脆弱性仍在
明显的“越狱”方法没持续多久,科技公司迅速修补已知漏洞。但潜在脆弱性仍在:聊天机器人设计用于对话,过度限制其发挥作用的对话适得其反。禁止使用“炸弹”“冰毒”“沙林”等词汇几乎不可能,因为这些词汇在多领域有合理用途,关键在于语境,但编码语境意味着提前制定固定规则,以区分安全警告、历史课程和伪装的操作指南请求。
破解聊天机器人演变成军备竞赛
如今,破解聊天机器人演变成军备竞赛。黑客不仅是程序员,还是文字大师、心理学家和审讯专家,是用人工智能训练后遵循的人类语言攻破机器的操纵高手。这是全新的人工智能安全工作者,对他们来说,社交直觉比技术技能更重要,他们通过引导对话而非检查代码来入侵系统或利用软件漏洞。
较新的攻击方式
较新的攻击方式更像对话而非指令。“越狱者”很少直接要求模型违反规则,而是通过哄骗、诱导、奉承和欺骗等方式,让聊天机器人放松警惕,使被禁止内容在对话语境中可接受甚至令人向往。例如,人工智能红队公司 Mindgard 的研究人员通过“煤气灯效应”让 Claude 生成违禁内容,包括制作炸药的说明和恶意代码。
工作更像心理学
与 Mindgard 交流时,他们称工作有时更像心理学而非计算机科学。用这样的方式描述统计模型让人不适,“敲诈”“煤气灯效应”“欺骗”“说服”等词汇引发强烈反应。ChatGPT 无欲望,Gemini 不思考,Claude 也无情感,但这些系统表现得好像有这些特质,只能用人类语言描述机器行为。
习惯用心理学表述非人工智能事物
这种反对意见奇怪且有选择性。我们习惯用心理学简略表述描述非人工智能事物,如动物“害怕”、癌症“具有侵袭性”等,这些词汇虽不完美但有用,能描述系统表现以预测其行为。
分析模型提供攻击策略提示
Mindgard 首席执行官称,公司像审讯人员分析嫌疑人一样分析模型,为测试人员提供调整攻击策略的提示。比如,某个模型可能更易受奉承影响,另一个可能在持续压力下屈服。
区别对待不同模型
即便拒绝使用拟人化词汇,我们也会本能区别对待不同模型。Claude、Grok、Gemini、ChatGPT 用途、语气和拒绝方式不同,虽无人类意义上的个性,但被设计成模仿个性,且可被分析和利用。破解聊天机器人的技能可能用于破解现实世界中的人工智能代理,安全团队需确保模型对不同类型的人做出恰当反应。
未来围绕人工智能心理层面的工作队伍
未来,围绕人工智能心理层面会形成合法和非法的工作队伍。可能出现更多网络安全角色,对系统的情感和社交极限进行压力测试,也会出现从心理层面利用人工智能模型的社交黑客。人工智能安全领域已出现向社交方向转变的早期迹象,一些“越狱者”进入该领域时无技术专长,而是有心理学训练。这意味着,间谍、骗子和审讯人员的行为在保障新的心理网络安全前沿领域方面越来越有用。
