Anthropic就Claude Fable隐形护栏致歉,将使保护措施更透明
致歉声明
Anthropic为其悄悄对新AI模型Claude Fable 5设置隐藏护栏的行为致歉。这些隐藏护栏会影响研究人员和竞争对手使用该模型来开发竞争系统。该公司表示将改变做法,对于限制何时生效会更加透明,即便这意味着Fable会拒绝更多查询。
Fable模型情况
Fable是Anthropic的Mythos类AI系统中首个广泛可用的模型。数月来,该公司一直警告称,这类模型对公众发布过于危险。Anthropic表示,通过为Fable设置防止其回应某些“高风险”查询的保护措施,已解决了部分风险。Anthropic称,将限制Fable在蒸馏方面的回应,蒸馏是一种利用大型AI模型的输出来训练小型AI模型的技术。
处理方式改变
在Fable的系统卡片中,Anthropic表示,将通过直接改变和降低模型答案的质量来处理它认为是蒸馏尝试的查询。用户不会收到触发安全措施的通知,也不会被告知回复已被更改。Anthropic在X上发文称,现在正在改变其对蒸馏的处理方式:查询现在将转至Anthropic的上一代旗舰模型Claude Opus 4.8。Anthropic还会显著告知用户:“每次发生这种情况时,你都会看到提示。”
类似处理方式
这与Fable处理其他高风险领域查询的方式类似。当安全功能在生物学、化学和网络安全等领域被触发时,查询将通过Opus 4.8进行处理,除非根据公司更广泛的安全规则(如涉及毒品、武器或其他违禁内容的规则)被直接阻止。在某些情况下,尤其是生物学领域,保护措施的设置范围非常广泛,以至于Fable实际上连基本查询都无法处理,Anthropic发言人Paruul Maheshwary在对The Verge的评论中承认了这一点。
错误权衡
Anthropic在X上写道:“可见的保护措施可以被探究,因此必须足够强大,而这需要时间来完善。隐形保护措施可以更有针对性,使我们能够快速推出且误报极少。出于这个原因,我们选择了隐形保护措施——但这是一个错误的权衡。你应该了解我们所设置的保护措施以及原因。我们很抱歉没有把握好平衡。”
引发反对
此前,Anthropic决定悄悄限制疑似试图将Fable蒸馏成竞争模型的用户,这一决定引发了AI研究社区的强烈反对。批评者警告称,这种保护措施也可能影响试图评估前沿模型的第三方。在系统卡片中,Anthropic表示,较新模型加速AI发展的能力证明了针对这些请求的合理性,并指出“使用Claude开发竞争模型已经违反了我们的服务条款”。Anthropic此前曾指责中国竞争对手(如DeepSeek)以“工业规模”不公平地蒸馏其模型。那么,未来Anthropic在平衡模型安全与开放使用方面会有怎样的举措呢?
