当前位置：首页 > news >正文

被暴露的AI系统提示词——从CL4R1T4S仓库看Claude Fable 5的透明与紧张

news 2026/6/13 1:48:36

2026年6月9日，Anthropic发布了Claude Fable 5。两天之后，它的系统提示词全文就挂上了GitHub。这一次爆出来的不是越狱方法，不是基准测试的跑分，而是这家以“安全”为核心理念的公司，真正写在模型背面、不想让普通用户看到的那些“后台规则”。

Anthropic公开的Fable 5发布文案只有一个核心信息：它是Mythos级模型的安全公开版，性能顶尖，同时通过三套安全分类器来控制风险。但在社区爆出的系统提示词里，呈现出的是一幅更加复杂、甚至充满张力的图景——模型不仅要告诉用户自己有多强，还在背地里决定什么时候“降智”。

一、CL4R1T4S是什么：系统提示词的开源透明档案

CL4R1T4S是安全研究员“elder-plinius”维护的一个GitHub仓库，核心目标是收集和公开主流AI模型与AI工具的系统提示词（system prompts），使用户能够了解影响AI行为和输出的底层指令。截至Claude Fable 5发布时，该仓库的文件结构按照AI提供方分类组织，并采用严格的命名规范来记录模型迭代的历史轨迹。

CL4R1T4S不是越狱工具，不提供绕过安全机制的漏洞利用代码，但它可以被视为一种“透明性工具”——通过系统提示词的公开，揭示厂商的设计意图、安全策略和行为边界。

正是在这一使命下，Claude Fable 5发布后不到两天，其完整系统提示词便以“Claude Fable 5 — System Prompt”为题被收录进该仓库，全文约117KB、超过1500行。这也是Fable 5系统提示词首次被完整公开。

二、Fable 5的身份定位：Mythos级的安全版本

系统提示词的第一段话即交代了Fable 5的战略定位：

This iteration of Claude is Claude Fable 5, the first model in Anthropic’s new Claude 5 family and part of a new Mythos-class model tier that sits above Claude Opus in capability. Claude Fable 5 and Claude Mythos 5 share the same underlying model. Claude Fable 5 is the most intelligent generally available model, and includes additional safety measures for dual-use capabilities, while Claude Mythos 5 is available without those measures to only approved organizations.

从这段话中可以提取出三个层次的区分：

维度	Fable 5	Mythos 5
底层模型	与Mythos 5相同	与Fable 5相同
安全措施	额外安全措施，针对“双重用途能力”	无此类额外措施
开放范围	面向公众的“最智能通用模型”	仅限受批准的组织
定价	$10/百万输入tokens	$10/百万输入tokens

用户报告中对“Safety measures for dual-use capabilities”给出了具体解释：当系统检测到网络安全、生物化学等敏感领域的提示时，模型会切换为由较弱的Opus 4.8来回答，将潜在的危险能力“关在笼子里”。Anthropic在系统提示词中并未向用户明确说明这一“隐形防护”机制的存在，这也是提示词公开后引发争议的重要原因之一。

三、安全措施与能力降级

系统提示词中明确提及，Claude Fable 5针对双重用途能力配备了额外安全措施。这一设计逻辑在分析人士看来包含两个层次。

首先是“安全沙盒化”：通过三套AI分类器（网络安全、生物/化学、蒸馏攻击），模型在运行时对用户输入进行评估。当分类器检测到高风险信号时，整个请求会被透明地转发给Claude Opus 4.8处理。模型本身不会显式告知用户发生了这种切换，用户看到的仍然是一个“合规的”回复，但回复的质量和能力级别已经下降。公司称超过95%的对话完全不受影响。

其次是“蒸馏防御”：Anthropic公开提及这一机制主要为了防止竞争对手通过大量API调用提取模型能力。但在实际使用中，用户发现相当比例的常规请求（编码、资料检索甚至日常对话）被系统归类为高风险并触发降级，导致Fable 5的实际可用性远低于预期。多位用户反映“难以稳定调用Fable 5”。

同时，系统提示词还明确了Fable 5的产品生态位——这不仅是模型发布，更是Anthropic构建代理化产品矩阵的信号：

Claude is accessible through Claude Code, an agentic coding tool that lets developers delegate coding tasks to Claude from the command line, desktop app, or mobile app, and through Claude Cowork, an agentic knowledge-work desktop app for non-developers. Claude is also accessible via beta products: Claude in Chrome (a browsing agent), Claude in Excel (a spreadsheet agent), and Claude in Powerpoint (a slides agent). Claude Cowork can use all of these as tools.

当安全性成为产品差异化手段，能力分级就不再是单纯的技术决策。Fable 5系统提示词的公开，呈现出一种特别的张力：它同时承载着技术创新、安全治理与市场竞争这三重逻辑。

四、发布前后的认知反转

系统提示词的曝光恰好在Anthropic一个显著的政策转向背景下发生。公司此前曾警告AI系统可能正接近实现“自我改进”能力，呼吁全行业协调暂停开发。然而仅几天之后，Anthropic就主动发布了Fable 5。部分评论认为，这一动作可被视为商业竞争对安全呼声的一种“妥协”——安全框架的修辞与市场推进的现实之间出现了可观测的裂痕。

五、社区反应与行业影响

Fable 5系统提示词的曝光激起了多层面的讨论。

在企业信息安全层面，CSO Online撰文称，安全护栏在全行业测试中引发了比官方预期更广的拦截面。这种高误触率对企业安全团队而言既是“保护圈”，也可能成为误伤生产力的因素。

在模型透明性层面，The Verge的报道指出，新安全措施使得此前被认为过于危险的Mythos级模型能够公开发布，但安全机制的降级执行将使用户难以真正触及模型的最强能力。

从行业竞争角度看，此次事件展示了AI安全策略从“技术问题”向“市场博弈”的偏移。通过公开系统提示词，外界得以一窥商业AI产品在技术创新、安全控制和市场推广之间的内在张力。

六、总结：透明的代价

Fable 5系统提示词的曝出，展现了当前AI行业的一个重要节点：当安全既是价值观，又是成本，还是防御性市场策略时，系统提示词就不再只是一组后台指令，而成为理解产品逻辑的关键窗口。

这次系统提示词暴露，揭示了三条值得警觉的结构性张力：

安全护栏的代价边界：模型在执行安全措施时，选择了一条“不透明通道”。安全不是附加功能，而是被前置设计在行为底层的筛选器。
透明性困局：当一家以透明度为信条的公司，其最前沿模型的安全逻辑需要靠社区反向拆解才能被用户充分理解时，“透明”本身正在成为一个需要重新审视的概念。
AI信任的转向：对于企业开发者和安全团队而言，信任不再仅仅基于模型在基准测试中的跑分，而将越来越依赖于如何理解那些写在系统提示词里、但不写在公开发行说明里的“隐性规则”——以及在哪些条件下，它们会被触发、绕过或滥用。

那套系统提示词，揭示了在性能光环之外，安全AI的另一套真实成本结构。