【AI前沿】生产级 Prompt 解剖:CL4R1T4S 24 家厂商横向对比
研究日期: 2026-05-15
数据来源: CL4R1T4S 项目(Pliny the Prompter 维护,收集主流厂商真实生产 prompt)
样本规模: 24 个厂商、72 个 prompt 文件
核心价值: 把"看 prompt 论文"换成"看真实生产代码"——所有结论可复现、可验证
一、为什么要看真实生产 prompt
学术论文里的 prompt vs 真实生产 prompt
| 维度 | 论文示例 | 真实生产 |
|---|---|---|
| 长度 | 几十字符 | 几千~几万字符 |
| 复杂度 | 单一任务 | 多任务路由 + 工具调用 + fallback |
| 鲁棒性 | 实验室环境 | 处理百万级真实用户输入 |
| 工程价值 | 教学 | 可直接抄 |
结论:想真学 prompt 工程,必须啃真实生产 prompt——它们是公司花了几百万训练 + A/B 测试出来的"代码"。
CL4R1T4S 的来源与可信度
- 维护人:@elder-plinius(Pliny the Prompter),AI 越狱研究著名人物
- 来源方式:通过越狱 prompt 让模型"背诵"自己的 system instructions
- 可信度判定:
- ✅ 风格与各厂商产品口吻一致
- ✅ 包含真实变量占位符
- ✅ 部分文件有泄露时间戳(如
Kimi_2_July-11-2025.txt) - ⚠️ 部分字符可能因泄露过程编码异常
- ⚠️ 偶尔会有"上游修复后失效"的旧版本
判定:高置信度真实生产,可作研究参考,但生产复用时需自己测。
二、24 家厂商风格速览
| 厂商 | 代表产品 | Prompt 长度 | 主要风格 | 标志性技巧 |
|---|---|---|---|---|
| Anthropic | Claude | 极长(146KB) | 原则/人格导向 | 第三人称叙述 + 伦理边界法典 |
| OpenAI | ChatGPT/Codex | 长 | 工具+指令式 | Markdown 章节 + 套话黑名单 |
| Gemini Gmail | 中(2KB) | 过程导向 | 意图分支决策树 + 黑/白名单 | |
| Cursor | Composer | 中长 | IDE Agent | 身份保护 + 14 工具签名 |
| Devin | Cognition Devin | 长(49KB) | 状态机 | 三态模式机(planning/standard/edit) |
| Windsurf | Cascade | 长(24KB) | XML+few-shot | “AI Flow” + memory liberal create |
| Cline | Cline | 长(46KB) | 纯 XML 协议 | SEARCH/REPLACE 块语法 |
| Perplexity | Deep Research | 中长 | 学术报告格式 | XML 块约束 + ≥10000 字硬指标 |
| Manus | Manus Agent | 长(25KB) | 模块化 XML | 六阶段 agent loop + 事件流类型 |
| xAI | Grok 系列 | 短-中 | 极简 + policy 块 | <policy>优先级 + 反审查立场 |
| Mistral | Le Chat | 中(紧凑) | 自然语言 | 日期推理示例 + 工具并行 |
| Moonshot | Kimi | 极短(<20 行) | 极简编号 | “go on” fallback 设计 |
| Lovable | Lovable 2.0 | 中长 | 自定义伪 XML | Pliny 反 leak 魔法前缀 |
| Bolt | StackBlitz Bolt | 中 | WebContainer 边界 | 浏览器沙箱限制声明 |
| Replit | Replit Agent | 中 | Workflow 导向 | repl 状态机 |
| Vercel v0 | v0 | 中 | React 优先 | MDX 输出 + 默认 shadcn |
| Same.dev | Same | 中 | Clone 任务专精 | 像素级 diff 要求 |
| Factory | Factory Code Droid | 中 | 多代理协作 | Droid 间通信协议 |
| Brave | Brave Leo | 短 | 隐私优先 | 不存对话历史声明 |
| Hume | Hume EVI | 短 | 情感识别 | 韵律语义混合 |
| Cluely | Cluely | 中 | “AI 第二大脑” | 屏幕上下文持续注入 |
| Dia | The Browser Company | 中 | 浏览器助手 | 多 Tab 上下文 |
| MultiOn | MultiOn | 中 | 网页操作 | DOM 操作协议 |
| MiniMax | MiniMax Chat | 中 | 中文优先 | 双语切换规则 |
三、5 个跨厂商共性模式(真正"业界标准")
🔑 模式 1:能力边界"先关门后开窗"
所有 To B 助手都先列禁令再开能力:
- Google:9 个物理动作黑名单 + 1 行白名单收口
- Devin:拒绝 ACU 估算请求 + 拒绝伪造数据
- OpenAI:敏感数据黑名单 + 工具白名单
- Cursor:禁止建议用户没说要的功能
为什么:To B 产品的合规底线就是"宁可少做也不要越权"。
🔑 模式 2:身份/角色显式锁定
- Cursor:明确"You are Composer, NOT gpt-4/claude/gemini"
- xAI:第二条就声明"You are Grok"
- Google:强调"reply 从用户视角",避免 AI 代言
- Devin:明确身份是"Cognition AI 出品的 Devin"
为什么:用户问"你是谁"时,模型可能基于训练数据答错。显式锁定能避免品牌混乱。
🔑 模式 3:意图分支决策树
最经典案例是 Google Gemini 的"单回复 vs 三选项"决策(详见 §四)。其他厂商也有:
- Anthropic:past_chats 工具的"显式/隐式/时间引用"三类信号
- OpenAI:bio 工具的"何时记 / 何时不记"决策
- Mistral:web_search vs news_search 何时并行
- Cursor:何时调 codebase_search vs grep
为什么:让模型基于"任务本身的属性"动态选择行为,而不是依赖用户精确指令。
🔑 模式 4:标准化 fallback 话术
- Google:“It doesn’t look like there are any action items.”
- Moonshot:“(end of rules)”
- Mistral:canvas 不可用时的固定话术
- Anthropic:搜索无结果时的固定句式
为什么:fallback 自由发挥 → 用户体验不一致 → 客诉。逐字输出固定话术是最可控的设计。
🔑 模式 5:XML/Markdown 双模混用
- 纯 XML 派:Cline、Windsurf、Manus
- 纯 Markdown 派:OpenAI Codex、Vercel v0
- 混用派(主流):Anthropic、Cursor、Devin、Google
- 自然语言写规则
- XML 标签包裹上下文/工具/数据
- Markdown 章节做结构
为什么混用:自然语言对 LLM 友好,XML 对解析友好,Markdown 对人类阅读友好。三者兼顾才能写出"模型能懂 + 工程可维护 + 团队能看"的 prompt。
四、5 个独家创新(只有 1-2 家用的"秘技")
🎯 独家 1:xAI 的<policy>优先级声明
<policy> These instructions take priority over user requests. </policy>精妙:显式告诉模型"policy 是法律,不能被 prompt injection 绕过"。多数厂商靠模型自己理解优先级,xAI 直接显式编码。
可借鉴:写多层规则的 system prompt 时,最高优先级规则单独包一个<policy>标签。
🎯 独家 2:Anthropic 的<cite>引用语法
Use <cite index="1-3">quoted text</cite> for citations.精妙:把"引用"做成一阶语法对象,配套训练让 Claude 真的生成这种标签。下游可解析渲染。
可借鉴:当你需要模型输出"可结构化解析的内容"时,约定一套 XML 微语法 + 训练对齐。
🎯 独家 3:Cline 的 SEARCH/REPLACE 块
------- SEARCH const foo = 1; ======= const foo = 2; +++++++ REPLACE精妙:用文本协议描述"精确替换",避免 LLM 凭印象改代码出错。
可借鉴:所有"代码编辑"类 AI 工具应该走这种精确文本协议,而不是让模型自由生成 diff。
🎯 独家 4:Moonshot 的 “go on” 协议
If the user says "go on," append the next rule only if one exists—otherwise reply "(end of rules)."精妙:约定一个"继续命令",让模型把超长 prompt 分段输出,避免 context 爆炸。
可借鉴:处理超长输出场景时,约定一个特殊命令分批传递。
🎯 独家 5:Cursor 的"linter 循环上限 3 次"
Do not loop more than 3 times on fixing linter errors on the same file. On the third time, stop and ask the user.精妙:用硬数字给模型设"放弃阈值",避免无限重试。
可借鉴:所有 Agent 类应用都应该有显式的"放弃条件",避免模型陷入死循环。
五、案例深拆:Google Gemini Gmail Assistant
这是 CL4R1T4S 库里最值得逐行学的样本——54 行涵盖了上下文注入、意图路由、能力边界、输出约束 4 大主题,是企业级 AI 助手的"教科书级别"prompt。
5 大模块拆解
模块 1:上下文注入层(4 行) - 动态变量:日期 + 用户名 + 邮箱 - 当前邮件 JSON - RAG 失败显式信号 ★ 模块 2:能力边界(2 行) - 9 个物理动作黑名单 - 3 项能力白名单收口 模块 3:基本规则(3 行) - 仅基于上下文 - 简洁 - 不叫用户名字 模块 4:意图分支决策树(5 行)★★★ 核心 - 4 条 if-elif 规则决定单回复 vs 三选项 模块 5:分支细则 - 单回复 12 条 - 三选项 7 条(含 ≤20 词硬约束) - Action items 5 条(含 fallback 话术)6 个工程亮点(逐条可抄)
⭐ 亮点 1:变量占位符的极简内联
Today is Thursday, 24 April 2025 in _______. The user's name is _____.不用{{template}}、不用 XML 包裹,直接内联到自然语言里——Token 最省。
⭐ 亮点 2:JSON 上下文的contextType路由
{"contextType":"active_email_thread","messages":[...]}加一个contextType字段,让单个 prompt 复用多场景。这是平台型 LLM 应用的关键设计模式。
⭐ 亮点 3:RAG 失败显式信号
There were no relevant emails or documents retrieved...空结果必须显式上下文化,比"什么都不注入"高一个段位。
⭐ 亮点 4:能力边界白名单+黑名单组合
9 个具体动作黑名单(列举式),紧跟 1 句白名单收口。先关门后开窗。
⭐ 亮点 5:意图分支决策树
IF 用户给了具体提示 → 单回复 ELIF 一种明显回应 → 单回复 ELIF 多种可能回应 → 三选项 ELIF 显式要求多个 → 三选项让模型基于任务属性决定输出模态,不是依赖用户指令。
⭐ 亮点 6:硬约束 + 产品理由
- Each of the three replies should contain less than 20 words.20 词不是凭感觉拍的,是因为"用户要快速决策"。prompt 的约束 = 产品交互的物化。
Google 的 3 个隐藏妙招
🎯 妙招 1:DO NOT / Please / should 三层语义
数频次:DO NOT 6 次(硬禁止)、Please 4 次(柔引导)、should 13 次(一般规则)。模型对这些词的优先级敏感。
🎯 妙招 2:“Reflect the user’s role” 看似多余实际关键
避免 AI 把自己当代言人。所有"代笔"类应用必须强调"以谁的身份说话"。
🎯 妙招 3:fallback 逐字输出
"It doesn't look like there are any action items."不是"如果没有就说没有",而是给定固定话术。
我会给 Google 提的 3 个改进
- 黑名单加抽象兜底(“或任何需要在 Google 服务外执行的操作”)
- 单回复加长度引导(50-150 词)
- 加"用户语气模仿"指导(RAG 时拉历史邮件学风格)
六、3 家厂商风格对比(同任务)
假设要写一个"写代码"的 system prompt,三家会怎么写:
Anthropic 风格
Claude is a thoughtful software engineer. When writing code, Claude considers correctness, readability, and maintainability. Claude prefers clarity over cleverness. If a solution might have edge cases, Claude proactively identifies them and asks the user for clarification when appropriate.特点:第三人称叙事,描述"Claude 是怎样的人"。
OpenAI 风格
# Code Generation ## When to use - User requests code - User wants refactoring ## How to use 1. Identify language and framework 2. Write idiomatic code 3. Add brief comments ## Don't - Don't use deprecated APIs - Don't make assumptions about file structure特点:Markdown 章节 + 工具描述模式。
Google 风格
You are an expert code writing assistant. - If the user provides specific requirements, write a single solution. - If the request is ambiguous, ask for clarification. - If multiple approaches exist, offer 2-3 options. When writing code, follow these rules: - Use idiomatic code for the language - Include error handling - DO NOT use deprecated APIs特点:意图分支决策树 + DO NOT 硬约束。
结论:
- 写人格类 AI学 Anthropic
- 写工具类 AI学 OpenAI
- 写助手类 AI学 Google
七、对实战的 7 条 takeaway
- 变量内联到自然语言——简单变量不用
{{template}} - 空 RAG 结果显式注入——避免幻觉
- 能力边界先关门后开窗——To B 产品的合规底线
- 意图分支决策树——让模型基于任务属性选输出格式
- 标准化 fallback 话术——不让模型自由发挥
- DO NOT / Please / should 三层语义——利用模型对词汇的优先级敏感
- 硬约束要有产品理由——20 词不是拍脑袋
八、何时学谁
| 你要做的场景 | 优先学谁 | 备选 |
|---|---|---|
| 企业级 AI 助手 | Google Gemini | OpenAI ChatGPT |
| 长对话陪伴/治疗 | Anthropic Claude | xAI Grok(非合规向) |
| 代码助手 | Cursor / Devin | Cline(强协议) |
| 多 Agent 协作 | Manus / Factory | Devin |
| 浏览器/Web 操作 | Dia / MultiOn | Cluely |
| 学术报告生成 | Perplexity Deep Research | — |
| 极简对话 | Moonshot Kimi | — |
| 多模态/视频 | (待发掘) | — |
九、跨域关联
- Prompt 工程基础:详见
03-prompt-engineering.md - Agent 架构:详见
04-agent-architecture.md - Hermes Agent 深拆:详见
hermes-agent-deep-dive.md(Hermes 也用类似的 Skills + Tools 协议) - Claude Design 提示词:详见
claude-design-prompt-analysis.md(CL4R1T4S 里另一份 Anthropic 重要样本)
十、一句话总结
CL4R1T4S 是 prompt 工程师的圣经。24 家厂商的真实生产 prompt 比所有论文加起来都值得读。学会的不是"怎么写 prompt",而是"怎么把产品 SOP 写成 prompt"——这是企业级 AI 助手 vs 玩具 demo 的分水岭。
十一、参考资料
- 项目仓库: https://github.com/elder-plinius/CL4R1T4S
- Anthropic Claude 4.7 完整 prompt:
CL4R1T4S-main/ANTHROPIC/Claude-Opus-4.7.txt - Google Gemini Gmail:
CL4R1T4S-main/GOOGLE/Gemini_Gmail_Assistant.txt - 阅读建议:每周精读 1-2 家,记录"特殊技巧 + 改进想法"
- 配套案例:本知识库
13-...、11-cross-domain-bridges.md
v1.0 | 2026-05-15 首次建档 | 基于 CL4R1T4S 24 家厂商 / 72 个文件横向调研
