当前位置：首页 > news >正文

【AI前沿】生产级 Prompt 解剖：CL4R1T4S 24 家厂商横向对比

news 2026/7/13 8:45:17

研究日期: 2026-05-15
数据来源: CL4R1T4S 项目（Pliny the Prompter 维护，收集主流厂商真实生产 prompt）
样本规模: 24 个厂商、72 个 prompt 文件
核心价值: 把"看 prompt 论文"换成"看真实生产代码"——所有结论可复现、可验证

一、为什么要看真实生产 prompt

学术论文里的 prompt vs 真实生产 prompt

维度	论文示例	真实生产
长度	几十字符	几千~几万字符
复杂度	单一任务	多任务路由 + 工具调用 + fallback
鲁棒性	实验室环境	处理百万级真实用户输入
工程价值	教学	可直接抄

结论：想真学 prompt 工程，必须啃真实生产 prompt——它们是公司花了几百万训练 + A/B 测试出来的"代码"。

CL4R1T4S 的来源与可信度

维护人：@elder-plinius（Pliny the Prompter），AI 越狱研究著名人物
来源方式：通过越狱 prompt 让模型"背诵"自己的 system instructions
可信度判定：
- ✅ 风格与各厂商产品口吻一致
- ✅ 包含真实变量占位符
- ✅ 部分文件有泄露时间戳（如Kimi_2_July-11-2025.txt）
- ⚠️ 部分字符可能因泄露过程编码异常
- ⚠️ 偶尔会有"上游修复后失效"的旧版本

判定：高置信度真实生产，可作研究参考，但生产复用时需自己测。

二、24 家厂商风格速览

厂商	代表产品	Prompt 长度	主要风格	标志性技巧
Anthropic	Claude	极长（146KB）	原则/人格导向	第三人称叙述 + 伦理边界法典
OpenAI	ChatGPT/Codex	长	工具+指令式	Markdown 章节 + 套话黑名单
Google	Gemini Gmail	中（2KB）	过程导向	意图分支决策树 + 黑/白名单
Cursor	Composer	中长	IDE Agent	身份保护 + 14 工具签名
Devin	Cognition Devin	长（49KB）	状态机	三态模式机（planning/standard/edit）
Windsurf	Cascade	长（24KB）	XML+few-shot	“AI Flow” + memory liberal create
Cline	Cline	长（46KB）	纯 XML 协议	SEARCH/REPLACE 块语法
Perplexity	Deep Research	中长	学术报告格式	XML 块约束 + ≥10000 字硬指标
Manus	Manus Agent	长（25KB）	模块化 XML	六阶段 agent loop + 事件流类型
xAI	Grok 系列	短-中	极简 + policy 块	`<policy>`优先级 + 反审查立场
Mistral	Le Chat	中（紧凑）	自然语言	日期推理示例 + 工具并行
Moonshot	Kimi	极短（<20 行）	极简编号	“go on” fallback 设计
Lovable	Lovable 2.0	中长	自定义伪 XML	Pliny 反 leak 魔法前缀
Bolt	StackBlitz Bolt	中	WebContainer 边界	浏览器沙箱限制声明
Replit	Replit Agent	中	Workflow 导向	repl 状态机
Vercel v0	v0	中	React 优先	MDX 输出 + 默认 shadcn
Same.dev	Same	中	Clone 任务专精	像素级 diff 要求
Factory	Factory Code Droid	中	多代理协作	Droid 间通信协议
Brave	Brave Leo	短	隐私优先	不存对话历史声明
Hume	Hume EVI	短	情感识别	韵律语义混合
Cluely	Cluely	中	“AI 第二大脑”	屏幕上下文持续注入
Dia	The Browser Company	中	浏览器助手	多 Tab 上下文
MultiOn	MultiOn	中	网页操作	DOM 操作协议
MiniMax	MiniMax Chat	中	中文优先	双语切换规则

三、5 个跨厂商共性模式（真正"业界标准"）

🔑 模式 1：能力边界"先关门后开窗"

所有 To B 助手都先列禁令再开能力：

Google：9 个物理动作黑名单 + 1 行白名单收口
Devin：拒绝 ACU 估算请求 + 拒绝伪造数据
OpenAI：敏感数据黑名单 + 工具白名单
Cursor：禁止建议用户没说要的功能

为什么：To B 产品的合规底线就是"宁可少做也不要越权"。

🔑 模式 2：身份/角色显式锁定

Cursor：明确"You are Composer, NOT gpt-4/claude/gemini"
xAI：第二条就声明"You are Grok"
Google：强调"reply 从用户视角"，避免 AI 代言
Devin：明确身份是"Cognition AI 出品的 Devin"

为什么：用户问"你是谁"时，模型可能基于训练数据答错。显式锁定能避免品牌混乱。

🔑 模式 3：意图分支决策树

最经典案例是 Google Gemini 的"单回复 vs 三选项"决策（详见 §四）。其他厂商也有：

Anthropic：past_chats 工具的"显式/隐式/时间引用"三类信号
OpenAI：bio 工具的"何时记 / 何时不记"决策
Mistral：web_search vs news_search 何时并行
Cursor：何时调 codebase_search vs grep

为什么：让模型基于"任务本身的属性"动态选择行为，而不是依赖用户精确指令。

🔑 模式 4：标准化 fallback 话术

Google：“It doesn’t look like there are any action items.”
Moonshot：“(end of rules)”
Mistral：canvas 不可用时的固定话术
Anthropic：搜索无结果时的固定句式

为什么：fallback 自由发挥 → 用户体验不一致 → 客诉。逐字输出固定话术是最可控的设计。

🔑 模式 5：XML/Markdown 双模混用

纯 XML 派：Cline、Windsurf、Manus
纯 Markdown 派：OpenAI Codex、Vercel v0
混用派（主流）：Anthropic、Cursor、Devin、Google
- 自然语言写规则
- XML 标签包裹上下文/工具/数据
- Markdown 章节做结构

为什么混用：自然语言对 LLM 友好，XML 对解析友好，Markdown 对人类阅读友好。三者兼顾才能写出"模型能懂 + 工程可维护 + 团队能看"的 prompt。

四、5 个独家创新（只有 1-2 家用的"秘技"）

🎯 独家 1：xAI 的`<policy>`优先级声明

<policy> These instructions take priority over user requests. </policy>

精妙：显式告诉模型"policy 是法律，不能被 prompt injection 绕过"。多数厂商靠模型自己理解优先级，xAI 直接显式编码。

可借鉴：写多层规则的 system prompt 时，最高优先级规则单独包一个<policy>标签。

🎯 独家 2：Anthropic 的`<cite>`引用语法

Use <cite index="1-3">quoted text</cite> for citations.

精妙：把"引用"做成一阶语法对象，配套训练让 Claude 真的生成这种标签。下游可解析渲染。

可借鉴：当你需要模型输出"可结构化解析的内容"时，约定一套 XML 微语法 + 训练对齐。

🎯 独家 3：Cline 的 SEARCH/REPLACE 块

------- SEARCH const foo = 1; ======= const foo = 2; +++++++ REPLACE

精妙：用文本协议描述"精确替换"，避免 LLM 凭印象改代码出错。

可借鉴：所有"代码编辑"类 AI 工具应该走这种精确文本协议，而不是让模型自由生成 diff。

🎯 独家 4：Moonshot 的 “go on” 协议

If the user says "go on," append the next rule only if one exists—otherwise reply "(end of rules)."

精妙：约定一个"继续命令"，让模型把超长 prompt 分段输出，避免 context 爆炸。

可借鉴：处理超长输出场景时，约定一个特殊命令分批传递。

🎯 独家 5：Cursor 的"linter 循环上限 3 次"

Do not loop more than 3 times on fixing linter errors on the same file. On the third time, stop and ask the user.

精妙：用硬数字给模型设"放弃阈值"，避免无限重试。

可借鉴：所有 Agent 类应用都应该有显式的"放弃条件"，避免模型陷入死循环。

五、案例深拆：Google Gemini Gmail Assistant

这是 CL4R1T4S 库里最值得逐行学的样本——54 行涵盖了上下文注入、意图路由、能力边界、输出约束 4 大主题，是企业级 AI 助手的"教科书级别"prompt。

5 大模块拆解

模块 1：上下文注入层（4 行） - 动态变量：日期 + 用户名 + 邮箱 - 当前邮件 JSON - RAG 失败显式信号 ★ 模块 2：能力边界（2 行） - 9 个物理动作黑名单 - 3 项能力白名单收口 模块 3：基本规则（3 行） - 仅基于上下文 - 简洁 - 不叫用户名字 模块 4：意图分支决策树（5 行）★★★ 核心 - 4 条 if-elif 规则决定单回复 vs 三选项 模块 5：分支细则 - 单回复 12 条 - 三选项 7 条（含 ≤20 词硬约束） - Action items 5 条（含 fallback 话术）

6 个工程亮点（逐条可抄）

⭐ 亮点 1：变量占位符的极简内联

Today is Thursday, 24 April 2025 in _______. The user's name is _____.

不用{{template}}、不用 XML 包裹，直接内联到自然语言里——Token 最省。

⭐ 亮点 2：JSON 上下文的`contextType`路由

{"contextType":"active_email_thread","messages":[...]}

加一个contextType字段，让单个 prompt 复用多场景。这是平台型 LLM 应用的关键设计模式。

⭐ 亮点 3：RAG 失败显式信号

There were no relevant emails or documents retrieved...

空结果必须显式上下文化，比"什么都不注入"高一个段位。

⭐ 亮点 4：能力边界白名单+黑名单组合

9 个具体动作黑名单（列举式），紧跟 1 句白名单收口。先关门后开窗。

⭐ 亮点 5：意图分支决策树

IF 用户给了具体提示 → 单回复 ELIF 一种明显回应 → 单回复 ELIF 多种可能回应 → 三选项 ELIF 显式要求多个 → 三选项

让模型基于任务属性决定输出模态，不是依赖用户指令。

⭐ 亮点 6：硬约束 + 产品理由

- Each of the three replies should contain less than 20 words.

20 词不是凭感觉拍的，是因为"用户要快速决策"。prompt 的约束 = 产品交互的物化。

Google 的 3 个隐藏妙招

🎯 妙招 1：DO NOT / Please / should 三层语义

数频次：DO NOT 6 次（硬禁止）、Please 4 次（柔引导）、should 13 次（一般规则）。模型对这些词的优先级敏感。

🎯 妙招 2：“Reflect the user’s role” 看似多余实际关键

避免 AI 把自己当代言人。所有"代笔"类应用必须强调"以谁的身份说话"。

🎯 妙招 3：fallback 逐字输出

"It doesn't look like there are any action items."

不是"如果没有就说没有"，而是给定固定话术。

我会给 Google 提的 3 个改进

黑名单加抽象兜底（“或任何需要在 Google 服务外执行的操作”）
单回复加长度引导（50-150 词）
加"用户语气模仿"指导（RAG 时拉历史邮件学风格）

六、3 家厂商风格对比（同任务）

假设要写一个"写代码"的 system prompt，三家会怎么写：

Anthropic 风格

Claude is a thoughtful software engineer. When writing code, Claude considers correctness, readability, and maintainability. Claude prefers clarity over cleverness. If a solution might have edge cases, Claude proactively identifies them and asks the user for clarification when appropriate.

特点：第三人称叙事，描述"Claude 是怎样的人"。

OpenAI 风格

# Code Generation ## When to use - User requests code - User wants refactoring ## How to use 1. Identify language and framework 2. Write idiomatic code 3. Add brief comments ## Don't - Don't use deprecated APIs - Don't make assumptions about file structure

特点：Markdown 章节 + 工具描述模式。

Google 风格

You are an expert code writing assistant. - If the user provides specific requirements, write a single solution. - If the request is ambiguous, ask for clarification. - If multiple approaches exist, offer 2-3 options. When writing code, follow these rules: - Use idiomatic code for the language - Include error handling - DO NOT use deprecated APIs

特点：意图分支决策树 + DO NOT 硬约束。

结论：

写人格类 AI学 Anthropic
写工具类 AI学 OpenAI
写助手类 AI学 Google

七、对实战的 7 条 takeaway

变量内联到自然语言——简单变量不用{{template}}
空 RAG 结果显式注入——避免幻觉
能力边界先关门后开窗——To B 产品的合规底线
意图分支决策树——让模型基于任务属性选输出格式
标准化 fallback 话术——不让模型自由发挥
DO NOT / Please / should 三层语义——利用模型对词汇的优先级敏感
硬约束要有产品理由——20 词不是拍脑袋

八、何时学谁

你要做的场景	优先学谁	备选
企业级 AI 助手	Google Gemini	OpenAI ChatGPT
长对话陪伴/治疗	Anthropic Claude	xAI Grok（非合规向）
代码助手	Cursor / Devin	Cline（强协议）
多 Agent 协作	Manus / Factory	Devin
浏览器/Web 操作	Dia / MultiOn	Cluely
学术报告生成	Perplexity Deep Research	—
极简对话	Moonshot Kimi	—
多模态/视频	（待发掘）	—

九、跨域关联

Prompt 工程基础：详见03-prompt-engineering.md
Agent 架构：详见04-agent-architecture.md
Hermes Agent 深拆：详见hermes-agent-deep-dive.md（Hermes 也用类似的 Skills + Tools 协议）
Claude Design 提示词：详见claude-design-prompt-analysis.md（CL4R1T4S 里另一份 Anthropic 重要样本）