# 同一句提示词,DeepSeek和豆包谁更适合你的任务?我们做了一个「AI裁判」
【利益相关声明】本文由杭州佑护公司创业团队撰写,我们开发了质鉴(质鉴-佑护AI提示词平台 · 跨模型中立评测引擎)——一个跨模型提示词评测平台。公司主体为杭州佑护,产品定位是中立评测,不卖模型、不卖算力。
一、你有没有遇到过这种情况?
你写了一条提示词,扔给 DeepSeek,返回的结果还行。但你又想:如果换成豆包呢?换成千问呢?会不会结果更好?
然后你:
- 打开豆包网站,复制粘贴同一句话
- 再打开千问,再粘贴一次
- 三个结果摆在面前,凭感觉判断「这个好像好一点」
这就是大多数 AI 用户的日常——知道有更好的模型,但不知道哪个更适合自己的任务。
二、问题不止「选模型」
更深层次的问题是:
- 你写的提示词本身就不好。大白话丢进去,AI 回复自然泛泛而谈。但你又不知道专业的提示词应该怎么写。
- 无法量化比较。「这个好一点」是多少?哪个维度好?下次换一个任务呢?
- 模型厂商不会告诉你。豆包的优化工具只测豆包,千问的 Playground 只测千问。这就像让运动员同时当裁判,难免有偏向。
三、质鉴做了什么
一句话:你把大白话需求丢进来,它帮你生成专业提示词,然后同时跑几个模型做对比,告诉你哪个更适合。
核心流程:
你写「帮我写护肤品小红书文案」→ AI 生成带变量的专业模板 → 你填好产品名和目标人群 → 选择 DeepSeek / 豆包 / 千问 → 并行调用 → 对比结果出炉
不是一个玩具,是一个完整的提示词工作流:
- 优化引擎:大白话变结构化模板,自动标注可替换变量(如 {{产品名}}、{{目标人群}})
- 跨模型评测:同一模板、同一组变量,同时跑最多 3 个模型
- 四维评分:任务完成度、格式规范度、模型适配度、落地实用性,每项 0-10 分
四、四维打分具体怎么判
很多读者关心「AI 评价 AI 靠不靠谱」,这里展开说一下:
评测引擎的核心是一套打分体系,不是随便给的分数。每个维度(0-10 分)都有具体锚点:
| 维度 | 说明 | 高分标准示例 |
|---|---|---|
| 任务完成度 | AI 有没有准确完成意图 | 输出完整命中任务目标,无遗漏无跑偏 |
| 格式规范度 | 输出格式是否清晰可解析 | 明确指定 JSON/Markdown,有模板和示例 |
| 模型适配度 | 写法是否符合大模型理解习惯 | 有角色设定+分步骤+分隔符+上下文 |
| 落地实用性 | 结果能不能直接用 | 输出可直接使用,无需二次编辑 |
为保证一致性:temperature ≈ 0(消除随机性),评分协议有版本号,优化和评测用双引擎独立打分互校。
当然有局限性——同一提示词两次评分可能有 0.5-1 分波动,对高度专业领域(医疗、法律)判断力有限。我们会在未来引入多模型交叉验证和人工抽检校准。
五、为什么不卖提示词?
很多人第一反应:这是一个卖提示词模板的平台吧?
不是。词库里 150+ 条提示词长期免费,覆盖 6 个行业,可以直接浏览、搜索、一键复制。免费词库是评测引擎的展品,不是商品。
质鉴的核心价值在评测引擎——帮你判断提示词好不好、哪个模型更适合你的任务。卖提示词是一次性买卖(你买完我就不赚了),帮用户持续优化提示词、持续评测效果,才是真正的价值。
六、技术栈(给开发者看的)
全栈 TypeScript,前后端分离:
- 后端:Node.js 24 + Express + SQLite(WAL 模式),零编译依赖
- 前端:React 18 + Vite + Ant Design 5,深色主题
- AI 调用:OpenAI 兼容 API 通用适配器,可接任何兼容模型
- 安全:helmet + httpOnly Cookie + SHA-256 API Key + per-key 速率限制
- 部署:阿里云 ECS + Nginx + PM2
平台提供 REST API(/v1/test、/v1/test/compare、/v1/test/batch),企业可以通过 API Key 把评测引擎嵌入自己的系统或 CI/CD 流程。
七、当前状态和定价
产品刚刚跑通 C 端闭环,目前:
- ✅ 提示词优化 + 多模型评测 + 四维评分
- ✅ 豆包已接入,⏳ 通义千问待接入(当前已接 DeepSeek V4 Pro 和 V4 Flash)
- 🔜 图片/视频评测预留(UI 可见,功能开发中)
定价:Free 免费 + Pro ¥29.9/月。
觉得值再付费,数据永久保留。
