产品公司的AI时机判断#Notion 重建了 5 次,才做出可用的Custom Agents
2022 年底,GPT-4 刚发布,Notion 就开始尝试做智能体(Agent)了。
他们第一次的想法很直接:给 AI 访问 Notion 所有工具的能力,让它在后台为你工作。
那次失败了。第二次失败了。第三次,第四次,一直到 2025 年 9 月,才正式发布 Custom Agents。
中间经历了 4-5 次彻底重建。
Notion 联派创始人兼 AI 负责人 Simon Last 在 Latent Space 播客,第一次完整讲出了这段历史。主持人 swyx 说,他为这次访谈等了将近 3 年。
受OpenClaw等主动式Agent的启发:Notion AI 如何重新定义一人公司的效率
为什么每次都失败
这意味着什么?工具领先了模型能力,而模型能力才是真正的解锁点。
五次重建,失败原因各不相同:
- 第 1 次(2022 末)
:函数调用(function calling)概念还没有,团队自己设计工具调用框架,模型太弱,根本跑不起来
- 第 2 次(2023 初)
:尝试微调模型,但上下文窗口只有 4K-8K,无法支撑多轮交互
- 第 3 次(2023-24)
:建了自定义 XML 格式的智能体框架(agent harness),暴露给模型的复杂度太高
- 第 4 次(2024 中)
:迁移到类 Markdown/SQL 抽象层,工具定义频繁变化,不稳定
- 第 5 次(2025 初)
:Claude 3.6/3.7 时代,模型能力终于支撑了可靠的产品体验——这次成了
Simon 在播客里用了一句话:
撞了三年,撞到模型本身终于就位。
Agent Lab Thesis:产品公司该怎么赌时机
这不是说"动手越早越好",也不是说"等到成熟再做"。
Simon 提出了他称之为Agent Lab Thesis的产品策略:
这是一个时机判断问题。Notion 在 2022 年就开始做,是为了积累对用户协作模式的理解——这些理解在模型就位后,才能快速转化为产品。但他们也足够理性:在模型能力不够的时候发布,会伤害产品信任。
他们维护了三类并行项目:
- 已发布项目
:保持高质量运营
- 实验性项目
:探索 18 个月后"显而易见"的方向
- 疯狂的项目
:即使方向不明,也持续投入
这是一种组合拳。不是 all-in 一条线,而是三条线同时跑,不同时间窗口收获不同回报。
Token Town:Notion 的 AI 团队结构
Notion 内部负责 AI 的团队叫Token Town,有两类核心角色:
AI Engineers:构建智能体能力
Model Behavior Engineers(MBE,模型行为工程师):专门理解模型行为、编写评估体系(eval)、分析失败模式——这个角色是 Notion 特有的,融合了数据科学家、产品经理和提示工程师三种技能。
MBE 的存在,说明了一件事:AI 产品的质量护栏,不会自动建立。你需要有人专门做这件事。
Notion 团队做的一个案例可以说明 MBE 的价值:他们雇了第三方来检测模型供应商的"秘密量化降质"——在跨供应商的评估(eval)中发现某家正在悄悄降低模型质量。如果没有专门的人负责这件事,这种偏差会默默积累,直到用户开始抱怨。
三层评估体系
Notion 的评估(eval)体系分三层,每层目标完全不同:
- 回归测试
:进入持续集成(CI),防止功能退化,通过率要求接近 100%
- 发布质量评估
:产品发布标准,各维度达标率 80-90%
- 前沿评估
:故意设定在 30% 通过率——目的是追踪模型能力边界,为合作伙伴提供有价值的反馈
第三层 30% 的设计是反常识的。Simon 解释:
评估不是越高越好。评估是为了发现有用的信息,不是为了刷高分。一个故意难以通过的测试,比一个所有人都能过的测试,信息量要高得多。
Notion 还在把评估系统本身智能体化:评估智能体可以端到端地下载数据集、运行评估、迭代失败、自动调试、实现修复。软件工程师的角色因此也在变——从手动检查代码,到构建能写评估的智能体和大模型裁判(LLM judge)。
MCP vs CLI:Notion 的集成哲学
Simon 对两种集成方式有清晰的判断:
- MCP(Model Context Protocol,模型上下文协议)
:适合窄、轻量级的智能体。权限模型强,社区生态好,Simon 原话:"MCP is just the dumb simple thing that works."
- CLI(命令行接口)
:Simon 仍然非常看好,特别是需要完整计算运行时的场景
- 深度集成
:如 Notion Mail,选择与工程团队直接合作自建 API,为了极低延迟和专属的产品质量控制
没有万能方案。关键是清楚自己的场景是什么,再选工具。
为什么 AI 编程工具都在"复古"做 CLI?这是下一个十年最稀缺的东西#CLI新交互范式
误判校正
一个常见的认知偏差:"做 AI 产品就是赶早不赶晚。"
Notion 的五次重建提供了一个反例:在模型能力不足时强行发布,不是领先,是消耗产品信任。更重要的判断是:你的实验是否在真正积累理解,还是只是在等待模型成熟?
如果是前者,坚持跑。如果是后者,先停下来搞清楚用户真正需要什么。
对独立开发者和小团队的启发
Notion 的故事里有几件事,在任何规模上都成立:
- 时机判断优先于速度
:在模型能力不足时强行发布,会伤害产品信任。宁可等,不要拿不够好的版本教育用户。
- 评估体系是质量护栏
:哪怕是个人项目,也值得设计一个最简单的评估——知道你的智能体在哪里出错,是改进的前提。
- 删掉自己代码的文化
:Notion 能多次重建,离不开团队"低自我(low-ego)"的文化。对自己的框架执念越深,越容易错过时机。
如果你也在做 AI 产品、智能体工作流,或者想搞清楚怎么评估一个 AI 系统的质量,来 MixLab 无界社区和我们同行。这里聚集着最先触达未来的那一小部份人,正在持续共建下一代工作方式。
为什么必须构建自己的 AgentOS #系统性知识:AgentOS录播2026版#原创
参考
[1] Notion's Token Town: 5 Rebuilds, 100+ Tools, MCP vs CLIs and the Software Factory Future — Latent Space 播客 #139
[2] Introducing Custom Agents — Notion 官方博客
[3] September 18, 2025 – Notion 3.0: Agents — Notion 官方发布说明
[4] @swyx Twitter thread — 2026-04-15
