当前位置: 首页 > news >正文

产品公司的AI时机判断#Notion 重建了 5 次,才做出可用的Custom Agents

2022 年底,GPT-4 刚发布,Notion 就开始尝试做智能体(Agent)了。

他们第一次的想法很直接:给 AI 访问 Notion 所有工具的能力,让它在后台为你工作。

那次失败了。第二次失败了。第三次,第四次,一直到 2025 年 9 月,才正式发布 Custom Agents。

中间经历了 4-5 次彻底重建。

Notion 联派创始人兼 AI 负责人 Simon Last 在 Latent Space 播客,第一次完整讲出了这段历史。主持人 swyx 说,他为这次访谈等了将近 3 年。

受OpenClaw等主动式Agent的启发:Notion AI 如何重新定义一人公司的效率


为什么每次都失败

这意味着什么?工具领先了模型能力,而模型能力才是真正的解锁点。

五次重建,失败原因各不相同:

  • 第 1 次(2022 末)

    :函数调用(function calling)概念还没有,团队自己设计工具调用框架,模型太弱,根本跑不起来

  • 第 2 次(2023 初)

    :尝试微调模型,但上下文窗口只有 4K-8K,无法支撑多轮交互

  • 第 3 次(2023-24)

    :建了自定义 XML 格式的智能体框架(agent harness),暴露给模型的复杂度太高

  • 第 4 次(2024 中)

    :迁移到类 Markdown/SQL 抽象层,工具定义频繁变化,不稳定

  • 第 5 次(2025 初)

    :Claude 3.6/3.7 时代,模型能力终于支撑了可靠的产品体验——这次成了

Simon 在播客里用了一句话:

撞了三年,撞到模型本身终于就位。


Agent Lab Thesis:产品公司该怎么赌时机

这不是说"动手越早越好",也不是说"等到成熟再做"。

Simon 提出了他称之为Agent Lab Thesis的产品策略:

这是一个时机判断问题。Notion 在 2022 年就开始做,是为了积累对用户协作模式的理解——这些理解在模型就位后,才能快速转化为产品。但他们也足够理性:在模型能力不够的时候发布,会伤害产品信任。

他们维护了三类并行项目:

  • 已发布项目

    :保持高质量运营

  • 实验性项目

    :探索 18 个月后"显而易见"的方向

  • 疯狂的项目

    :即使方向不明,也持续投入

这是一种组合拳。不是 all-in 一条线,而是三条线同时跑,不同时间窗口收获不同回报。


Token Town:Notion 的 AI 团队结构

Notion 内部负责 AI 的团队叫Token Town,有两类核心角色:

AI Engineers:构建智能体能力

Model Behavior Engineers(MBE,模型行为工程师):专门理解模型行为、编写评估体系(eval)、分析失败模式——这个角色是 Notion 特有的,融合了数据科学家、产品经理和提示工程师三种技能。

MBE 的存在,说明了一件事:AI 产品的质量护栏,不会自动建立。你需要有人专门做这件事。

Notion 团队做的一个案例可以说明 MBE 的价值:他们雇了第三方来检测模型供应商的"秘密量化降质"——在跨供应商的评估(eval)中发现某家正在悄悄降低模型质量。如果没有专门的人负责这件事,这种偏差会默默积累,直到用户开始抱怨。


三层评估体系

Notion 的评估(eval)体系分三层,每层目标完全不同:

  • 回归测试

    :进入持续集成(CI),防止功能退化,通过率要求接近 100%

  • 发布质量评估

    :产品发布标准,各维度达标率 80-90%

  • 前沿评估

    :故意设定在 30% 通过率——目的是追踪模型能力边界,为合作伙伴提供有价值的反馈

第三层 30% 的设计是反常识的。Simon 解释:

评估不是越高越好。评估是为了发现有用的信息,不是为了刷高分。一个故意难以通过的测试,比一个所有人都能过的测试,信息量要高得多。

Notion 还在把评估系统本身智能体化:评估智能体可以端到端地下载数据集、运行评估、迭代失败、自动调试、实现修复。软件工程师的角色因此也在变——从手动检查代码,到构建能写评估的智能体和大模型裁判(LLM judge)。


MCP vs CLI:Notion 的集成哲学

Simon 对两种集成方式有清晰的判断:

  • MCP(Model Context Protocol,模型上下文协议)

    :适合窄、轻量级的智能体。权限模型强,社区生态好,Simon 原话:"MCP is just the dumb simple thing that works."

  • CLI(命令行接口)

    :Simon 仍然非常看好,特别是需要完整计算运行时的场景

  • 深度集成

    :如 Notion Mail,选择与工程团队直接合作自建 API,为了极低延迟和专属的产品质量控制

没有万能方案。关键是清楚自己的场景是什么,再选工具。

为什么 AI 编程工具都在"复古"做 CLI?这是下一个十年最稀缺的东西#CLI新交互范式


误判校正

一个常见的认知偏差:"做 AI 产品就是赶早不赶晚。"

Notion 的五次重建提供了一个反例:在模型能力不足时强行发布,不是领先,是消耗产品信任。更重要的判断是:你的实验是否在真正积累理解,还是只是在等待模型成熟?

如果是前者,坚持跑。如果是后者,先停下来搞清楚用户真正需要什么。


对独立开发者和小团队的启发

Notion 的故事里有几件事,在任何规模上都成立:

  • 时机判断优先于速度

    :在模型能力不足时强行发布,会伤害产品信任。宁可等,不要拿不够好的版本教育用户。

  • 评估体系是质量护栏

    :哪怕是个人项目,也值得设计一个最简单的评估——知道你的智能体在哪里出错,是改进的前提。

  • 删掉自己代码的文化

    :Notion 能多次重建,离不开团队"低自我(low-ego)"的文化。对自己的框架执念越深,越容易错过时机。


如果你也在做 AI 产品、智能体工作流,或者想搞清楚怎么评估一个 AI 系统的质量,来 MixLab 无界社区和我们同行。这里聚集着最先触达未来的那一小部份人,正在持续共建下一代工作方式。

为什么必须构建自己的 AgentOS #系统性知识:AgentOS录播2026版#原创


参考

[1] Notion's Token Town: 5 Rebuilds, 100+ Tools, MCP vs CLIs and the Software Factory Future — Latent Space 播客 #139

[2] Introducing Custom Agents — Notion 官方博客

[3] September 18, 2025 – Notion 3.0: Agents — Notion 官方发布说明

[4] @swyx Twitter thread — 2026-04-15

http://www.jsqmd.com/news/677959/

相关文章:

  • 风冷式冷水机/低温螺杆冷水机哪个牌子好用又耐用?从性能、价格到售后的全面解析 - 品牌推荐大师1
  • 3个步骤:如何在Windows上轻松安装安卓应用?
  • PHP SAAS 框架常见问题——安装应用时提示 “未找到 admin 源码所在目录”
  • 番茄小说下载器:打造你的离线数字阅读图书馆
  • 别再傻傻分不清了!华为交换机上三种ARP代理的实战配置与场景选择指南
  • 想提升学历不知哪家正规?2026十所高通过率成人高考报名学校口碑盘点 - 商业科技观察
  • Windows Cleaner终极指南:如何彻底解决C盘爆红问题并提升系统性能
  • 《2026成都书型盒生产厂家选型指南 技术维度全拆解》 - 优质品牌商家
  • Agent 上下文窗口的有限与突破
  • RocketMQ 5.0保姆级安装指南:从零搭建到Dashboard可视化监控(含Docker版)
  • Gerbv:你的开源PCB设计验证助手,让Gerber文件查看变得简单高效
  • RWKV7-1.5B-world部署指南:Triton 3.2.0 CUDA内核编译失败的5种典型原因与修复
  • SAP SALV
  • 性能碾压Po-t-u-t-o-r?这个AI代码补全工具真香!
  • 国内运梁车出租厂家实力排行及地址指南:四川二手航吊,二手起重机,二手龙门吊,公路架桥机,双梁起重机,优选推荐! - 优质品牌商家
  • 别再只盯着CMMI认证了!聊聊CMMI-DEV、SVC、ACQ三个模型到底该怎么选?
  • 用AutoJs脚本一键直达小红书任意页面:从个人主页到商品搜索的完整Scheme清单
  • 四川阻燃电缆厂家排行:成都电力电缆,成都电线电缆,成都绝缘电线,成都耐火电线,成都铜芯电线,实力盘点! - 优质品牌商家
  • 从原理到调参:手把手教你用Python复现Steger算法,搞定显微图像中的纤维中心定位
  • 3步掌握STDF-Viewer:从半导体测试数据混乱到清晰洞察
  • 终极解决方案:如何快速无损转换B站m4s缓存视频为MP4格式
  • Mac学Linux新姿势:VMware Fusion装Ubuntu后,用VS Code远程开发真香了
  • ARM裸机环境下的协作式任务调度实现与优化
  • 拆解一个古董设备,发现了宝藏芯片MB85RC64:聊聊FRAM那些被低估的应用场景
  • 无需烦恼查重!AI写教材工具实测,高效生成教材,轻松搞定学术难题!
  • 2026主管护师机构通过率排名揭秘:行业内部白皮书 - 医考机构品牌测评专家
  • 飞秒激光烧蚀下双温方程热力耦合模型研究及应用分析基于Comsol模拟
  • Hearthstone-Script:基于Java/Kotlin的炉石传说游戏自动化解决方案
  • 从RFC函数到可调用的Web Service:SAP ABAP中SOAMANAGER配置全流程避坑指南
  • 别死记硬背了!用Anki和Obsidian打造你的动态英语错题本(研究生备考利器)