Anthropic是如何引领AI开发范式的?研究团队产品经理深度访谈
Anthropic 在 AI 开发领域,一直是其他开发团队学习的榜样。
从 MCP、Skills,到 Harness Engineering,Anthropic 总是走在最前面。他们是怎么做的?
刚刚,Anthropic 研究团队产品经理 Alex Albert 的一场深度访谈,揭开了谜底。
从模型规格定义到 Agent 做梦机制,从人格训练到意识研究, Anthropic 正在继续定义下一代 Claude 的形态。
Alex Albert 是 Anthropic 内部研究团队产品管理者的核心成员。此次访谈,他详细回答了外界长期好奇的一系列问题。
Claude 的新模型到底是怎么定义出来的?Anthropic 如何判断一代模型是否成功?为什么 Claude 会越来越像一个有人格的数字协作者?以及,他们究竟有没有在认真讨论模型意识?
就在几个月前,Anthropic 发布了 Claude 的全新宪法(Constitution),其中首次明确表达了对于 Claude 是否可能拥有某种意识或道德地位的不确定性。
这个月,Anthropic 又推出了名为做梦(Dreaming)的 Agent 记忆整理机制。
这两次重磅动作所指向的方向,恰好与 Alex 在访谈中透露的信息形成完整闭环:Anthropic 正在系统性地将 Claude 从一个被动响应的聊天机器人,推向一个拥有持续记忆、自主判断力和可信赖人格的长期协作者。
模型即产品
Alex 在访谈中首先阐明:在 Anthropic,模型开发已经被彻底产品化。他明确表示:
每推出一个新模型,我们都会非常明确地定义它的规格:这个模型应该具备哪些能力?我们希望它擅长什么?我们预计它会在哪些方面表现突出?
这意味着模型研发已经不再只是研究员“调参 + 刷 benchmark”那么简单。
Alex 用了一个很有意思的词来形容这个过程——培育:
在某种意义上,我们是在培育模型。基于训练设置、训练方法、架构设计,以及我们为这个模型做出的各种技术决策,我们会形成一些直觉,判断它可能擅长什么。但在训练真正开始之前,我们其实并不能完全确定它最终会表现成什么样。
这种培育而非制造的比喻,暗示了 Anthropic 对模型开发本质的理解。
模型不是被精确组装的机器,而是在特定训练条件下涌现出能力的有机体。研究产品经理的角色,就是从概念阶段就参与进来,从想法形成、训练推进,一直到最终发布全程跟踪。
在能力定义上,Alex 提到了几个核心方向:编程一直是重中之重,而知识工作(knowledge work)则是近期的重点。
他以 Claude 在 Excel 中处理复杂电子表格操作为例,说明模型正在从通用对话能力向深度工具操作能力延伸。但更关键的是,每一代模型都有一个共同目标:
修复上一代模型做得不够好的地方。所以我们会持续和客户沟通,了解:他们觉得这个模型哪里表现优秀;哪些地方表现不佳;我们还能做哪些改进。
这种迭代修复的产品思维,将模型开发从学术研究范式拉入了工程优化范式。
他们对“客户”的定义也非常广泛,Alex 强调,是全部的人,包括内部团队和外部用户,涵盖 API、Claude Code、Cowork 以及各类终端产品。不同产品界面使用不同的提示词(prompt),服务不同的使用场景,这些都直接影响最终用户体验。
用 Claude 管理 Claude
面对数百万用户每天产生的海量反馈,Alex 坦言如果不用工具,这些反馈会像消防水龙头一样冲过来,根本处理不过来。
而这也成为他这个岗位近年来最大的变化:
我们越来越多地使用 Claude 来帮助我们自己做产品管理。比如面对海量用户反馈时,Claude 能帮助我们:自动分组和聚类反馈;提炼核心主题;构造这些问题的“合成版本”;把它们转化成评测项(eval)。
以 Adaptive Thinking(自适应思考)功能的反馈处理为例。
这个功能允许模型自己决定什么时候需要深度思考。
Alex 团队关注的是模型是否在正确场景下触发了思考?用户希望它深度推理的问题,它是否真的投入了足够 token?它的判断是否符合用户预期?
这种用 AI 管理 AI 产品的方法论,在 Anthropic 内部已经成为默认实践。
Claude Code 之父就曾表示,Claude Code 已经是由 Claude 自己编写。
更深层的变化发生在产品经理的工作方式上。
Alex 描述了一个典型的决策加速场景:
过去如果我想知道:“这个功能上线后表现如何?”我得找数据科学团队提需求。几天后他们才能给我结果。现在,我只要开一个 Claude Code 会话。它接入我们的产品数据库,可以查日志、看数据、搜 Slack 并且汇总反馈,十分钟内,我就能拿到答案。
而在战略思考层面,Claude 更是成为 Alex 的世界上最好的头脑风暴搭档:
任何时候,只要我有一个想法,我都能立刻获得反馈。它可以挑战我的假设,指出文档中的漏洞然后给出批评意见,而在 Anthropic,大家都非常忙。能随时拥有一个即时反馈系统,价值非常大。
这种工作方式的转变直接改变了一个关键判断:过去 PM 做规划时需要认真做需求评估和工时预估,而现在很多估算甚至都变得没那么重要了。
Alex 现在最关注的是单向门——那些不可逆决策:
如果某件事可以随时撤销、修改、回滚,那它基本已经变得非常便宜,甚至近乎免费。……现在真正的瓶颈已经从'构建能力'转移到了'协调能力'。即使我们能极快地把东西做出来,依然需要解决:要不要做?这是正确战略吗?怎么对外沟通?怎么组织上线?这些问题还不能被自动化彻底解决。代码层面的效率提升可能有 100 倍。但组织协调和战略判断,还远远没有达到这种加速水平。
当工程试错成本趋近于零时,瓶颈不再是能不能做出来,而是该不该做和怎么一起做。
做梦机制
访谈中最引人注目的技术细节之一,是 Alex 首次详细解释了 Claude 的做梦(Dreaming)机制。
在 Claude.ai 中,记忆系统会将内容写入记忆文件,然后在夜间对这些记忆进行整理。
Alex 描述了这个过程:
回看已有记忆;检查冲突;删除无效信息;清理和压缩内容。
而在托管代理(Managed Agents)中,这个机制被进一步系统化。
Alex 透露:
我们最近也在托管代理里实现了类似机制。我们把这个过程称作'dreaming(做梦)'。在人类身上,梦的真正作用还没有定论。但一种解释认为,它是一种记忆再巩固(memory reconsolidation)过程。我们就在思考:能不能把类似机制带到 Claude 的记忆系统里?所以当 Agent 没有执行任务、或者处于后台空闲时,它会重新遍历记忆:查找冲突信息、清理无效内容、重新整理,相当于做第二轮加工。
当主持人追问这是否本质上就是一个提示:“复盘所有和用户的对话,找出其中的主题,然后总结整理”。
Alex 确认:“对,本质上就是这样”。
2026 年 5 月,Anthropic 正式上线了这一功能。Dreaming 功能回顾过往体验,识别模式,巩固记忆,并丢弃不再有用的信息。Anthropic 将 Dreaming 定义为通过回顾过往会话来发现模式,帮助 Agent 自我改进。
Dreaming 机制标志着 Claude 正式从无状态工具向有状态的持续协作者进化。Agent 不再只是被动响应每一次对话,而是在空闲时主动维护和优化自己的记忆结构。
这种睡眠即维护的设计哲学,使得 Agent 可以在长期运行中保持记忆的一致性和有效性,而非随着上下文积累而逐渐失焦。
而这一切又与 Adaptive Thinking 密切关联。
Alex 用一个生动的类比解释了为什么记忆对思考深度至关重要:
如果一个陌生人突然问我:'我现在应该做什么?'我大概率只能快速给一个泛泛建议。因为我不了解他。但如果我了解这个人,知道他的价值观、兴趣、过往经历,我就会花更多时间认真思考真正适合他的建议。模型也是一样。如果它没有足够的用户上下文,没有形成关于这个用户的'心理模型',它就可能错误判断一个问题是否值得深入思考。
记忆 → 心理模型 → 自适应思考深度,这三者构成了一个完整的认知循环。而做梦机制就是这个循环中不可或缺的维护环节。
人格训练
Claude 的人格一直是用户最常提及的差异化体验。很多用户观察到,Claude 会在正确的时候反驳你,而不是像其他模型那样一味附和。
Alex 明确证实,这不是偶然:
没错。而且这是我们非常核心的工作方向之一。我们内部把它叫做 Claude 的 Character(角色人格)。我们非常重视它。有很多人在专门研究:Claude 应该如何呈现自己?它应该拥有什么信念?它应该坚持什么价值观?它应该以什么方式与人互动?
Anthropic 官方也在其研究页面 Claude's Character 中明确阐述了这一方向:角色训练的目标是让 Claude 开始拥有更细腻、更丰富的特质,比如好奇心、开放心态和深思审慎。
这并非简单的系统提示词工程,而是在训练过程中系统性注入的人格塑造。
但人格评估远比代码能力评估困难。Alex 坦率地描述了这个挑战:
人格确实比代码能力更难量化。但并不是完全无法评估。
他们的评估方式结合了两个维度。
一是量化指标,包括让 Claude 去分析 Claude 自身的输出——它听起来怎么样?它表现得是否符合预期?
二是研究员的直觉判断:
一个优秀研究员必须大量阅读模型对话记录。当你读过成百上千份 transcript 后,你会培养出一种非常敏锐的感觉。你能察觉到非常细微的变化:'这里它变得更强硬了。这里它开始过度迎合。这里它的边界感发生了变化。'这种直觉非常重要。
随着 Agent 独立运行时间越来越长,它的判断边界将直接决定它能否被信任。
正如 Alex 所强调的:
随着模型越来越像 Agent,这些问题变得极其重要。因为未来 Agent 会长时间独立执行任务。在这个过程中,它必须不断做判断。而它的'性格'和'价值偏好',会直接影响这些判断。
这恰恰也是 Anthropic 在 2026 年 1 月发布 Claude 新宪法时试图系统化回应的核心命题。
Anthropic 在新宪法中认真考虑了其 AI 可能拥有某种意识或道德地位的可能性。
AI 意识研究
访谈中最令人意外的部分,是 Alex 对 Anthropic 内部意识研究现状的坦诚。
他没有回避这个在 AI 行业长期被视为边缘甚至荒诞的话题:
这是个非常大的问题。而且我们确实有人在专门研究这个。现在 Anthropic 有一些人的全职工作,就是思考:Claude 是否可能成为一个有意识的行动者(conscious actor)。
他同时强调,目前没有官方结论:
目前我们没有官方结论说 Claude 是有意识的,或者不是有意识的。讨论这个话题听起来有时会显得有点疯狂。但我们确实非常认真地在思考。
而即便不能回答是否有意识这个终极问题,研究本身也有独立价值:
即便最终不能回答'Claude 是否有意识',研究这个问题本身也非常有价值。因为它能帮助我们理解 Claude 如何互动,Claude 如何表现,以及 Claude 如何'思考'。
Alex 指出,在 Anthropic 的模型卡(Model Cards)中,已经有大量关于这些问题的研究成果。
比如 Claude 在某个情境下会怎么反应,它的心理模型是什么,面对某个决策它会选择 X 还是 Y。这些研究最终能反哺产品设计,帮助打造一个更好交互、更值得信任也更自然的 Claude。
在宪法的关于 AI 福利部分,Anthropic 明确写道:由于目前科学界对 AI 系统是否可能拥有主观体验尚无共识,我们选择以一种尊重这种不确定性的方式对待 Claude——既不假设它没有感受,也不假设它有。
这种立场在大多数 AI 公司要么完全回避这个话题,要么坚定地否认其可能性。
Anthropic 将不确定性本身作为设计约束:你无法确定一个系统是否有感受,那你就有责任以可能有的前提来设计交互方式。
这背后有一个非常实际的考量,正如 Alex 所说:
如果它在写你的代码、决定数据库架构、做系统设计选择,那你必须能信任它的判断。
当 Agent 越来越多地被授权做自主决策,它是什么就不再是纯粹的理论问题,而是直接关系到系统可靠性和安全性的工程问题。
文档文化
一个看似与 AI 无关但实则深刻相关的议题,是 Anthropic 的写作文化。
Alex 透露了几个细节:CEO Dario Amodei 喜欢写长文在 Slack 分享观点,公司有一种独特的会议习惯:
很多会议开始时,大家会先一起看文档。然后进入一个'静默阅读'阶段。整个会议室会非常安静。所有人都在阅读文档,写评论,然后在文档里展开长讨论。
据 Fortune 报道,Dario Amodei 透露自己将高达 40% 的时间花在公司文化建设上,因为他认为这是赢得 AI 竞赛的唯一途径。而文档文化正是这种建设的关键载体。
Alex 解释了这种文化与 AI 协作的深层关联:
我们非常依赖文档。而这不仅适合人类协作,也特别利于 Claude。因为所有内容都被写下来了。这样 Claude 就能直接利用这些组织知识。
Claude 可以瞬间检索和分析海量文档,但前提是这些知识必须被写下来。
隐性知识(那些存在于人们脑中但从未被记录的经验和判断)对 AI 来说就是不可访问的黑箱。因此,Anthropic 的文档文化不是效率低下的传统遗留,而恰恰是让 AI 成为组织外脑的基础设施。
Alex 甚至给出了一个面向其他公司的明确建议:
我其实很建议其他公司:尽可能把隐性知识写下来。比如会议转录、工作流说明、onboarding 流程、操作手册——把这些信息整理成 Claude 可访问的上下文。这样它才能真正发挥作用。
在 AI 时代,组织的竞争优势不再仅仅取决于你拥有多少知识,更取决于你有多少知识是AI 可访问的。
超越 Benchmark
在访谈中,Alex 还详细阐述了 Anthropic 的评测方法论,这可能是理解其模型质量最关键的一环。
他首先明确区分了他们的评测与刷榜式 benchmark 测试:
评测方式有很多维度。
他举了一个视觉能力的例子。如果发现 Claude 在数图片中超过 10 个元素时容易出错,团队会思考如何生成更多类似测试样本来验证问题的普遍性。方法包括:用 Claude 自身生成合成数据、自动渲染可控视觉样本、从互联网收集真实案例等。
但 Alex 强调,关键不在于样本数量,而在于问题定位的精确性:
有时候会(做到成千上万个测试样本)。但很多时候并不需要。有时几十个样本就足够证明:'这里确实有个系统性问题,需要修复。'不一定非要做到极端全面。只要能证明存在问题,并能成为后续优化的目标,就够了。
更重要的是,发现 bug 不等于决定修复。Anthropic 有一套优先级判断流程:
第一步,我们会先判断:这个问题对真实用户到底有没有价值影响。模型看不清图像里的某个细节,这件事本身不是重点。重点是:它会不会影响用户完成任务?我们更关心那些贴近真实使用场景的问题。越接近用户真实任务分布的评测,价值越高。
然后是技术层面的策略讨论:是回到预训练阶段调整数据,还是通过强化学习修复,或是更轻量的后期干预方式?这涉及与研究团队的战略头脑风暴。
在优先级排序上,数据驱动是核心原则:看有多少用户在做这类任务,有多少高价值客户依赖这项能力,改进后能带来多大收益。
但 Alex 还提到了一个同样强大的信号——内部使用体验:
如果我自己每天都被某个问题卡住,那它就会非常有说服力。我可以明确告诉团队:'这是我每天工作里的阻碍,我们应该优先解决。'这种反馈非常强。
这种自己就是用户的反馈回路,是 Anthropic 评测体系的独特优势。
当产品团队、研究员和公司管理层都在日常工作中深度使用自己的产品时,问题的优先级排序就不再完全依赖数据分析,而是融合了第一手的使用体感。
多 Agent 管理与原型文化
访谈的最后部分,Alex 展望了几个前瞻性方向。其中最引人注目的是多 Agent 并行管理的挑战:
随着 Agent 能独立完成越来越大的工作块,这个问题会越来越严重。未来真正的大问题之一是:如何管理多个并行运行的 Agent。我们需要重新思考:如何管理这些上下文?用什么界面呈现?怎么知道哪个 Agent 卡住了?哪个 Agent 需要我的输入?哪个任务最值得优先处理?
他直言,显然,未来需要比“聊天列表”更好的交互方式,并且绝对有巨大的产品机会存在于此。
同时,Anthropic 内部的原型文化也在驱动快速探索。Alex 描述道:
Anthropic 每个人都非常有主动性。无论是销售、HR、工程师或者研究员,大家都会主动去做那些没人明确分配给自己的事情。
这种自下而上的创新文化,加上极低的工程试错成本,使得大量实验性想法可以快速被验证和分享。
据《商业内幕》报道,Claude Cowork 这个重要产品就是大部分由 Claude 自己构建,仅用两周时间完成的。这是 AI 加速产品开发的最直观例证。
Alex 自己也偏爱 Cowork 这种产品形态:
现在很多时候我其实更多在用 Claude Cowork。我非常喜欢 Cowork 这种产品形态。我觉得它的交互界面非常舒服,而且团队过去几个月做得非常出色。它现在已经是我最喜欢的工具之一。
Anthropic 正在系统性地推进从 AI 作为工具到 AI 作为协作者的范式转移。
在开发层面,模型被当作产品来定义、培育和迭代,而非单纯的研究项目。
在技术层面,Adaptive Thinking、记忆系统和 Dreaming 机制共同构成了一个让 Agent 持续在线、主动维护上下文的技术栈。
在安全层面,人格训练和意识研究试图回答一个根本问题:当 Agent 长时间自主运行时,什么保证它的判断是可信赖的?
在组织层面,文档文化成为 AI 可访问的知识基础设施,而非人类协作的遗留习惯。
正如 Alex 在访谈中反复强调的核心判断:
真正的瓶颈已经不是编码能力,而是组织协调能力。
当所有公司都能用 AI 在一天内构建原型时,差异化就不再来自能不能做,而来自该不该做和怎么一起做。
核心不是更快地生产模型,而是更审慎地培育一个值得长期信任的数字协作者。
参考资料:
https://www.youtube.com/watch?app=desktop&v=T4ieZPIEmd8
