当前位置：首页 > news >正文

大模型的重点已经不是训练，也不是推理

news 2026/3/28 19:18:48

过去大家都聚焦在大模型的训练阶段。
但是大模型训练：
周期长（不利于现在日新月异的竞争格局）、成本高
模型设计难（容易模型坍塌）、Transformer架构难以改动

所以，大家渐渐都从前训练重心改到了后训练，乃至现在的外挂。

（1）
联网搜索是外挂。
大模型发布就和过去的软件发布一样，一旦发布都冻结了。大模型发布也是一样，一发布，知识就冻结在某个时间点了。时间点之后的知识它就不知道了。

所以才出现了联网搜索，把搜索来的信息和大模型内蕴含的知识做合并。

（2）
skill是外挂。
大模型之所以看似很强大，但一直没有爆发，就是因为大家不会用大模型。就如同普遍人面对搜索引擎的输入框也是茫然不知所措，不知道输入什么才能得到自己的期望。所以大模型出现了提示工程skill。skill把prompt、example、script、tools都打包成一个包。现在有了ClawHub，全世界最优秀的人都在贡献最佳实践的skill，这样不会写skill的普遍大众就能坐享其成了，使用大模型也和高手一样水平了。

现在针对联网搜索也有很多skill，可以让联网搜索能搜索到最新、最准确的信息，并且让返回的数据可以是最干净最结构化的数据格式。

（3）
记忆是外挂。
过去，大模型总想攻克两个点：
如何让新的信息源源不断进入大模型，让大模型与时俱进，成为活的大模型，而不是发布就冻结。
如何让新的信息转换成大模型固定下来的知识。

现在，大家对这两个点的解决思路从大模型本身改进转移到了外挂，用外挂这种灵活的思路来解决。
我今天早上看字节发布的MemAgent论文、UC Berkeley发布的SimpleMem论文，大家都在这个思路上。