大模型的重点已经不是训练,也不是推理
过去大家都聚焦在大模型的训练阶段。
但是大模型训练:
周期长(不利于现在日新月异的竞争格局)、成本高
模型设计难(容易模型坍塌)、Transformer架构难以改动
所以,大家渐渐都从前训练重心改到了后训练,乃至现在的外挂。
(1)
联网搜索是外挂。
大模型发布就和过去的软件发布一样,一旦发布都冻结了。大模型发布也是一样,一发布,知识就冻结在某个时间点了。时间点之后的知识它就不知道了。
所以才出现了联网搜索,把搜索来的信息和大模型内蕴含的知识做合并。
(2)
skill是外挂。
大模型之所以看似很强大,但一直没有爆发,就是因为大家不会用大模型。就如同普遍人面对搜索引擎的输入框也是茫然不知所措,不知道输入什么才能得到自己的期望。所以大模型出现了提示工程skill。skill把prompt、example、script、tools都打包成一个包。现在有了ClawHub,全世界最优秀的人都在贡献最佳实践的skill,这样不会写skill的普遍大众就能坐享其成了,使用大模型也和高手一样水平了。
现在针对联网搜索也有很多skill,可以让联网搜索能搜索到最新、最准确的信息,并且让返回的数据可以是最干净最结构化的数据格式。
(3)
记忆是外挂。
过去,大模型总想攻克两个点:
如何让新的信息源源不断进入大模型,让大模型与时俱进,成为活的大模型,而不是发布就冻结。
如何让新的信息转换成大模型固定下来的知识。
现在,大家对这两个点的解决思路从大模型本身改进转移到了外挂,用外挂这种灵活的思路来解决。
我今天早上看字节发布的MemAgent论文、UC Berkeley发布的SimpleMem论文,大家都在这个思路上。
