当前位置: 首页 > news >正文

大模型的重点已经不是训练,也不是推理

过去大家都聚焦在大模型的训练阶段。
但是大模型训练:
周期长(不利于现在日新月异的竞争格局)、成本高
模型设计难(容易模型坍塌)、Transformer架构难以改动

所以,大家渐渐都从前训练重心改到了后训练,乃至现在的外挂。

(1)
联网搜索是外挂。
大模型发布就和过去的软件发布一样,一旦发布都冻结了。大模型发布也是一样,一发布,知识就冻结在某个时间点了。时间点之后的知识它就不知道了。

所以才出现了联网搜索,把搜索来的信息和大模型内蕴含的知识做合并。

(2)
skill是外挂。
大模型之所以看似很强大,但一直没有爆发,就是因为大家不会用大模型。就如同普遍人面对搜索引擎的输入框也是茫然不知所措,不知道输入什么才能得到自己的期望。所以大模型出现了提示工程skill。skill把prompt、example、script、tools都打包成一个包。现在有了ClawHub,全世界最优秀的人都在贡献最佳实践的skill,这样不会写skill的普遍大众就能坐享其成了,使用大模型也和高手一样水平了。

现在针对联网搜索也有很多skill,可以让联网搜索能搜索到最新、最准确的信息,并且让返回的数据可以是最干净最结构化的数据格式。

(3)
记忆是外挂。
过去,大模型总想攻克两个点:
如何让新的信息源源不断进入大模型,让大模型与时俱进,成为活的大模型,而不是发布就冻结。
如何让新的信息转换成大模型固定下来的知识。

现在,大家对这两个点的解决思路从大模型本身改进转移到了外挂,用外挂这种灵活的思路来解决。
我今天早上看字节发布的MemAgent论文、UC Berkeley发布的SimpleMem论文,大家都在这个思路上。

http://www.jsqmd.com/news/470840/

相关文章:

  • Markn:解决文档预览割裂问题的轻量高效方案
  • 开源工具赋能3D工作流:Blender MMD Tools跨平台资源处理全指南
  • JBoltAI视频SOP:破解工艺落地难题,赋能企业数智化作
  • AI辅助开发实战:应对ChatGPT高负载的架构设计与优化策略
  • 3大迁移陷阱与7个避坑指南:Media3迁移全流程实战
  • 如何拯救你的B站收藏夹?BiliTools让视频学习效率提升10倍的秘密
  • Markdown浏览器预览工具:极简配置实现高效文档阅读与个性化渲染
  • 海外翻倍增长,重回高增长赛道的迅雷该咋看?
  • IDM永久试用完整解决方案:从根源解决激活难题的系统级优化指南
  • 从内积到相似度:探索向量空间中的核心度量方法
  • 3大媒体工具黑科技:猫抓cat-catch让资源下载难题迎刃而解
  • Unity Mod Manager:让游戏模组管理变得简单高效
  • 利用快马AI平台快速构建蓝桥杯赛题原型,三步验证算法思路
  • 3步打造魔兽世界字体定制方案:个性化游戏界面终极指南
  • 无锡福丰机械科技有限公司电话查询:企业联系方式与产品服务简介 - 品牌推荐
  • Perseus智能补丁工具:基于动态适配技术的碧蓝航线资源解锁方案
  • 植物根系研究的革命:高精度根系分析仪技术白皮书
  • IACheck结合AI报告审核:列车空调系统制冷量测试检测报告更严谨
  • 多平台直播分发效能优化:obs-multi-rtmp实战指南
  • 打造Mac音乐体验新维度:LyricsX桌面歌词工具全攻略
  • PCB设计实战指南:从RC滤波到差分走线的关键布局技巧
  • 高效突破百度文库限制:智能文档提取工具全攻略
  • RK3506 UVC配置
  • Chatbot UI开源框架网页集成实战:技术选型与实现解析
  • 3步实现图片立体化:打造专属3D打印模型的创意指南
  • 革新性Altium文件解析工具:突破电路设计协作壁垒的开源解决方案
  • PCL2-CE:突破3大技术瓶颈,重构Minecraft启动体验
  • Xshell插件开发核心挑战解析
  • 旅游行业智能化升级:提示工程的架构设计
  • 3大突破:cursor-free-vip让开发者免费使用Cursor Pro功能