当前位置: 首页 > news >正文

AI未来五年发展路径

AI的发展路径:生成能力-推理能力-Agent能力-数字虚拟人-具身机器人-脑机接口。

(1)生成

现在生成都已经渐入佳境:
文本:文本报告生成、代码生成,如Claude Code
语音:语音生成
图片:图片生成,如Nano banana
视频:视频生成,如seedance2.0

我很看好两个方向:AI写代码(主要现在国产模型不争气不给力)、AI视觉(现在字节的视觉识别和视频生成做的很牛)。

传闻DeepSeek选择了多模态。但愿它不是去做:Nano banana、Seedance,而是只做截图识别:前端网站截图进行Coding生成、股票K线截图进行分析说明。


(2)推理

从2024年10月,OpenAI发布基于思维链CoT技术的深度思考,推理开始迅速发展。
2025年2月,国产开源DeepSeek-R1,也把推理普惠到整个中国社会。
不过,总的来说,推理能力的发展是最慢的。
这三年,推理能力并没有得到大的提升,只是从:理论方法(思维链)成熟,到商业产品落地(GPT-o1),到推理速度提高(DeepSeek做了很多内存和GPU的优化)。

大家感觉好像推理能力在进步,其实是外挂工具起的作用(如 Lean 定理器),而不是推理能力起的作用。
但是AI行业已经投入了太多年、投入了太多钱,人们急切需要一些结果,否则就很难让人继续持续投入很多钱了。
所以现在大家都在聚焦发展Agent,本质就是把现在AI的能力再加上外挂的能力,赶快能做点啥就做点啥,尽快转换为商业成果。
我个人觉得:虽然大模型的推理能力已经难以突破,但是Coding专有大模型能力提升,再加上Agent辅助基础模型提高:意图理解能力-方案规划能力-多Agent任务分工协作能力,再加上Agent的记忆模块和Skill模块,可以使最终结果表现出来的推理能力再提升提升。


(3)Agent

Agent起源于:深度研究:
第一步:经过深度思考,生成深度研究的方案
第二步:连接各个外部系统,采集数据
第三步:AI生成代码,对数据进行加工
第四步:生成研究报告:WORD/PDF/PPT分析报告、EXCEL数据统计、可视化图表

2025年2月,商业闭源Agent Manus发布,引发大家的热议。
2026年2月,免费开源Agent OpenClaw发布,引发大家的热议。

Agent的核心有三个:
1、分解任务-编排任务-指派任务-整合任务,让多Agent分工协作
2、用户个性化记忆
3、调用高手写的Skill/上下文提示工程,可以正确引导大模型产出期望的结果

但是,Agent也扩展了很多外部能力:
1、接入外部数据:在线联网搜索、在线MCP/API调用、存取本地文件系统
2、控制本地浏览器:爬虫、模拟点击、登录/取数、填写表单数据
3、控制本地软件:在提示工程中直接调用软件功能CLI,无须再生成代码调用API

不过我个人感觉:中国没有太多深度研究的需求。

我倒是觉得:基础大模型现在都能提供1M长上下文理解能力,如何利用这些多轮会话中的长上下文,来不断清晰化需求的意图目的、细化以及修正方案。现在Agent走走走就走歪路了,就是不随着多轮会话的信息,来修正自己的意图和方案。

(4)数字虚拟人

视觉生成技术,让数字人拥有了可视化的形象。比如生成罗永浩的形象。

语音技术,让数字人拥有了开口说话、听人说话的能力。比如用罗永浩的声音来说话。
多轮会话技术,让数字人可以与用户连贯对话。

深度思考技术,可以让数字人回答更复杂的问题。
Agent技术,可以让数字人使用个性化记忆/个性化风格/个性化数据来交流。比如用罗永浩平时的知识、习惯用语、思考风格来交流。

现在数字虚拟人主要用于AI影视,以后可以用于AI游戏。

(5)具身机器人

具身机器人有两个脑:
一个大脑,用于深度思考-规划-决策选择
一个小脑,用于控制机械手脚运动

现在,宇树机器人自己的小脑控制机器人的手脚运动已经比去年有很大进步。
传闻,宇树机器人也采用了DeepSeek-Omni进行思考。

不过,如果把这些技术放到无人机无人狗身上,可能爆发的更快。


(6)脑机接口

脑机接口:
一半是人的生物电、脑电波信号,人体的各种传感/感应器官;
一半是机器手脚运动、视觉采集、语音识别/语音合成。

这两者还需要连通在一起,方便残疾人、聋哑人。
脑机接口聚焦做好:人脑和机器的连通。
聋哑人,可以使用AI大脑的:视觉识别能力、语音识别能力/语音合成能力。
残疾人,可以使用具身机器人的小脑:控制机械手脚运动。

这是真正的刚需,比老年人需要具身机器人还刚需。但是,要把人肉人脑和机器躯干机器脑连在一起协同在一起,显然难度非常大。

http://www.jsqmd.com/news/588654/

相关文章:

  • Hearthstone-Script:基于Kotlin的炉石传说自动化决策框架的架构解析与实践指南
  • Budget Forcing:通过截断与扩展控制推理深度
  • 13 万星的 GitHub 神器让 GLM-5.1 直接起飞,3 天烧了 1 亿 Token。
  • 我没惹任何AI,只是没用了
  • Vue3 + OpenLayers 项目实战:手把手教你搞定天地图、高德、百度等主流地图源的切换与集成
  • TypeScript baseUrl 弃用解决(附:怎么在 Vite 中配置 resolve.alias)
  • 蓝桥杯备赛:Day3-P1102 A-B 数对
  • 2026最权威的五大降AI率网站推荐
  • 如何判断自己的网站是否需要 SEO 优化服务_关键词优化是 SEO 优化服务的核心吗
  • 7张图看懂Claude Code:从架构图解到工程实现
  • Meta-Harness实战入门基础教程(非常详细),彻底搞懂整套Harness自动进化,收藏这篇就够了!
  • ip新域名对SEO有什么影响
  • 【Ease UI】2026-04-03组件更新:新增组件xly-china-map中国地图组件
  • 示波器眼图分析实战:如何从颜色分布一眼看穿信号质量(附实测案例)
  • AI Agent架构入门到精通:LangChain重磅DeepAgents深度拆解,看这一篇就够了!
  • AO3镜像站终极访问指南:3步解决同人作品访问难题
  • 终极指南:3个简单步骤让旧款Mac安装最新macOS系统
  • Phi-4-mini-reasoning参数详解:presence_penalty对重复结论的抑制效果
  • Obsidian的插件Claudian报错
  • LLM智能体入门到精通:一文看透“共同进化”Complementary RL,看这篇就够了!
  • LLM个人知识库入门基础教程(非常详细),跟着Karpathy学AI正确打开方式,收藏这一篇就够了!
  • RAG 知识库检索参数怎么调?一篇讲清 top_k、BM25、Rerank、各种阈值的区别
  • 计算机毕业设计:Python新能源汽车数据分析与个性化推荐系统 Django框架 snowNLP 协同过滤推荐算法 requests爬虫 可视化(建议收藏)✅
  • seo 推广公司一般多久能见效果_seo 推广公司是否值得信赖
  • SCANET2~5 能力差异速查:上位机路数、隔离、扩展口怎么理解
  • IDEA鲜亮配色方案实战:Java/Mapper.xml/yml文件高亮配置指南(附下载)
  • 2026届毕业生推荐的六大降重复率神器推荐
  • YOLO X Layout部署案例:中小企业PDF文档智能解析落地实践
  • 网站SEO与用户体验的关系是什么_高质量内容创作的技巧是什么
  • WebGoat靶场通关避坑指南:从Docker部署到JWT令牌伪造的实战踩坑记录