当前位置: 首页 > news >正文

“卷不动了“?OpenAI Agent姗姗来迟,但功能强大到让所有程序员颤抖!

我们终于等到了 OpenAI 的智能体(Agent)了。

今天凌晨,Sam Altman 亲自带队发布了 ChatGPT 的通用型 Agent 模式。

比起当年 ChatGPT 带给所有人的震撼,姗姗来迟的 OpenAI Agent 少了很多惊喜,因为早在年初我们就见到了类似的产品形态——当时“一号难求”的 Manus,以及 Minimax、Kimi 等陆续发布的相似产品。

“起大早,赶晚集”,技术强大如 OpenAI,也难免有卷不过的时候。

OpenAI 的 Agent,您终于来了

这年头发布 AI 产品,“惊喜”和强大往往是两回事——毕竟是 Open AI。

在产品的直播演示里,这款 Agent 展示出的能力还是令人期待的——Agent 模式可以自己访问网页、调用终端、自动下单,执行从旅行规划、PPT 制作到图像生成与在线购物的整套流程。

据介绍,ChatGPT Agent 即日起向 Pro、Plus 和 Team 版用户开放,Enterprise 和 Education 版用户将于 7 月获得使用权限。Pro 版用户每月 400 次,Plus 和 Team 用户每月 40 次。

为了实现从“Chat”到“Agent”的表现,OpenAI 结合了 Operator(视觉层交互代理)和 Deep Research(多步骤网页推理)两项核心研究成果,一个是“手脚”一个是“大脑”来共同完成任务的拆解、思考、行动的闭环。

这需要三大模块工具的支持:1。 文本浏览器 (Text-based Browser)来处理密集型网页阅读任务,提取信息;2. 可视化浏览器 (Text-based Browser),实现在图形界面中操作鼠标点击、输入、截图等;3. 终端工具 (Terminal),来运行代码、生成文件、调用 API、与其他系统集成。

据 OpenAI 介绍,这款 Agent 不仅能执行,还能评估执行效果,并在每一步中动态选择最优路径。而用户可以随时插话调整指令,或临时接管任务进程。

其实拆解任务和优化任务一直是 Agent 的一个难点。我们可以把 Agent 想象成一个小团队,有产品、品牌、数据,现在用户作为老板下达了一个指令:给我设计一款年轻人喜欢的手机壳。然后大家开始分头行头,市场做调研、品牌做推广,数据盯反馈。

不过这个过程中,大家不免会有冲突,有逾矩,比如市场调研市场可以去发调查问卷,数据部也可以看大数据报告,到底谁来做最高效?所以好的 Agent 总是能自我优化,追求最快、最好。

Agent 这么火?它和 Chatbot 有啥区别?

ChatGPT Agent 和 ChatGPT 到底有什么区别?

基本的解释是:Agent 可以完成任务,Chatbot 可以完成对话。这个“任务”和“对话”到底有什么分别?

举个很简单的例子,我现在要决定今天中午吃什么,我可能会考虑类型、距离、口味,并在最后定一家外卖下单,这就是一个 Agent 式的任务;而一个 Chat 式的任务是,当我已经决定吃日料,我来问:最短距离哪家日料评分最高。

说白了 Agent 能完成的任务,更复杂、更高维、需要更多的工具。

比如,在 OpenAI 的演示里,操作员让 OpenAI Agent 挑一套适合参加婚礼的礼服和礼物。Agent 先用文本浏览器打开用户给的网页信息确认婚礼的日期、天气、位置,然后用可视化浏览器展示可选的礼服效果,之后再继续搜索礼物……

另一个操作员交代的任务是给团队一只叫 Bernie 的狗狗,也是团队吉祥物做一批笔记本贴纸,并且订购 500 份邮寄到相应的地址。

Agent 先是用终端工具 Imagen 生成动漫版图片,设计贴纸然后再访问 Sticker Mule 网站,把设计好的图上传到网站,填写了贴纸数量、尺寸等等,选择订购 500 分,任务最终停留在请求信用卡信息上。

做 PPT,也是一个很典型的 Agent 式任务。

OpenAI 团队演示了让 Agent 从 Google 云中提取分析评估数据并制作成 PPT,直接用图表展示结果。Agent 链接 Google 云 API 进行搜索,并读取相关内容信息,然后使用图像生成功能,在生成一次 PPT 后,Agent 进行了一次优化,生成了一张视觉上更流畅的 PPT。

咋就迟到了?

奥特曼想做 Agent 不是一天两天了。

其实 OpenAI 早就公布过自己的“五级路线图”,一级 Chatbots(聊天机器人)、二级 Reasoners(推理者)、三级 Agents(代理)、四级 Innovators(创新者)、五级 Orgnazations(组织者)。

Agents 作为第三级是整个 AI 进化路径中,让 AI 从工具属性跃升到创新属性中必经的一环。

只不过奥特曼不是第一个发出 Agent 产品的。

今年 3 月, Manus 推出通用 Agent 产品,当时一夜之间大家全都在“万能的朋友圈”求测试账号,一个账号甚至最高炒到了一百万。

Manus 借势 Agent 东风更快速推出产品的很大一部分原因是他们没有自研大模型,而是用 Claude 等底层基础大模型来实现产品功能 ,并将各类功能组合封装,当时业内也称 Manus 是一款“套壳”产品。

Manus 之外,MiniMax、Kimi、Perplexity AI 都更先发布了通用 Agent 形态的产品。

所以说,OpenAI 这把推出 Agent 其实是缺乏了先发优势的,从 ChatGPT 到 Agent,OpenAI 在行业中的位置也从“抢先跑”到了“赶班车”。

除了时间压力,OpenAI 还不能忽视两方面的竞争压力——生态竞争、成本竞争。

一直以来重闭源的 OpenAI 在今年接连受到来自各类竞品的打击。比如 Deepseek,训练成本是自己的二十分之一,性能表现却跟自己产品差不多,本来靠闭源 API 商业化做到全球第一的 OpenAI 眼看着英伟达、英特尔、亚马逊、微软、AMD 等等科技大厂全部接入 DeepSeek,这让奥特曼都直接公开反思“闭源策略可能是个失误”。

成本优势势必会带来生态优势,这样的商业规律并不会在 AI 市场上失效。

而即使 OpenAI 在产品上保持优势,那些“差不多,但便宜很多”的竞争对手的集体围剿也会让他体会“被瓜分”的痛——这一点,奥特曼可以和一直阴阳他的马斯克谈谈心。

关于 Agent 的想象力,才刚刚开头

要我说,人类对 Agent 的开发不足 1%。

Agent 的出现和成熟可以完全颠覆一代人。就像互联网的出现对 90 后的影响,AI 的出现将会影响整个阿尔法世代。

从商业化的角度来看,目前大家对 Agent 最多的讨论就是场景化的难度。因为达到了可以“行动”的 Agent 势必涉及到跨应用的调用,比如在上述贴纸订购的演示里,网购平台的调用权限就必不可少。

但在我看来,这就像当时我们无法想象淘宝怎么说服店家上线一样,AI 时代应用的互通只是时间问题。

作为在这种大势之下的用户,我们其实更应该思考的是 Agent 对我们,以及后代在生活方式的转变——

设想一下,七八岁的孩子们从校门涌出,下午四点父母们还在工作,门口接孩子们的不是爷爷奶奶,也是接入了 Agent 的机器人,Agent 是妈妈们训练出来的,到了家,Agent 早就打开了空调,房间的温度正好。等到快要七点的时候,Agent 开始指挥炒菜机器人做饭,等着下班的爸爸妈妈。

再设想一下,一个对星座塔罗感兴趣的上班族想要搞个占星副业,Agent 直接搜集各种语言的占星资料翻译成中文,提取摘要做成报告,顺便指定一份学习计划。然后开始搜集文案引流灵感、做成海报发布在社交账号帮忙揽客。

再看 OpenAI 的“五级路线图”,Agent 不仅是 AI 从思考到行动的拐点,更是 AI 从被动到主动的拐点,当 AI 从工具化逐渐拟人化,人类的命运也将彻底改写。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/200173/

相关文章:

  • Chromedriver下载地址总是失效?GLM-4.6V-Flash-WEB识别有效链接
  • HTML viewport设置优化GLM-4.6V-Flash-WEB移动端展示
  • Docker镜像源替换为国内站点轻松部署GLM-4.6V-Flash-WEB
  • GLM-4.6V-Flash-WEB与ComfyUI结合:打造智能视觉工作流
  • 程序员必学!大模型开发避坑指南:为什么你的视觉生成模型“看起来很美“但指标不达标?
  • 面向微服务分布式任务调度与可靠执行的互联网系统高可用设计与多语言工程实践分享
  • MicroPE官网集成CUDA工具包支持GLM-4.6V-Flash-WEB推理
  • 深度剖析Dify性能瓶颈:GPU/内存/IO资源利用率翻倍技巧
  • AI智能体DIY:不懂编程也能用大模型打造个人助手,三步教你从零开始!
  • JavaScript防抖节流策略控制GLM-4.6V-Flash-WEB高频调用频率
  • 从ELIZA到ChatGPT:大模型技术发展全攻略,程序员必看!AI进化70年,一篇搞定所有核心技术
  • 面向微服务全链路调用追踪与分布式上下文管理的互联网系统可观测性优化与多语言工程实践分享
  • GitHub镜像网站推荐2024:高效获取GLM-4.6V-Flash-WEB资源
  • 黑客的100种赚钱方法(2026)
  • Java 常用运行参数配置及实际业务详解
  • 2026年国内可靠的球阀企业联系方式,电动盲板阀/不锈钢阀门/蝶式止回阀/气动阀门/半球阀/喷煤球阀,球阀品牌怎么选择 - 品牌推荐师
  • 酒店隔断选购指南:顶尖厂家深度解析,雾化玻璃隔断/酒店隔断/全景玻璃隔断/办公室隔断墙/办公室隔断/调光玻璃隔断酒店隔断定制推荐 - 品牌推荐师
  • 首日赛况!第九届XCTF国际网络攻防联赛总决赛激战启幕
  • HTML表单上传图片交由GLM-4.6V-Flash-WEB进行云端分析
  • 2026年市面上靠谱的球阀供应厂家哪家权威,硬密封蝶阀/天然气球阀/电动盲板阀/手动球阀/通风阀门,球阀生产商推荐榜 - 品牌推荐师
  • docker in docker (避免在docker 中安装docker)
  • 2026年市场质量好的闸阀品牌哪家权威,高性能蝶阀/电液动盲板阀/止回阀/不锈钢截止阀/球阀,闸阀实力厂家推荐榜 - 品牌推荐师
  • 2026年国内知名的电动蝶阀源头厂家联系电话,通风阀门/氨用截止阀/闸阀/软密封闸阀/锻钢截止阀,蝶阀制造商哪家强 - 品牌推荐师
  • Dify内容生成卡顿?快速定位并解决描述生成限速问题
  • 2026年行业内可靠的闸阀制造商有哪些,铸钢阀门/不锈钢止回阀/电动阀门/手动盲板阀/电动蝶阀,闸阀实力厂家联系电话 - 品牌推荐师
  • 考试竞赛制作平台推荐:题库+评分+自动判卷对比 - 品牌排行榜
  • 关于举办“计算机与大数据学院(网络安全学院)2025年网络安全全攻略
  • 中国十大品牌全案策划公司权威排行榜 - 品牌排行榜
  • MicroPE官网WinPE环境运行Python推理GLM-4.6V-Flash-WEB
  • access_token配置没人讲的秘密,资深工程师不愿公开的5个配置要点