当前位置: 首页 > news >正文

6月24日豆包上线专业版!办公任务模式实测惊艳,2亿用户开启AI普惠办公新时代

6月24日豆包上线专业版,办公任务模式实测惊艳,2亿用户开启AI普惠办公新时代!

6月24日,豆包正式上线专业版,同步发布豆包2.1系列大模型。首个Agent驱动的办公任务模式搭载豆包2.1 Pro,实测调研报告、财报分析、自建Skill等办公场景,交付质量对标Claude Opus 4.6。作为2亿日活的国民AI应用,豆包开始认真干活了。

这次更新最核心的变化是全新的「办公任务模式」,分别为专业版用户和免费用户提供豆包2.1 Pro和豆包2.1 Turbo模型,这也可以被认为是豆包的第一个Agent版本。

在这个模式下,豆包能完成一个完整的工作目标,自主拆解步骤,调用本地电脑、浏览器、飞书办公套件等工具,产出可以直接交付使用的工作成品,一份行业报告、一张数据分析表、一套PPT,或者一个带后端数据库的网站。

谈到模型能力,有个效果十分吸睛的Demo:一个芯片设计RTL的测试,豆包2.1 Pro连续运行近18小时,完成6个核心模块、1303行RTL代码,经历9轮迭代,还跑通了仿真、测试、综合检查等完整工程流程,展现出模型在真实工程场景里的生产级Coding交付能力。过去完成该任务需要3 - 5个工程师做数周。

豆包日活超过2亿,是中国用户量最大的AI应用。这2亿人里大多数从未接触过Claude Code和Codex等专业Agent工具。Agent能力进入一个每天2亿人打开的App,覆盖的是一个全新的用户群体。

免费用户不受任何影响,现有功能和额度保持不变,底层模型升级为豆包2.1 Turbo,能力甚至有显著提升。办公任务模式也在一定额度内向所有用户免费开放。对于豆包的免费用户来说,免费服务的现有功能和额度保持不变,还整体接入了豆包2.1模型,能力有所提升。此外,免费用户还能体验接入豆包2.1 Turbo模型的办公任务模式。

那么这个Agent模式到底能把活干到什么程度?三大场景,实测豆包Agent办公任务模式的逻辑很简单,Agent明确目标,拆解步骤,调用工具,交付成品。产出物是可以直接发给同事、交给客户的工作成果。以下三个场景按难度递进,用交付结果说话。

场景一:本地电脑操作 + 应用生成

第一个场景直接测豆包新推出的办公任务模式最硬核的能力之一——操作用户本地电脑上的文件,写代码、跑代码、发现问题自己修。实测分两轮。

第一轮Prompt:设计一个可复用的本地软件,帮助我检测出重复照片中质量最好的,将其余质量相对更差的放入回收站。可以用我本地文件夹的这些照片来测试并完善软件。豆包先查看了本地照片文件夹,了解测试数据,然后开始写代码。过程中经历了多轮自我迭代,遇到依赖兼容性问题主动切换技术方案,发现评分算法和分组逻辑的Bug后自行修复重跑,直到测试结果达标才交付。

第二轮Prompt:能否加上一套极简UI,让连运行Python代码都不会的人也能傻瓜式操作?豆包用tkinter做了一个完整的图形界面,文件夹选择、严格度滑块、备份模式、可视化扫描结果、进度条、二次确认弹窗,删除默认进系统回收站。生成了一个双击启动脚本,用户点一下就能打开。最终交付四个文件,命令行版、GUI版、启动脚本和使用说明。

最终,Agent从两张相同场景的照片中成功挑出了质量最好的一张。正确对焦的清晰照片:IMG_5676.jpg;错误对焦的模糊照片:IMG_5684.jpg;成功选出了更清晰的第一张照片:IMG_5675.jpg。一个完全不会写代码的人,全程鼠标操作就能清理完重复照片。

场景二:财报数据分析 + 对比图表

实测Prompt:帮我整理近半年全球AI芯片行业的财报核心数据,对比英伟达、AMD两家公司的营收增速、毛利率变化,生成对比分析表格并给出行业趋势总结,输出为飞书表格 + 500字以内的投资摘要文档。Agent要从多个数据源提取财务指标,清洗比对,生成可读性强的表格,还要写出有判断力的趋势分析。

从信息提取到数据处理到可视化到文字总结,这是一个多步骤链式任务,任何一环断了都交不出合格的活。豆包交付了两个文件,一份双Sheet的飞书表格和一份投资摘要文档。

表格链接:https://my.feishu.cn/sheets/DFBHsfWtOh7zHMtJur4cootPn9c

文档链接:https://my.feishu.cn/docx/Xwxfd5Dv5opPaAxcGLPccvs6nbd

表格做到了什么程度?第一个Sheet是季度对比,按公司分列、按指标分行,英伟达FY2027 Q1营收816亿美元(同比 +85%)、GAAP毛利率74.9%、数据中心收入752亿美元(同比 +92%);AMD 2026 Q1营收103亿美元(同比 +38%)、毛利率53%。第二个Sheet是年度核心数据,包括全年营收、AI业务占比、市值等维度。每个数字都有明确的时间范围标注,不需要人去猜「这个季度到底是哪几个月」。

投资摘要没有停留在复述数字的层面,而是提炼出了三个行业趋势判断,全球AI算力建设加速驱动需求持续超预期、英伟达CUDA生态加硬件迭代形成深厚护城河、竞争格局呈现「一超多强」分化。最后给出了配置建议,英伟达超配、AMD标配,并提示关注三季度新品节奏和云厂商资本开支变化。

AI生成的财务数据仍需人工核验,文档也标注了「部分内容由豆包生成」。但作为初稿,这份表格加摘要的双交付,已经覆盖了一个初级分析师大概半天的工作量。

场景三:自建Skill + 世界杯数据分析

实测Prompt:创建一个可以生成数据可视化面板的技能,然后用这个技能把今天世界杯的所有比赛数据分析一下。

第三个场景展示的是Agent最有想象空间的能力,用户在教AI学一个新技能,然后让它用这个技能干活。这条Prompt里包含两个任务。第一步是创建一个自定义Skill,第二步是调用刚创建的Skill执行具体分析。

豆包先生成了一个名为「data - dashboard」的Skill,基于ECharts构建,支持统计卡片、柱状图、饼图、折线图、双轴图等多种图表类型,响应式设计,深色渐变主题,并附带了完整的HTML模板和使用指南。然后豆包调用这个Skill,抓取了6月24日世界杯4场比赛的实时数据,生成了一个交互式数据面板。

面板里的信息让人很难相信这是一句Prompt的产物。6个关键指标统计卡片(总进球、零封场次、场均进球等),各队进球数对比柱状图,比赛状态分布饼图,进球时间分布折线图,小组积分形势双轴图,外加一张完整的赛程数据表格。

数据的时效性也跟上了,葡萄牙5比0大胜乌兹别克斯坦,C罗梅开二度(siuuuuu~),成为历史首位在六届世界杯中全部取得进球的球员(41岁138天),这些细节都准确呈现在面板里。图源:央视新闻

这个案例的价值在于Agent完成了「先造工具,再用工具干活」的复合指令。传统工作流里,创建一个数据分析模板和用模板执行分析是两个独立步骤,通常需要不同的技能栈。豆包只需要一句Prompt。而且这个Skill创建一次之后可以反复调用,明天、后天的世界杯赛事数据不需要重新描述需求。

三个场景之外,办公任务模式还有几项能力值得留意。

本地电脑操作方面,经用户授权后,豆包可以协助整理本地文件、归类文档、跨应用搬运信息。

定时任务方面,用户可以设定豆包在固定时间自动执行重复性工作,比如每周一上午9点自动生成AI行业动态周报。

网站和应用生成方面,办公任务模式支持创建带后端数据库的生产级网站,可供个人或团队快速搭建信息系统。

所有能力仍在持续迭代,更多专业Skill后续会陆续上线。

底座之变,豆包2.1 Pro是什么水平

办公任务模式的交付质量,底层由模型能力决定。豆包专业版搭载的是最新的豆包2.1 Pro,免费版用户则可使用豆包2.1 Turbo。

豆包大模型2.1 Pro已经达到了可用的标准,可以对标Claude Opus 4.6的水平,进入到了Agent的可用门槛。

一个有意思的变化是,此前Seed团队有单独的Coding模型SeedCode,豆包2.1发布后Coding和Agent能力全部合并到了主版模型里,与此同时推出了Seed Evolving系列,在2.1基础上每一两周更新一次。

在面向真实Coding场景的众测开发者评估中,Seed 2.1 Pro对比Claude Opus 4.6获得了59.1%的胜率。在ALE(Agents' Last Exam)基准评测中,这个覆盖13个行业集群、1000多项高经济价值真实任务的测试里,Seed 2.1 Pro处于第一梯队。Agents' Last Exam基准评测中,左侧为完整通过率,右侧为平均综合得分GDPval。基准衡量模型在真实工作任务中的完成质量和经济价值,Seed 2.1 Pro拿到了参评模型的最高分。Terminal Bench 2.1的得分为71.0,与Claude Opus 4.7的71.7基本持平。

跑分是参考维度之一,前面的实测也更能反映Agent在真实办公场景中的交付水平。两者结合来看,豆包2.1 Pro确实已经迈过了Agent的可用门槛。

价格方面,Seed 2.1 Pro的API定价为输入6元/百万Token、输出30元/百万Token,约为海外同水平模型的四分之一。豆包专业版采用三档订阅,标准68元/月,加强200元/月,高级500元/月,区别仅在使用额度,功能和模型完全一致。与此同时,豆包即将推出面向在校大学生提供认证后38元/月的专属优惠,针对视障人群的视频通话功能也有特殊优惠方案。

再重复一遍关键信息:免费用户现有功能和额度不受影响。办公任务模式也在一定额度内向所有用户免费开放,免费用户可以体验接入豆包2.1 Turbo模型的办公任务模式。而专业版,主要解决的是专业用户在复杂任务场景下的额度需求。

2亿人的Agent飞轮

豆包日活超过2亿。这2亿用户里也有相当多使用智能手机还不算流畅的中老年人等相对的「科技弱势群体」。他们大多数不知道Claude Code和Codex是什么。Claude Code、Codex对这个群体来说,Agent此前只是科技媒体报道里的概念。

办公任务模式把Agent工作流放进了这些人每天都在用的App里。一个从没写过代码的行政人员,现在能用一句话让豆包帮她整理本地文件、生成周报,甚至部署一个内部查询网站。一个大学生可以用38元/月的学生优惠价,获得搭载旗舰模型的办公Agent。

让2亿普通用户零门槛使用专业级工作流,是AI普惠当下最务实的一步。2亿日活还带来一个结构性优势——海量用户在Agent模式下处理真实工作任务,积累的数据将持续反哺模型的Agent能力迭代。用户量级带来数据量级,数据量级加速模型进化,模型进化再拉动更多用户使用Agent功能。Seed Evolving系列每一两周更新一次,就是这种飞轮效应的产品化体现。

办公任务模式将不断快速进化,即将上新的功能包括但不限于:技能商店页面,支持用户添加 / 管理;手机远程操作电脑;电脑端支持GUI操作;进一步和飞书融合打通。

方向已经很清楚了。Agent时代,跑分是入场券,2亿日活才是战场。当一个国民级应用开始替用户干活,改变的是2亿国民的工作方式。

http://www.jsqmd.com/news/1083994/

相关文章:

  • 天行健与优胜劣汰:两种文明范式的哲学比较及其现代启示
  • Java基础进阶:位运算体系与字符串底层原理全解析
  • 如何让老旧Mac焕发新生?OpenCore Legacy Patcher终极指南
  • n8n表达式注入漏洞CVE-2025-68613:从原理到RCE的深度剖析与防御
  • 国产化视频会议安全加密:从国密算法到端到端加密的实战解析
  • 版权知识小科普:这些你一定要知道
  • 大模型微调算力选型:8 路 RTX 5090 服务器与单张 A100 80GB 性能、显存、成本场景对比
  • AI算力行情轮到玻璃基板,巨头布局加速商业化,量产还有哪些难关?
  • 北京时间与不同时区时间:来历、介绍与用途
  • 微信私域如何告别“拍脑袋决策”?从 WecomApi 拆解大规模 A/B 测试与增长实验中台架构
  • XXE漏洞深度解析:原理、利用与多语言防御实战
  • 实战指南:解锁Joy-Con手柄自定义功能的完整工具包
  • 文件上传漏洞攻防实战:从绕过检测到Webshell获取
  • 天河应用大讲堂 | 基于人工智能的天气预报技术发展趋势
  • LSR包胶技术深度解析:金属包胶、塑料包胶到底怎么做?
  • 打通企微接口,构建适配 GEO 检索规则的结构化素材库
  • 100个RPG Maker MV插件:零代码打造专业级游戏体验
  • OpenAI 9 个月自研芯片 Jalapeño,推理成本砍半,ChatGPT 体验将大升级!
  • 自动整形设备中的接近开关:让变形件回到标准位置
  • 从安装到调优,Strix Halo 本地大模型一周使用实录
  • C++跨平台(一):开发概述与策略选择
  • 终极指南:如何用ExtractorSharp高效编辑NPK游戏资源文件
  • 【Springboot毕设全套源码+文档】基于SpringBoot+Vue的学生交流互助平台的设计与实现(丰富项目+远程调试+讲解+定制)
  • 揭秘Wireshark:为什么它是全球第一的开源抓包工具?
  • 关于原客户业务部、产品管理部及生产厂人员划转的通知
  • 解决JSch SSH密钥格式不兼容:使用ssh-keygen生成PEM格式RSA密钥
  • Cesium 水波材质教程
  • 从蓝图到代码:UML 可视化建模新手完全指南
  • 合同系统智能化,让企业合同管理快人一步!
  • 告别网盘限速!九大平台直链下载助手完整指南