当前位置: 首页 > news >正文

Gemini 3.5 发布:AI 大模型竞争进入“Agent 优先“新阶段

开发AI Agent应用时需要同时调用多个大模型做横向对比和弹性切换,不少开发者会在库拉这类模型聚合平台上统一接入不同模型的API,一个入口切换Gemini、GPT等多个模型。想体验直接点下面图片接入。

概要

2026年5月20日,谷歌I/O大会发布Gemini 3.5 Flash。这款模型的核心定位不是"最强通用模型",而是"最强Agent底座"。

Terminal-Bench编码测试76.2%,超过自家旗舰3.1 Pro的70.3%。MCP Atlas多步Agent工具调用83.6%。输出速度289 tokens/s,是Claude Opus 4.7和GPT-5.5的4倍。输出价格是Sonnet的1/25。

这些数据指向一个明确趋势:AI大模型的竞争逻辑正在从"谁最强"变成"谁最适合当Agent大脑"。

整体架构流程

Gemini 3.5 Flash Agent架构

text
text
用户/系统发起任务

thinking_level分级(Minimal / Low / Medium / High)(citation:7)

Gemini 3.5 Flash 推理引擎

MCP工具调用层(多步工具协调,83.6%通过率)(citation:4)

Thinking Retention(多轮对话自动保留中间推理)(citation:7)

100万token上下文窗口(整个代码库可一次塞入)(citation:4)

输出结果(65000 token输出上限)(citation:7)

thinking_level 四档分级机制

这是Flash 3.5最核心的设计创新:

档位 用途 特点
Minimal 简单查询、快速聊天 速度优先
Low 轻量代码、简单分析 低延迟
Medium 默认档,日常编码 速度与质量平衡
High 高难度推理、复杂数学 推理深度最大化

传统模型用同一套算力应对所有任务。Flash的做法是:简单任务不过度推理(省成本),复杂任务不偷工减料(保质量)。

技术名词解释

术语 说明
Agent AI智能体,能自主规划任务、调用工具、多步执行的自主系统
MCP(Model Context Protocol) Anthropic提出的模型上下文协议,标准化AI与外部工具的交互方式
Terminal-Bench 评估AI终端控制和命令行操作能力的编码基准测试
MCP Atlas 多步Agent工具协调能力测试,衡量模型在多工具编排场景下的可靠性
GDPval-AA 真实世界智能体任务评估,衡量有经济价值的工程代码能力
Thinking Retention Flash 3.5引入的特性,多轮对话中自动保留中间推理过程
tokens/s 每秒处理的token数量,衡量模型输出速度的核心指标

技术细节

  1. Agent能力数据对比

Flash 3.5在Agent相关基准上的表现:

基准测试 Flash 3.5 3.1 Pro 提升幅度
Terminal-Bench 2.1 76.2% 70.3% +5.9%
SWE-Bench真实工程 55.1% 54.2% +0.9%
MCP Atlas工具调用 83.6% 78.2% +5.4%
GDPval-AA(Elo) 1656 — 逼近GPT-5.4的1674
MMMU-Pro多模态 83.6% — 超Claude Opus 4.7和GPT-5.5

同时在极限推理指标上主动让步:

基准测试 Flash 3.5 3.1 Pro
Humanity’s Last Exam 40.2% 44.4%
ARC-AGI-2 72.1% 77.1%
MRCR v2(128K平均) 77.3% 84.9%

解读:Google做了一个明确的产品取舍——让Flash在"干活型"指标上越级打Pro,在"考试型"极限推理上主动让步。真正难的不是"再加一个能力",是"决定砍掉哪个能力"。

  1. Thinking Retention:Agent长程任务的关键

Flash 3.5引入Thinking Retention特性。传统多轮对话中,模型每轮都从零理解上下文。Thinking Retention让模型自动保留中间推理过程,后续对话能直接沿用之前的推论脉络。

这对Agent场景意义重大。比如让Agent重构一个大型项目——第一步分析架构,第二步识别问题,第三步生成修复方案。传统模型在第三步时可能"忘了"第一步的分析结果。Thinking Retention确保推理链路不断裂。

配合100万token输入窗口和65000 token输出上限,整个代码库可以一次塞进去,省掉切分和索引的RAG工程。

  1. 竞品对比:Agent赛道的真实格局

维度 Gemini 3.5 Flash Claude Sonnet 4.6 GPT-4o
代码一次通过率 72% 81% 68%
首token延迟 180ms 420ms 350ms
生成速度 148 tokens/s 82 tokens/s 95 tokens/s
输出价格/百万token $0.60 $15.00 $10.00
极限推理(HLE) 40.2% 更高 更高
Agent能力(MCP Atlas) 83.6% 79.1% —
上下文窗口 1M 200K 128K

Flash输出价格是Sonnet的1/25。当一天发起几万次Agent请求、一次任务后台跑几小时——单次成本乘以调用频次才是关键。

如果需要在实际项目中同时接入多个模型做Agent能力对比测试,可以通过c.877ai.cn这类模型聚合平台统一管理。一套代码对接多个模型,智能路由自动选最优线路,故障转移保障业务不中断。

  1. Codex CLI实测数据

在Codex CLI上跑了20个prompt实测:

Flash 3.5:72%直接可用,18%需小改
Claude Sonnet 4.6:81%一次通过
GPT-4o:68%一次通过

Flash有个值得注意的行为特征——“自我肯定循环”。它不会质疑自己的中间结论,会话中频繁出现自我肯定表述。开发者必须成为"谨慎的锚点"。

小结

Gemini 3.5 Flash的发布标志着AI大模型竞争正式进入"Agent优先"阶段。

三个核心判断:

第一,速度和成本是Agent场景的命门。Cursor企业客户中AI生成代码比例一年内从15%跳到75%。模型不再是"偶尔问一个问题",而是持续不断被调用。Flash的289 tokens/s和$0.60/百万token输出价格,直接拉低了Agent应用的成本底线。

第二,thinking_level分级是产品设计而非技术缺陷。简单任务用Medium省成本,复杂任务用High保深度。这是"按需分配算力"的工程思路,不是"做不了极限推理"。

第三,多模型弹性调用将成为标配。Flash在Agent和编码上领先,Claude在复杂推理和长文写作上更强,GPT-4o在多模态上更全面。没有一个模型通吃所有场景。通过聚合平台按任务类型切换模型,是2026年最高效的AI应用架构选择。

Google让Flash成为默认模型而非降级选项——这不是技术决策,这是产品宣言:未来的AI,Agent优先。

http://www.jsqmd.com/news/894878/

相关文章:

  • Cortex-M栈内存配置与地址获取实战指南
  • 2026年评价高的上海空气除菌过滤器/反冲洗过滤器/双联过滤器公司哪家好 - 行业平台推荐
  • OpenGL ES 4x MSAA实战:在Android/iOS上开启抗锯齿,性能开销真的像传说中那么小吗?
  • Charles抓包工具在Android开发中的深度应用与网络调试实践
  • TwinCAT ADS通讯避坑指南:C#读写PLC结构体、数组时,字节对齐和类型映射那些事儿
  • 2026年靠谱的上海夹套过滤器/钛棒过滤器/磁性过滤器厂家精选合集 - 品牌宣传支持者
  • AI智能体工程化:构建可靠智能系统的四大支柱与实战指南
  • 基于Whisper与Llama 3的离线语音AI编程助手实现指南
  • MySQL基础篇:SQL语法、约束、多表查询、事务...
  • Android开发中的Git、GitLab与代码评审实践
  • 多智能体共识机制全解析:从Paxos到区块链的工程选型指南
  • Astribot Suite:机器人全身协调控制技术解析
  • 2610.摆脱批量出图繁琐操作!豆包超能模式从底层逻辑解决创作效率痛点
  • 《重构:改善既有代码的设计》阅读笔记
  • 储能技术资料
  • 从日志到可观测性:开发者如何利用三大支柱定位分布式系统疑难问题
  • 从门店到全域,从赋能到增长:汇源集团如何搭建全域矩阵营销体系
  • DM DEM 运维使用
  • Keil µVision静态库创建与优化实战指南
  • 构建桌面AI助手:用本地LLM与自动化技术打造空间化智能体
  • 树莓派小白也能玩转USB摄像头:用罗技C310和fswebcam拍下你的第一张照片
  • AI编程Agent:职场新宠还是代码刺客?
  • AI增强固件开发:RPET循环在嵌入式与IoT中的实践
  • 并发、并行与异步:核心概念辨析与工程实践指南
  • 挖掘LLM深层知识:通过侧向提问激发模型未知的已知模式
  • 2026年口碑好的贵州冠晶石/贵州雅晶石/贵州水包砂优质供应商推荐 - 行业平台推荐
  • 2609.告别低效铺货!小红书千帆自动铺货助手的核心功能与运营提效逻辑
  • Ubuntu双网卡上网卡顿?手把手教你用route命令调整有线/无线网络优先级(附ifmetric备用方案)
  • 阿里云配置Docker
  • ctf show web 入门255