当前位置：首页 > news >正文

Gemini 3.5 发布：AI 大模型竞争进入“Agent 优先“新阶段

news 2026/7/15 8:47:17

开发AI Agent应用时需要同时调用多个大模型做横向对比和弹性切换，不少开发者会在库拉这类模型聚合平台上统一接入不同模型的API，一个入口切换Gemini、GPT等多个模型。想体验直接点下面图片接入。

概要

2026年5月20日，谷歌I/O大会发布Gemini 3.5 Flash。这款模型的核心定位不是"最强通用模型"，而是"最强Agent底座"。

Terminal-Bench编码测试76.2%，超过自家旗舰3.1 Pro的70.3%。MCP Atlas多步Agent工具调用83.6%。输出速度289 tokens/s，是Claude Opus 4.7和GPT-5.5的4倍。输出价格是Sonnet的1/25。

这些数据指向一个明确趋势：AI大模型的竞争逻辑正在从"谁最强"变成"谁最适合当Agent大脑"。

整体架构流程

Gemini 3.5 Flash Agent架构

text
text
用户/系统发起任务
↓
thinking_level分级（Minimal / Low / Medium / High）(citation:7)
↓
Gemini 3.5 Flash 推理引擎
↓
MCP工具调用层（多步工具协调，83.6%通过率）(citation:4)
↓
Thinking Retention（多轮对话自动保留中间推理）(citation:7)
↓
100万token上下文窗口（整个代码库可一次塞入）(citation:4)
↓
输出结果（65000 token输出上限）(citation:7)

thinking_level 四档分级机制

这是Flash 3.5最核心的设计创新：

档位用途特点
Minimal 简单查询、快速聊天速度优先
Low 轻量代码、简单分析低延迟
Medium 默认档，日常编码速度与质量平衡
High 高难度推理、复杂数学推理深度最大化

传统模型用同一套算力应对所有任务。Flash的做法是：简单任务不过度推理（省成本），复杂任务不偷工减料（保质量）。

技术名词解释

术语说明
Agent AI智能体，能自主规划任务、调用工具、多步执行的自主系统
MCP（Model Context Protocol） Anthropic提出的模型上下文协议，标准化AI与外部工具的交互方式
Terminal-Bench 评估AI终端控制和命令行操作能力的编码基准测试
MCP Atlas 多步Agent工具协调能力测试，衡量模型在多工具编排场景下的可靠性
GDPval-AA 真实世界智能体任务评估，衡量有经济价值的工程代码能力
Thinking Retention Flash 3.5引入的特性，多轮对话中自动保留中间推理过程
tokens/s 每秒处理的token数量，衡量模型输出速度的核心指标

技术细节

Agent能力数据对比

Flash 3.5在Agent相关基准上的表现：

基准测试 Flash 3.5 3.1 Pro 提升幅度
Terminal-Bench 2.1 76.2% 70.3% +5.9%
SWE-Bench真实工程 55.1% 54.2% +0.9%
MCP Atlas工具调用 83.6% 78.2% +5.4%
GDPval-AA（Elo） 1656 — 逼近GPT-5.4的1674
MMMU-Pro多模态 83.6% — 超Claude Opus 4.7和GPT-5.5

同时在极限推理指标上主动让步：

基准测试 Flash 3.5 3.1 Pro
Humanity’s Last Exam 40.2% 44.4%
ARC-AGI-2 72.1% 77.1%
MRCR v2（128K平均） 77.3% 84.9%

解读：Google做了一个明确的产品取舍——让Flash在"干活型"指标上越级打Pro，在"考试型"极限推理上主动让步。真正难的不是"再加一个能力"，是"决定砍掉哪个能力"。

Thinking Retention：Agent长程任务的关键

Flash 3.5引入Thinking Retention特性。传统多轮对话中，模型每轮都从零理解上下文。Thinking Retention让模型自动保留中间推理过程，后续对话能直接沿用之前的推论脉络。

这对Agent场景意义重大。比如让Agent重构一个大型项目——第一步分析架构，第二步识别问题，第三步生成修复方案。传统模型在第三步时可能"忘了"第一步的分析结果。Thinking Retention确保推理链路不断裂。

配合100万token输入窗口和65000 token输出上限，整个代码库可以一次塞进去，省掉切分和索引的RAG工程。

竞品对比：Agent赛道的真实格局

维度 Gemini 3.5 Flash Claude Sonnet 4.6 GPT-4o
代码一次通过率 72% 81% 68%
首token延迟 180ms 420ms 350ms
生成速度 148 tokens/s 82 tokens/s 95 tokens/s
输出价格/百万token $0.60 $15.00 $10.00
极限推理（HLE） 40.2% 更高更高
Agent能力（MCP Atlas） 83.6% 79.1% —
上下文窗口 1M 200K 128K

Flash输出价格是Sonnet的1/25。当一天发起几万次Agent请求、一次任务后台跑几小时——单次成本乘以调用频次才是关键。

如果需要在实际项目中同时接入多个模型做Agent能力对比测试，可以通过c.877ai.cn这类模型聚合平台统一管理。一套代码对接多个模型，智能路由自动选最优线路，故障转移保障业务不中断。