当前位置：首页 > news >正文

Gemini 3.5系列重磅发布

news 2026/7/24 19:52:07

每周AI工具/模型更新报告 (2026.05.19 - 2026.05.25)

本周AI领域迎来密集的技术迭代与产品发布，全球科技巨头与国产大模型厂商同步推进智能体（Agent）与多模态能力的深度融合。以下是针对过去一周核心动态的深度梳理与解析。

一、国际巨头重磅发布

1. 谷歌Gemini系列全面升级

发布时间：2026年5月19日

谷歌本周发布了Gemini 3.5系列模型，标志着其在智能体与多模态领域的重大突破：

模型名称	核心能力	应用场景
Gemini 3.5 Flash	面向智能体和编程，保持高速性能，可规模化处理智能体任务	默认集成至Gemini APP及AI搜索
Gemini Omni	全模态输入输出，支持图像、音频、视频、文本任意组合	自然语言编辑视频、创意内容生成
Gemini Spark	个性化智能体，深度集成谷歌生态	Email、Chat场景，支持云端持续工作

此外，谷歌宣布将于6月发布Gemini 3.5 PRO，并推出科研专用模型Gemini for Science，上线多种科学领域智能体功能。

2. OpenAI多模态语音Agent

OpenAI近日发布新一代多模态语音Agent模型，基于改进的GPT-4架构：

响应延迟：降至0.3秒，实现更自然的实时人机对话
语言支持：英语、西班牙语、中文三种语言
跨模态理解：用户可通过语音描述图像内容，或上传图片生成相关故事
隐私保护：所有语音数据均在本地处理，不上传至服务器
识别准确率：复杂环境下达95%，较上一代提升20%

该模型已集成至微软Teams会议系统，用于实时转录和多语言翻译。

二、国产大模型竞速

1. 阿里云Qwen3.7-Max登顶

发布时间：2026年5月20日

阿里云在峰会上发布Qwen3.7-Max，在Arena全球盲测中位列国产模型第一，比肩GPT、Claude顶尖模型：

设计定位：面向Agent全新设计，强化编程、推理能力
长程任务：支持35小时超长程复杂任务执行
全栈能力：依托Agentic Cloud系统实现智能体全栈输出
开源生态：Qwen3.6开源模型下载量突破3000万次，衍生模型超1200个

同时，平头哥发布新一代AI芯片真武M890及磐久AL128超节点服务器，性能为前代的3倍，显存144GB，片间互联带宽800GB/s。

2. 智谱AI GLM系列突破

智谱AI本周取得多项进展：

GLM-5.1：获AA全新Coding Agent基准开源第一，代表国产大模型编程Agent的SOTA级别能力
GLM-5.1高速版：以400 tokens/s的速度，兼顾模型质量与速度
GLM-5V-Turbo：多模态Coding基座模型，依托Slime框架实现异步强化学习训练与推理解耦

商业化方面，智谱AI API业务ARR达17亿元，同比激增60倍。

3. DeepSeek V4 + Agent Harness

DeepSeek持续推进模型能力向智能体产品转化：

V4系列模型：在Agentic Coding评测中位居开源模型首位
Agent Harness：作为智能体的工程外壳，承担上下文管理、工具调用、错误纠正等工程动作
产品定位：直接对标Anthropic的Claude Code，桌面端智能体产品落地可期

4. 腾讯混元Hy 3.0 Preview

腾讯最新混元Hy 3.0 preview模型实现快慢思考深度融合，Agent智能体能力实现跨越式提升。C端层面重点推介两款AI原生应用：

CodeBuddy：AI工作台，具备记忆、规划能力，可持续拓展技能包
Ima：AI原生知识管理工具，支持导入各类资料，以对话形式实现深度学习

三、开发工具与框架更新

Spring AI 2.0多模态支持

Spring AI 2.0通过统一的消息API提供强大的多模态支持，让Java开发者能够轻松构建处理文本、图像、音频等多种信息类型的AI应用：

模态组合	典型应用场景	支持模型示例
文本 + 图像	图像描述、OCR、视觉问答(VQA)	GPT-4V、Gemini、Qwen-VL、Pixtral
文本 + 音频	语音转录、语音合成、语音翻译	GPT-4o-audio、Whisper、Gemini
文本 + 视频	视频内容分析、视频摘要生成	Gemini、GPT-4o
文生图/图生文	创意生成、图像编辑	DALL-E、Stable Diffusion

四、行业趋势洞察

1. 迭代速度空前

根据腾讯专家刘莫闲博士分享，AI重大更新周期已从2023年的每季度一次，压缩至2026年每1.5至2天一次，进化速度超乎想象。

2. 2026年：自主智能体团队元年

行业预判2026年将成为自主智能体团队元年，AI正从普通工具进阶为核心生产力。

3. 安全与理性驾驭

随着OpenClaw等开源智能体框架的火爆，安全隐患也引起关注：全网超23万个公网暴露实例中，近8.78万例存在数据泄露。工信部已提前发布安全风险提示，强调安全发展必须警钟长鸣。

4. 政策驱动

国家网信办、发改委、工信部联合印发《智能体应用创新发展实施意见》，覆盖科学研究、产业发展等19个典型场景，为智能体技术落地提供制度保障。

五、总结与建议

本周AI技术动态清晰指向智能体化与多模态融合两大主线：

维度	核心趋势	建议行动
模型选型	面向Agent设计的模型成为主流	优先评估Qwen3.7-Max、GLM-5.1等Agent优化模型
多模态能力	原生多模态架构逐步成熟	探索Gemini Omni、Spring AI 2.0等多模态开发框架
工程落地	智能体安全与权限管理至关重要	建立智能体权限管控机制，避免数据泄露风险
生态布局	国产模型商业化加速	关注智谱、阿里云等厂商的API服务与企业级解决方案

对于开发者和企业而言，当下的最佳策略是：积极尝试面向Agent设计的新一代模型，构建多模态应用能力，同时高度重视智能体安全治理。随着技术迭代速度持续加快，保持对开源社区与头部厂商动态的密切关注将是保持竞争力的关键。

参考来源

Spring AI 2.0 开发Java Agent智能体 - 多模态支持-CSDN博客
计算机行业周报：谷歌AGENT与多模态能力重磅升级国内外模型持续进化__新浪财经_新浪网
快讯：谷歌发布Gemini Omni AI模型，可以接受任何形式的输入（多模态），用户可以利用自然语言来编辑视频。面向agents和编程发布Gemini 3.5 Flash模型，这现在是Gemini APP的默认模型、也是搜索中默认的AI搜索模型，今天（美东时间5月19日）可用。发布Gemini
OpenAI发布多模态语音Agent 支持实时对话交互|图像_新浪新闻
智能体时代爆发国产大模型三强竞速政策 + 技术双轮驱动千亿赛道|模态|agent_网易订阅
2026年AI大模型每1.5天更新一次，你准备好了吗？|算法|智能体|知识库|人工智能_网易订阅
多Agent产品发布,构建“芯-云-模型-推理”基建
AI英语智能体的开发_用户_模块_模型

查看全文

http://www.jsqmd.com/news/886867/