当前位置：首页 > news >正文

智谱开源天团登陆 AtomGit，4 大模型覆盖多模态全场景！

news 2026/3/27 3:15:33

智谱 AI 4 款多模态核心模型在 AtomGit 平台集中开源！基于 Open-AutoGLM 、GLM-4.6V、GLM-ASR-Nano-2512、GLM-TTS 组成的模型矩阵，构建起 “手机操作 + 视觉理解 + 语音识别 + 文本转语音”的全链路多模态 AI 生态。这次开源不仅打破 “AI 只停留在聊天框” 的局限，更以低门槛、高实用性赋能开发者，让中小团队也能快速落地 AI Agent 与多模态应用。

Open-AutoGLM —— AI 真的会 “用手机” 了

如果说传统 AI 是 “只会说的顾问”，那 Open-AutoGLM 就是 “能动手的助手”—— 它是智谱耗时 32 个月研发的全球首个具备 Phone Use 能力的 AI Agent，基于 AutoGLM 大模型，通过 ADB（安卓调试工具）控制设备，结合多模态视觉理解，把自然语言指令直接转化为手机 APP 的真实操作。

它到底能做什么？实测场景超实用：

生活场景：
说一句 “打开美团搜附近的火锅店并收藏 top3”，AI 会自动启动美团、定位、输入关键词、滑动筛选、点击收藏，全程无需手动干预；
社交场景：
指令 “打开小红书发布一条美食笔记（配图从相册选第 2 张）”，AI 能完成 APP 启动、进入发布页、选图、输入文案（可自定义风格）、点击发布的全流程；
办公场景：
在云手机中，它能批量处理微信通知、自动点赞评论、甚至跨 APP 整合数据（如从 Excel 导出数据生成 PPT 并发送至邮箱）。

目前，Open-AutoGLM已支持 50+ 主流中文 APP，覆盖社交（微信、微博）、电商（淘宝、京东）、外卖（美团、饿了么）、娱乐（抖音、B 站）等 8 大分类，还能通过“Verbose 模式” 实时查看 AI 的 “思考过程”，方便开发者调试。

技术亮点：从 “乱点” 到 “可控”，安全与灵活兼得

多模态感知能力：
通过视觉模型解析手机屏幕内容，精准识别按钮、输入框、弹窗，甚至能处理网络波动、广告遮挡等 “真实世界干扰”；
安全边界设计：
内置敏感操作确认机制（如支付、登录场景），支持人工接管；还可部署在云手机中，与真实设备隔离，避免隐私泄露；
远程与定制化：
支持 WiFi 远程调试（无需 USB 线），开发者可自定义回调函数（如敏感操作二次确认），甚至修改 SYSTEM PROMPT 适配特定行业场景；

三大 “得力助手”：多模态能力全覆盖

除了 Open-AutoGLM 外，此次智谱 AI 还开源了GLM-4.6V、GLM-ASR-Nano-2512、GLM-TTS三款强力模型，覆盖视觉理解、语音识别、文本转语音全场景，形成 “操作 + 感知 + 输出” 的完整技术闭环，开发者可按需组合使用，快速搭建多模态应用。

01｜GLM-4.6V：“火眼金睛” 的多模态视觉理解专家

作为面向云端与本地部署的多模态视觉大模型，GLM-4.6V首次将工具调用能力原生融入视觉架构，实现 “图像即参数，结果即上下文” 的端到端推理，128k 超长上下文窗口更是让长文档、长视频理解不在话下。

核心能力亮点十足：

跨模态精准理解：直接输入图片、截图、复杂文档（含公式 / 图表），无需转文字即可解析核心信息，视觉理解精度达到同参数规模 SOTA；
原生工具调用：支持基于视觉输入自主规划工具链，比如上传街拍图后，能自动调用 “识图购物” 接口，跨平台比价并生成导购清单；
长上下文优势：128k tokens 上下文相当于 150 页文档或 1 小时视频，可单次处理 4 家上市公司财报并生成对比分析表，关键信息无丢失；
开发友好性：支持 SGLang、vLLM 等主流推理框架，适配 GPU 与国产 NPU，API 调用价格较上一代直降 50%，输入低至 1 元 / 百万 tokens，轻量版 GLM-4.6V-Flash（9B）可免费使用。

无论是图文内容创作、前端设计稿转代码、长视频摘要，还是视觉驱动的 AI Agent 开发，GLM-4.6V 都能提供高准确率的底层支撑，大幅降低多模态应用的工程复杂度。

02｜GLM-ASR-Nano-2512：端侧语音识别的 “高效能手”

这款轻量级语音识别模型专为端侧场景设计，以 1.5B 参数取得了当前开源语音识别方向的 SOTA 表现，展现出 “小参数、高性能” 的核心优势，尤其适合对延迟和隐私有要求的智能硬件与离线应用。

核心能力聚焦实用：

高准确率识别：
在中文语音测试集中，字符错误率（CER）低至 0.0717，能精准识别日常对话、方言词汇及专业术语；
端侧高效部署：
模型参数仅 1.5B，支持本地离线运行，无需依赖云端算力，响应延迟控制在毫秒级；
隐私安全保障
：语音数据无需上传云端，全程本地处理，完美适配智能手表、车载设备、离线录音笔等隐私敏感场景。

开发者无需投入大量算力成本，即可快速集成语音识别功能，尤其适合中小团队开发智能硬件交互、离线语音转文字、本地语音助手等应用，开箱即用的模型权重降低了语音技术的落地门槛。

03｜GLM-TTS：“会说话、有感情” 的语音合成标杆

作为智谱多模态开源周的重点模型，GLM-TTS 以 “高情感表现力 + 极致性价比” 打破开源 TTS 的性能天花板，从 3 秒音色克隆到工业级语音合成，覆盖全场景语音输出需求。

核心能力堪称 “全能”：

情感表达 SOTA：
在开心、悲伤、愤怒等维度表现优于 Qwen3-TTS、豆包等商用模型，尤其负向情绪（如悲伤、愤怒）的真实感突出，能让合成语音告别 “机械腔”；
3 秒极速克隆：
仅需录制3 秒清晰语音，就能复刻说话人的音色、节奏、断句习惯甚至语气词，连呼吸和口癖都能精准还原；
低错误率保障：
引入 GRPO 强化学习范式，在 seed-tts-eval 中文测试集中，字符错误率（CER）低至 0.89%，位列开源模型第一；
极致性价比：
优惠期间 API 调用价仅 1.2 元 / 万字，较 Minimax（7 元 / 万字）、豆包（2.8 元 / 万字）便宜 5 倍以上，大幅降低商用成本；
多场景适配：
能够处理生僻字、数学公式朗读，适配河南话、四川话、东北话等多种方言，LoRA 微调仅需 15% 参数 + 1 小时数据，企业定制精品音色成本大减。

无论是有声书制作、智能客服配音、教育硬件发音，还是个性化语音助手开发，GLM-TTS 都能提供 “拟人化” 的语音输出，全开源特性与低价格优势，让个人开发者和中小企业也能用上工业级 TTS 技术。

开发者友好：AtomGit 平台保驾护航

为了让开发者 “拿了就能用”，AtomGit 平台为这 4 款模型提供了全方位支持：

免费资源：
每人可申领5000 万免费算力，1TB 起步可扩展模型仓库，无需担心硬件成本；
便捷部署：
支持 SGLang、vLLM、transformers 等主流推理框架，提供 “一键部署” 的 Space 演示环境，代码 + 模型统一托管；
清晰文档：
每个模型仓库都配有详细的环境配置、API 调用、二次开发指南