当前位置: 首页 > news >正文

智谱开源天团登陆 AtomGit,4 大模型覆盖多模态全场景!

智谱 AI 4 款多模态核心模型在 AtomGit 平台集中开源!基于 Open-AutoGLM 、GLM-4.6V、GLM-ASR-Nano-2512、GLM-TTS 组成的模型矩阵,构建起 “手机操作 + 视觉理解 + 语音识别 + 文本转语音”的全链路多模态 AI 生态。这次开源不仅打破 “AI 只停留在聊天框” 的局限,更以低门槛、高实用性赋能开发者,让中小团队也能快速落地 AI Agent 与多模态应用。

Open-AutoGLM —— AI 真的会 “用手机” 了

如果说传统 AI 是 “只会说的顾问”,那 Open-AutoGLM 就是 “能动手的助手”—— 它是智谱耗时 32 个月研发的全球首个具备 Phone Use 能力的 AI Agent,基于 AutoGLM 大模型,通过 ADB(安卓调试工具)控制设备,结合多模态视觉理解,把自然语言指令直接转化为手机 APP 的真实操作。

它到底能做什么?实测场景超实用:

  • 生活场景:

    说一句 “打开美团搜附近的火锅店并收藏 top3”,AI 会自动启动美团、定位、输入关键词、滑动筛选、点击收藏,全程无需手动干预;

  • 社交场景:

    指令 “打开小红书发布一条美食笔记(配图从相册选第 2 张)”,AI 能完成 APP 启动、进入发布页、选图、输入文案(可自定义风格)、点击发布的全流程;

  • 办公场景:

    在云手机中,它能批量处理微信通知、自动点赞评论、甚至跨 APP 整合数据(如从 Excel 导出数据生成 PPT 并发送至邮箱)。

目前,Open-AutoGLM已支持 50+ 主流中文 APP,覆盖社交(微信、微博)、电商(淘宝、京东)、外卖(美团、饿了么)、娱乐(抖音、B 站)等 8 大分类,还能通过“Verbose 模式” 实时查看 AI 的 “思考过程”,方便开发者调试。

技术亮点:从 “乱点” 到 “可控”,安全与灵活兼得

  • 多模态感知能力:

    通过视觉模型解析手机屏幕内容,精准识别按钮、输入框、弹窗,甚至能处理网络波动、广告遮挡等 “真实世界干扰”;

  • 安全边界设计:

    内置敏感操作确认机制(如支付、登录场景),支持人工接管;还可部署在云手机中,与真实设备隔离,避免隐私泄露;

  • 远程与定制化:

    支持 WiFi 远程调试(无需 USB 线),开发者可自定义回调函数(如敏感操作二次确认),甚至修改 SYSTEM PROMPT 适配特定行业场景;

三大 “得力助手”:多模态能力全覆盖

除了 Open-AutoGLM 外,此次智谱 AI 还开源了GLM-4.6VGLM-ASR-Nano-2512GLM-TTS三款强力模型,覆盖视觉理解、语音识别、文本转语音全场景,形成 “操作 + 感知 + 输出” 的完整技术闭环,开发者可按需组合使用,快速搭建多模态应用。

01|GLM-4.6V:“火眼金睛” 的多模态视觉理解专家

作为面向云端与本地部署的多模态视觉大模型,GLM-4.6V首次将工具调用能力原生融入视觉架构,实现 “图像即参数,结果即上下文” 的端到端推理,128k 超长上下文窗口更是让长文档、长视频理解不在话下。

核心能力亮点十足:

  • 跨模态精准理解:直接输入图片、截图、复杂文档(含公式 / 图表),无需转文字即可解析核心信息,视觉理解精度达到同参数规模 SOTA

  • 原生工具调用:支持基于视觉输入自主规划工具链,比如上传街拍图后,能自动调用 “识图购物” 接口,跨平台比价并生成导购清单;

  • 长上下文优势:128k tokens 上下文相当于 150 页文档或 1 小时视频,可单次处理 4 家上市公司财报并生成对比分析表,关键信息无丢失;

  • 开发友好性:支持 SGLang、vLLM 等主流推理框架,适配 GPU 与国产 NPU,API 调用价格较上一代直降 50%,输入低至 1 元 / 百万 tokens,轻量版 GLM-4.6V-Flash(9B)可免费使用

无论是图文内容创作、前端设计稿转代码、长视频摘要,还是视觉驱动的 AI Agent 开发,GLM-4.6V 都能提供高准确率的底层支撑,大幅降低多模态应用的工程复杂度。

02|GLM-ASR-Nano-2512:端侧语音识别的 “高效能手”

这款轻量级语音识别模型专为端侧场景设计,以 1.5B 参数取得了当前开源语音识别方向的 SOTA 表现,展现出 “小参数、高性能” 的核心优势,尤其适合对延迟和隐私有要求的智能硬件与离线应用。

核心能力聚焦实用:

  • 高准确率识别:

    在中文语音测试集中,字符错误率(CER)低至 0.0717,能精准识别日常对话、方言词汇及专业术语;

  • 端侧高效部署:

    模型参数仅 1.5B,支持本地离线运行,无需依赖云端算力,响应延迟控制在毫秒级;

  • 隐私安全保障

    :语音数据无需上传云端,全程本地处理,完美适配智能手表、车载设备、离线录音笔等隐私敏感场景。

开发者无需投入大量算力成本,即可快速集成语音识别功能,尤其适合中小团队开发智能硬件交互、离线语音转文字、本地语音助手等应用,开箱即用的模型权重降低了语音技术的落地门槛。

03|GLM-TTS:“会说话、有感情” 的语音合成标杆

作为智谱多模态开源周的重点模型,GLM-TTS 以 “高情感表现力 + 极致性价比” 打破开源 TTS 的性能天花板,从 3 秒音色克隆到工业级语音合成,覆盖全场景语音输出需求。

核心能力堪称 “全能”:

  • 情感表达 SOTA:

    在开心、悲伤、愤怒等维度表现优于 Qwen3-TTS、豆包等商用模型,尤其负向情绪(如悲伤、愤怒)的真实感突出,能让合成语音告别 “机械腔”;

  • 3 秒极速克隆:

    仅需录制3 秒清晰语音,就能复刻说话人的音色、节奏、断句习惯甚至语气词,连呼吸和口癖都能精准还原;

  • 低错误率保障:

    引入 GRPO 强化学习范式,在 seed-tts-eval 中文测试集中,字符错误率(CER)低至 0.89%,位列开源模型第一

  • 极致性价比:

    优惠期间 API 调用价仅 1.2 元 / 万字,较 Minimax(7 元 / 万字)、豆包(2.8 元 / 万字)便宜 5 倍以上,大幅降低商用成本;

  • 多场景适配:

    能够处理生僻字、数学公式朗读,适配河南话、四川话、东北话等多种方言,LoRA 微调仅需 15% 参数 + 1 小时数据,企业定制精品音色成本大减。

无论是有声书制作、智能客服配音、教育硬件发音,还是个性化语音助手开发,GLM-TTS 都能提供 “拟人化” 的语音输出,全开源特性与低价格优势,让个人开发者和中小企业也能用上工业级 TTS 技术。

开发者友好:AtomGit 平台保驾护航

为了让开发者 “拿了就能用”,AtomGit 平台为这 4 款模型提供了全方位支持:

  • 免费资源:

    每人可申领5000 万免费算力,1TB 起步可扩展模型仓库,无需担心硬件成本;

  • 便捷部署:

    支持 SGLang、vLLM、transformers 等主流推理框架,提供 “一键部署” 的 Space 演示环境,代码 + 模型统一托管;

  • 清晰文档:

    每个模型仓库都配有详细的环境配置、API 调用、二次开发指南

开源生态再升级:从 “能用” 到 “好用”

智谱此次在 AtomGit 的集中开源,不仅是 “技术输出”,更是对 AI Agent 生态的一次推动 —— 过去需要大厂级研发能力才能实现的 “AI 操作手机”“多模态协同”,现在中小开发者通过 AtomGit 的开源仓库,就能直接复用核心代码与模型权重。

未来,随着更多开发者的参与,或许我们会看到:AI 助手自动帮老人挂号、智能硬件通过 Open-AutoGLM 联动手机 APP、中小商家用 GLM-TTS+ASR 搭建低成本客服系统…… 这场开源,正在为多模态 AI 的 “普惠落地” 按下加速键。

👉 立即前往 AtomGit 探索智谱开源模型:

  • Open-AutoGLM:https://atomgit.com/zai-org/Open-AutoGLM

  • GLM-4.6V:https://ai.atomgit.com/zai-org/GLM-4.6V

  • GLM-ASR-Nano-2512:https://atomgit.com/zai-org/GLM-ASR-Nano-2512

  • GLM-TTS:https://ai.atomgit.com/zai-org/GLM-TTS

http://www.jsqmd.com/news/74055/

相关文章:

  • OpenAI Jukebox音乐生成模型全解析:从安装部署到二次开发指南
  • 从朦胧到清晰:AI元人文构想的演进脉络与现实路径
  • 编程竞赛语言选择:为什么优先学C++?聚焦竞赛属性的语法突破
  • Wan2.2-T2V-A14B能否取代传统视频剪辑师?行业专家这样说
  • Wan2.2-T2V-A14B用于游戏过场动画快速原型设计的潜力
  • AI洞察情绪,预见销售成交
  • Wan2.2-T2V-A14B支持生成多视角视频吗?360°全景内容设想
  • 土耳其AI里程碑:Kumru本土语言模型如何重塑数字生态格局
  • 深度解析:Universal x86 Tuning Utility 如何实现 Intel CPU 电压调节与性能优化
  • 影刀RPA实战:自动处理视频号售后工单,效率提升800%![特殊字符]
  • TL-20251210-01-jvm
  • CompletableFuture的5个大坑!
  • 开源视频生成技术再突破:Wan2.1-FLF2V-14B模型实现720P高清流畅过渡
  • OpenAI革命性技术sCM登场:扩散模型效率飙升50倍,多模态生成迎来新纪元
  • DownKyi终极指南:快速构建个人B站资源管理中心
  • 线性回归与KNN算法的核心原理及实践应用
  • 百度ERNIE-4.5-21B-A3B-PT模型深度解析:轻量级MoE架构引领多模态AI新范式
  • NCMconverter音频格式转换工具:解锁ncm文件的全新使用体验
  • Wan2.2-T2V-A14B在老年认知训练视频个性化定制中的实践
  • Wan2.2-T2V-A14B能否生成符合ATSC标准的超高清广播信号内容
  • Chrony时间同步服务:从底层原理到技术演进的全景解析
  • 74、Python编程:从基础到实践
  • 汇编:改写中断例程-以int9为例
  • 技术变革引领行业新趋势:探索人工智能在现代产业中的深度融合与创新应用
  • 【Redis】Redis下载安装图文教程(Win和Linux版)超详细
  • 鸽姆(GG3M)公司估值与财务预测报告:从多元生态到文明央行的价值跃迁
  • DeepSeek-R1大模型深度解析:突破128K上下文壁垒的技术架构创新
  • 师妹新做的产品没做高低温测试,导致全部召回......
  • Wan2.2-T2V-A14B支持跨模态检索吗?以图搜视频功能设想
  • 邪修版——MDK 工程结构菜鸟快速入门实战指南(上)