当前位置：首页 > news >正文

微软一口气发布3个AI模型：能听、会说、还能画，实测后我有点意外

news 2026/6/5 10:43:44

4月2号，微软一口气发布了三款模型：

👉 MAI-Transcribe-1（听）
👉 MAI-Voice-1（说）
👉 MAI-Image-2（画）

乍一看，这是在补齐“多模态三件套”。但问题是：

👉 它们真的好用吗？

我简单做了一轮体验，聊点更真实的感受。

🎨 MAI-Image-2：这次微软在“画图”上，确实有点东西

🌟 模型概述

MAI-Image-2 是一款文本生成图像模型，可以根据自然语言提示生成高质量图像，适用于设计、创意生成等场景。

🔥 实际体验（重点）

我用几个典型场景测试了一下：

🧪 测试内容：

Prompt ：长焦镜头 | 展示了长焦镜头下，一只猎豹在郁郁葱葱的森林中站立，面对镜头，背景被巧妙地虚化，猎豹的面部成为画面的绝对焦点。阳光透过树叶的缝隙，洒在猎豹身上，形成斑驳的光影效果，增强了视觉冲击力。
MAI-Image-2 模型生成效果如下：

Prompt ：逆光 | 展示了在逆光环境下，模特轮廓线条更加分明，金色的光线以及丝绸环绕在模特周围，形成梦幻般的光环效果。整个场景充满艺术气息，展现了高水准的摄影技术和创意。
MAI-Image-2 模型生成效果如下：

Prompt ：远景镜头 | 展示了远景镜头，在壮丽的雪山背景下，两个小小的人影站在远处山顶，背对着镜头，静静地观赏着日落的美景。夕阳的余晖洒在雪山上，呈现出一片金黄色的光辉，与蔚蓝的天空形成鲜明对比。两人仿佛被这壮观的自然景象所吸引，整个画面充满了宁静与和谐。
MAI-Image-2 模型生成效果如下

Prompt ：仰视视角 | 展示了热带地区的壮观景象，高大的椰子树如同参天巨人般耸立，枝叶茂盛，直指蓝天。镜头采用仰视视角，让观众仿佛置身树下，感受大自然的雄伟与生机。阳光透过树叶间隙洒落，形成斑驳光影，增添了几分神秘与浪漫。整个画面充满了热带风情，让人仿佛能闻到椰香，感受到微风拂面的惬意。
MAI-Image-2 模型生成效果如下：

冰川之上，一头猛犸踏雪而行
MAI-Image-2 模型生成效果如下：

整体感觉：

👉 更像一个“设计工具”，而不是纯创意型模型

🎤 MAI-Transcribe-1：真正的强点不在“转写”

MAI-Transcribe-1 是语音转文本模型，但它真正的价值，其实不在“能转写”，而在：

👉在嘈杂环境下依然能稳定工作

🔥 核心优势

支持 25 种语言
抗噪能力强
自动语言识别

👉 这一点在实际应用中非常关键（尤其是会议、通话场景）

💡 我的判断

👉 这是最接近“产品级能力”的一个模型

如果你是做：

会议系统
语音Agent
客服系统

👉 这个模型值得重点关注

🗣 MAI-Voice-1：不惊艳，但很实用

MAI-Voice-1 是文本转语音模型。它的特点很明确：

👉自然、情绪丰富、而且可控

🌟 能力亮点

高保真语音
情绪控制（逐句）
支持语音克隆

目前 MAI-Transcribe-1 和 MAI-Voice-1 还未开放体验，因此暂时无法做真实测试。

不过我们目前仍在使用微软上一代语音模型（包括语音识别和语音合成），其整体表现已经相当成熟和稳定。

👉 等新模型解锁后，我会补一轮实测。

相比很多后来者，微软在语音领域已经积累了超过20年，这也是为什么它在语音能力上一直比较稳。

总结

MAI-Image-2 在稳定性和细节上优于 GPT-image-1.5；

语音方面，微软延续了一贯的“稳”路线：

MAI-Transcribe-1 强化抗噪，更贴近真实场景
MAI-Voice-1 不算惊艳，但更自然、更可控

👉这波更新，不一定最炸，但很实用。

http://www.jsqmd.com/news/599682/

相关文章：

我把 Obsidian 接上 Agent 后，第一次感受到“第二大脑会自己进化

智能体的核心要素：构建自主 AI 的六大基石与实战场景

MySQL数据库连接数过多怎么排查_使用max_connections参数优化

2026四川建筑建材批发施工优质厂商推荐：泸州树脂瓦批发/泸州活动板房工程/泸州装配式围挡厂家/泸州钛锡板批发/选择指南 - 优质品牌商家

2026q2景观照明设计稳定耐用公司推荐：楼宇照明工程/灯光照明设计/照明工程公司/照明工程施工/照明工程设计/选择指南 - 优质品牌商家

工业4.0下LED可见光通信(VLC)在智能车间的应用实践

太能打了：小卡也能跑的视觉模型！Gemma 4 本地视觉实测，截图转HTML

2026年地产配套防腐木工程服务商推荐榜 - 优质品牌商家

Agent 记忆全景综述：20+顶尖机构联合出品，Agent memory看这一篇就够了

2026Q2金华隆胸机构推荐靠谱之选指南 - 优质品牌商家

GT511C3指纹模块嵌入式驱动开发与工程实践

OpenClaw多模态编程：Phi-3-vision-128k-instruct辅助代码截图转可执行脚本

深圳聚会优选：轰趴馆为何成为团建及各类聚会的核心选择

Go Context 控制流与生命周期管理

OpenClaw版本管理：Qwen3-4B-Thinking模型迭代升级策略

2026废旧中央空调回收厂家top10推荐指南：变压器回收厂家/变压器回收报价/四川中央空调回收/选择指南 - 优质品牌商家

2026年4月，天府新区，成都装修公司哪家好，北京我爱我家装饰（成都旗舰店）

（学习笔记）3.11 浮点代码（3.11.1 浮点传送和转换操作）

【开源项目】想搞个“预测万物”的数字沙盘？MiroFish 一篇部署教程搞定

双向排序（参照acwing的yxc）

OpenClaw开源贡献：为Phi-3-mini-128k-instruct提交技能PR

ESP32驱动ST7796S LCD的PlatformIO标准组件

OpenClaw+Qwen3-14b_int4_awq：自动化数据收集与分析方案

关于一个二本计算机专业学生的未来愿景

开源神器来袭！深度解析铭飞MCMS：从入门到实战的全场景Java开源CMS系统

CSS如何实现自定义复选框样式_利用CSS变量切换选中状态背景

PostgreSQL 选择数据库

你真的理解AI么？不不不，你真的理解产业么？

生成式推荐GR4AD