当前位置: 首页 > news >正文

MiniMax M2.7 完成你的不可能,但缺不认识马嘉祺

众所周知,国产御三家有四位:Qwen、GLM、MiniMax和Kimi。

刚我去扫了眼,在实时更新的龙虾榜PinchBench上,MiniMax M2.7已经干到了全球第四(GLM和GPT分数一样,有两个第三名)。

给大家简单介绍下这个龙虾榜,它不是传统benchmark那种,看模型答得准不准,而是看模型能不能完成一件完整的事情。

当然,PinchBench不代表模型的真实水平,仅代表模型在Agent任务上的成功率情况。

所以,今天我想重点测评一下MiniMax M2.7在真实场景中的表现。

本文会相继用到Claude Code、OpenClaw、MaxClaw和MiniMax Agent网页端等不同平台来测试,并会在每个Case前做说明。

一手实测

测试主要分为6个场景,重点评估模型的执行过程和最终结果。

1)龙虾任务:搜索→整理表格→做信息图→发到飞书

龙虾任务,主要在MaxClaw里测(他们已经接上了M2.7)。

第一个任务是:

打开豆瓣网页 https://movie.douban.com 搜索最近热门的电影,结合热度、评分和上映时间综合筛选10部电影,整理成Excel表格,并根据Excel表格的信息设计一个可视化HTML。最后,把Excel和HTML一并发到我的飞书上。

这里的任务一共有5步:联网检索→总结内容→生成表格→编写代码→自动发到飞书。

比较考验模型的多步骤执行能力和工具调用能力。

M2.7一次过,直接交付了Excel表格和信息图Html。

来看下最终的结果:Excel和HTML。

Excel表格

可视化HTML

还行,而且它给Excel表格做了一个底色设计,分成了封面和原始数据两个子表给我。

当然,如果我们的提示词要求得更多,它会生成得更精细。只不过,我们这里主要考验的,是模型对长任务的指令理解和执行能力。

2)龙虾任务:自动做视频

接着,我又让它用libtv-skills给我做个视频(skill教程可以看这篇文章:LibTV)。

任务是:

用libtv-skills帮我生成40秒的短漫剧,主题是: 《像素荒原》 (The Pixel Wasteland) 视觉核心:实拍与低多边形(Low-Poly)CGI的实时混合渲染。世界在“高清现实”与“崩坏马赛克”间切换。 剧情:主角行走在繁华都市,但他走过的地方,建筑瞬间退化为粗糙的几何色块,行人变成静止的贴图。他试图奔跑逃离“渲染延迟”,却发现自己的双手也开始像素化消散。结尾,镜头拉远,整个城市只是一个老旧显示器上即将断电的画面,最后一声电流音后,屏幕彻底黑屏,只映出观众自己的脸。 隐喻:探讨数字存在主义危机,利用故障艺术(Glitch Art)风格制造强烈的不安感与哲学反思。

来看下结果。

这个视频的所有工作流,全由MiniMax M2.7驱动的龙虾自己调用libtv-skills完成,剧本、分镜图、分镜视频,以及最后的视频合成,都一气呵成。

视频质量,还不错。

不过,有个小细节大家要注意,MaxClaw本身就支持视频生成(接的Hailuo模型)。如果你不强制调用skill,它会生成镜头片段,而不是完整的视频。

整体来看,M2.7在龙虾上的任务成功率还是挺高的,前面我这2个case都是one shot,一次生成。

那M2.7能够在龙虾榜上排名全球第四,也就可以理解了。

3)编程任务:3D

下面3个编程任务,都是在Claude Code里进行测试。

先测一个3D Case,看下模型的空间想象和逻辑推理能力,看它能否准确理解指令,并创建一个零BUG的视觉图形。

照例,还是我们的3D魔方。

提示词:Create a single HTML file containing a fully functional 3D Rubik's Cube simulation using Three.js (via CDN). The cube must be able to automatically solve itself. 中文:创建一个HTML文件,其中使用Three.js(通过CDN方式引入)来实现一个功能完备的3D魔方模拟程序。该魔方必须能够自动完成自己的“解谜”过程。

没问题。而且,这回它的UI比上一个版本M2.5看起来更高级一些。

不过,这个Case并非one shot。第一个版本,在打乱和还原的动画过程中会出现部分方块颜色丢失的情况,这是因为方块的位置和颜色没有正确更新。

简单反馈问题后,第二版就修复这个问题了。

4)编程任务:前端

既然审美在线,我们也同步测一下它写前端的能力。

让M2.7给一款AI鼠标「小沃」设计产品宣传页。

这个前端,还是比较好看的,尤其是这个VI和配色,我很喜欢。

有点遗憾的是,目前M2.7还不具备视觉理解能力。如果有视觉理解能力,它的应用场景会更丰富。

5)编程任务:用skills做网站

我们继续上点强度,让它调用Skills来生成一个网站。

需求是:

用Knowledge Site Creator Skills为「Token」创建一个知识学习网站,既要严谨,又要有趣味,页面高级审美。 关于token的知识,可以参考这篇文章:https://mp.weixin.qq.com/s/hlL2U4XizvBQJynNJixlOQ

这次One shot,效果还不错,配色和排版是我喜欢的调调。

不过,有个小缺陷,M2.7似乎不能直接读公众号url,内容是我手动给Claude Code的。

6)办公任务:出报告、图表和PPT

办公任务,换到了MiniMax Agent网页端进行测试。

体验地址:agent.minimaxi.com

这次,我们直接复刻MiniMax官方案例,看看能不能复现。

任务是:

基于腾讯2025年财报信息,构建腾讯的营收模型,读取多个研报,设计对应的假设,基于最新的信息对腾讯营收建模,然后选择合适的 PPT 模版产出 PPT ,并写一个 Word 文档研究报告和 Excel 图表。

首先看它建的Excel财务模型。

这份财务分析模型还是挺全面的,像业绩总览、收入分析、盈利分析、核心业务(游戏)分析、估值分析这些该有的部分都有。说明M2.7模型,知道一个初级分析师在干什么活。

数据方面,我也对了一下,没有差错。

就是涉及到有复杂表格时(比如有多个坐标轴),模型用Python写的图表并没有完整地呈现出来。

不过问题不大,我们自己再改改就好了。毕竟,初始数据的搜索和整理,这才是最耗时的。M2.7已经帮我们把最麻烦的事情搞定了。对于分析师来说,这差不多已经节约了至少半天时间。

然后是Word研究报告。

整体23页,近万字,研报该有的它都有。

数据方面,我也随便挑了几页对比了一下,完全准确。

左边是M2.7做的研报,右边是真实的财报

当然,Word文档里的一些字体、格式、排版还是会有点小问题,但我觉得问题不大,自己手动改改就好了。

最主要是,这份近万字的研报,它竟然没有出现任何的幻觉问题,这说明M2.7在长任务上的上下文能力是真滴恐怖。

它让产出结果真实、可信,可以直接走进我们的真实工作流。

最后,再来看下它整的PPT。

这排版、UI一看就很高级,如果你让我来手搓,我是真的整不出来。

而以上这三件套,是一个Prompt完成,并不是单独生成的。这M2.7在复杂任务上的指令遵循能力,是真的强。

http://www.jsqmd.com/news/520037/

相关文章:

  • java毕业设计基于springboot昆嵛山国家级自然保护区林业资源信息管理系统
  • SLAM数据集实战:如何利用TUM、KITTI、EuRoC的真实轨迹文件进行算法评估与优化
  • 二维静态表达到三维动态建模:仓储空间管理能力的结构性升级—— 基于镜像视界“像素即坐标”与轨迹建模的空间智能体系
  • ROS2实战:当CMU自主探索算法遇上Livox MID-360,我是如何搞定实车部署的?
  • Hunyuan-MT-7B-WEBUI问题解决:部署常见错误与一键修复方案
  • 解锁FreeSWITCH隐藏功能:用API实现智能电话会议自动化
  • Activiti审批流避坑指南:SpringBoot整合时${}和#{}的5个易错点
  • CoPaw模型效果深度解析:生成高质量技术文档与代码注释
  • nRF51 SDK超低功耗BLE开发核心架构与实战
  • nlp_structbert_sentence-similarity_chinese-large 服务监控与日志排查指南
  • 用Python重现经典:Theil-Sen与Mann-Kendall分析遥感NPP数据(附完整代码与结果解读)
  • 手写签名提取工具(图片)
  • Kook Zimage真实幻想Turbo从零开始:WebUI界面功能逐项解析
  • 量子测量实战:用Python模拟薛定谔的猫实验(附完整代码)
  • 嵌入式SPI-DAC通用驱动库设计与实践
  • Spring_couplet_generation 模型部署详解:Ubuntu系统环境配置全流程
  • PP-DocLayoutV3入门指南:快速部署镜像,一键分析文档标题正文表格
  • 从“灌水神刊”到“严审阵地”:MDPI与Frontiers系列期刊发文量锐减背后的质量转向
  • R3:重塑 .NET 响应式编程的事件流处理与性能优化实践
  • FireRedASR-AED-L模型跨平台部署:从x86服务器到ARM开发板的尝试
  • Leather Dress Collection惊艳案例:Leather Shirt Skirt通勤风+皮革自然褶皱光影渲染
  • 深入解析DSP系统时钟配置与优化策略
  • SAP押注“按AI用量收费”,但真正的问题不在定价,而在价值
  • Gemma-3-12b-it部署案例:智能制造工厂设备巡检图→异常检测→维修指引
  • 数字化转型的核心引擎——全星研发项目管理软件系统APQP软件系统功能推荐
  • Linux命令行实战:从入门到精通
  • Boost入门指南:从零开始掌握C++高效工具库
  • Android双屏开发避坑指南:解决HDMI热插拔和屏幕适配的5个关键问题
  • 大华摄像头PTZ控制全解析:从HomeAssistant集成到自动化场景设计
  • Qwen3-TTS-12Hz-1.7B-VoiceDesign在教育领域的应用:智能语音课件生成系统