AI多模态时代来临:Google引领变革,Minimax有望成投资新宠
AI行业新趋势:Coding与多模态并进
当前,Coding时代的行业共识已经确立。阿里巴巴CEO吴泳铭在2026财年Q4财报会议上表示,尽管上调了Token价格,客户接受度依然很高,需求持续旺盛,甚至当前供应仍无法完全满足需求,仍有大量客户在排队等待服务,这道出了Coding蛋糕的庞大。与此同时,AI终于从发布会走进了企业的生产预算,阿里解决了AI是否有真实需求的问题。
Google I/O 2026:多模态能力惊艳亮相
北京时间5月20日凌晨,Google I/O 2026如期开场,这届大会的亮点是智能体与多模态能力的展示。在Gemini Omni Flash的发布中,Google对其精确定义为支持任何模态的输入,生成任何模态的输出。大会展示的视频输出只是开始,按照规划,Omni有能力实现文图音视的全模态输出,并基于Gemini的世界模型能力,生成更精确的物理效果。对Google来说,Omni是真正的超级内容创作入口,将嵌入所有创作者工作流程,创造一个比Coding想象空间更大的多模态应用市场。
多模态模型:市场影响力巨大
从行业通用定价来看,每百万tokens的价格,视频模型远高于图片和文本,意味着只要token调用量提升,视频将创造远超文本的API价值。多模态正在迎来历史性的技术拐点,2026年以Google Gemini Omni为代表的统一基座全模态模型的出现,标志着行业即将进入全新时代。
OpenAI的图像生成模型表现亮眼,GPT - 4o图像生成上线即爆红,今年发布的图像生成模型Image 2,一小时全球新增用户破180万,一周内全球活跃用户超过1.2亿,带动ChatGPT Plus订阅量环比增长23%。Google的Nano Banana 2发布实现全球测试屠榜,截至目前,Nano Banana系列累计生成图片已超过500亿张,媒体评价其正在终结PS时代。去年Google I/O大会上,VEO 3一鸣惊人,生成视频总量半年突破2.3亿条,有媒体称其挽救了谷歌的财报。
前几天Reddit用户分享的Gemini Omni的Demo引爆全球AI社区,其演示效果显示文字一致性、角色连贯性超越过往所有视频模型,且支持一键去除水印、替换物体并自适应光影等功能。与VEO相比,Google Omni是真正全模态输入、输出的模型,支持用户通过任意模态内容混合输入,生成高质量视频,同时支持对话编辑。Google高管在现场演示了具体编辑场景,用户只需对话就能精确修改视频。DeepMind首席执行官德米斯·哈萨比斯表示,未来Omni将能完成任意模态的输入及输出功能,入口覆盖Gemini应用、Google Flow和YouTube Shorts,更强版本会后续推出。
全模态模型:研发效率优势明显
统一基座的全模态模型在研发效率上更有优势,执行跨模态任务时,文本理解的提升可反哺图像和视频质量,图像和视频的训练数据又能帮助模型提升文本推理和常识判断能力,形成1 + 1>2的正向循环,这也解释了为何杨立昆、李飞飞等大牛认为多模态世界模型才是AI的未来路径。
国内市场:Minimax潜力巨大
摩根士丹利指出,中国模型市场已走到凸性爆发拐点,将复刻美国市场的超新星爆发速度,原因一是模型能力接近甚至超越美国头部产品,二是中国模型定价普遍更有优势。国内市场主要玩家现阶段叙事逻辑趋同,但Minimax在技术路线上高度接近Gemini Omni方向,有望率先在国内复刻这一生态位。
高盛将字节、阿里、Minimax三家并列,依据是Minimax独一无二的全面全模态布局,以及行业领先的高性价比、高灵活性计算架构。高盛预测,M3与Hailuo 3模型发布将成为Minimax的重要里程碑,其文本API业务毛利率将达到40%,多模态API业务毛利率达到60 - 70%,高于同行水平。瑞银将Minimax的目标价设定为1000港元,摩根大通则给到Minimax“超配”评级。
Minimax是国内唯一同时具备“文本 + 图像 + 视频 + 音频 + 音乐”全栈能力的独立大模型厂商,且各项能力均排在全球第一梯队。其全模态自研 + 全模态落地的完整性在国内独立AI企业中独树一帜,底层颠覆性的先天一体路线使其能在更低成本下实现更流畅的全感官智能。摩根士丹利测算,Minimax在8卡H800推理服务器上,每分钟可产生约1美元收入,成本低于0.3美元,而行业平均水平只有约0.5美元/分钟。招股书显示,Minimax成立以来只花了5亿美元,就站上全球多模态能力第一梯队,费用规模只有OpenAI的约1%。文本大模型M2发布时在全球权威评测Artificial Analysis中,拿下开源第一的成绩,其综合推理成本只有0.53美元/百万Token,只有Claude 4.5 Sonnet的8%,推理速度则是后者的两倍。
去年发布的Minimax的视频模型,约一个月时间已帮助全球创作者累计生成视频超过6亿个;语音模型凭借全球顶尖的超低延时,累计生成语音超过2亿小时。Minimax模型已成为全球多模态领域的核心基础设施。
Minimax:迎来三重红利
对于投资者来说,谁将在全模态的爆发中成为下一颗新星?答案很可能是Minimax,其即将吃到三重历史性的红利。
第一重红利是Token量价齐升的行业β红利,阿里巴巴2026财年财报显示,其包含百炼MaaS平台在内的AI模型与应用服务ARR已突破80亿元人民币,到年底将突破300亿元,吴泳铭证明Agent市场供不应求。摩根大通指出,当前市场主战场已从Token价格转向模型能力,技术方向与迭代速度更快的玩家将引领市场。
第二重红利是Google全模态基座模型路线催化的,多模态估值重估的行业α。过去纯文本模型公司享受了AI行情的绝大多数估值溢价,而全模态基座模型将颠覆这一认知,其商业上限远超纯文本,全模态将迎来估值拐点。
第三重是作为中国独立AI企业,Pure - Play的估值弹性红利。大厂的AI业务往往被稀释,而Minimax的模型能力是主引擎,收入全靠模型本身,纯度差异会放大增长曲线的斜率,当大模型行业爆发时,Minimax的业绩弹性更大。
即将发布的模型升级将是这场重估的冲锋号。Minimax创始人兼CEO闫俊杰透露,今年上半年发布的M3及Hailuo 3相关模型,将迈入中长篇生产级内容的直接生成阶段,届时将把平台的Token需求量再带上一至两个数量级。摩根士丹利表示,M3有望匹敌世界顶级模型性能,并展现多模态理解能力。Hailuo 3则有望复刻Seedance2.0的生态位,高盛称其将在音视频同步、编辑能力、多分镜生成领域实现质变,同时降低普通用户的制作门槛,且Hailuo 3将是Minimax全模态基座的一部分。顶尖投行普遍认为Minimax是当前AI行业最具投资价值的标的之一,当M3和Hailuo 3的发布窗口日益临近,Minimax的稀缺性将从“技术叙事”变成“财务现实”。
