当前位置：首页 > news >正文

图像、视频一模搞定！字节全能原生多模态本地可部署

news 2026/7/12 11:18:25

字节刚刚开源了一个原生多模态全能王Lance。

仅3B激活参数，40G显存就能跑。真正的本地全能多边形战士。

已经登顶huggingface趋势榜，而且仅一天，社区已有大量量化版发布，24G以下也能玩转了。

图像与视频理解、生成、编辑统统不在话下。

问：“这个人做了一系列重复的动作。这个人做了多少个不同的重复动作？”

它能精准回答出来。

文生图

图像随意编辑

图像理解

统一的原生多模态框架

无论是X2T、X2I和X2V，所有的多任务输入，Lance都将所有输入编码为统一的MaPE（模态感知旋转位置编码）增强多模态上下文序列。

双专家骨干在共享上下文中执行广义的3D因果注意力，并产生特定任务的隐藏状态，这些状态由LM头进一步解码，用于自回归下一个令牌预测，并由flow头进一步解码用于视觉潜在空间中的速度预测。

全能的六边形战士

在DPG Bench和GenEval图像生成基准上，参数少，但多模态性能多项第一，甚至一些超越前沿开源单模态模型，如Flux，Qwen-Image。

视频生成基准超越开源，比肩闭源。

图像编辑超越GPTImage 1和Qwen-Image-Edit。

视频理解把很多专用模型按地上摩擦。

这么强的模型，你不赶紧试试！

参考资料：

https://huggingface.co/bytedance-research/Lance

https://lance-project.github.io/

https://github.com/bytedance/Lance

https://arxiv.org/pdf/2605.18678

查看全文

http://www.jsqmd.com/news/865787/

威县辰轩再生物资：密云靠谱的酒店设备回收公司选哪家 - LYL仔仔

生成引擎优化(GEO)助推内容创作和用户体验的有效策略与实践分享

如何快速上手BCFtools：生物信息学变异数据处理终极指南

Taotoken Token Plan 套餐在实际项目中的成本控制效果分析

终极安全防护：YimMenu游戏增强工具完全使用指南与实战手册

成都高性价比西装定制Top 5权威推荐 - 西装爱好者

跨平台获取macOS安装包的终极方案：gibMacOS深度解析与技术实践

WuWa-Mod AES加密机制的技术实现与安全应用

SpaceX提交招股书，人类历史上最大IPO要来了！

Elasticsearch结果排序最佳实践：5种排序方法提升用户体验

PersistentWindows高级功能揭秘：36个快照、网页指挥官等隐藏功能详解

2026年度北京离婚律师综合实力深度评测与权威榜单发布：专业力量全景透视与理性抉择指南 - 资讯速览

原来挑选适合全家的床垫居然有这么多讲究？

终极指南：使用Cloudscraper绕过Cloudflare反爬虫保护

AI Scientist-v2社区贡献指南：如何参与自动化科学发现项目开发

BurpBounty代码架构解析：Java扩展开发最佳实践

碧蓝航线皮肤全解锁：Perseus原生库5分钟配置终极指南

别等金价反弹了，在衢州卖黄金认准福运来就对了 - 黄金回收

OpenAI官方未公开的计费细节：上下文窗口溢出惩罚、system message权重、function calling额外token如何精准预估？

实战指南：如何用Python实现专业的数字盲水印保护

2026广州南沙代账怎么选？实测5家靠谱财税公司，适配南沙外贸/高新企业 - 资讯速览

如何选择Pentaho Kettle 11.0：企业级数据集成的最佳实践指南

杭州高性价比西装定制Top 5权威推荐 - 西装爱好者

OpenUtau终极指南：免费开源的跨语言歌声合成平台

Netlify CLI 环境变量管理：安全配置的5个关键技巧

3分钟免费上手PlantUML Editor：用代码绘制专业UML图的终极指南

深度解析AlphaPose骨架连接：3种高效姿态估计解决方案

Usertour SDK完全指南：如何在前端项目中集成用户引导功能

B站直播自动化革命：神奇弹幕如何通过可编程工作流提升互动效率300%

问：“这个人做了一系列重复的动作。这个人做了多少个不同的重复动作？”

文生图

图像随意编辑

图像理解

统一的原生多模态框架

全能的六边形战士

相关文章：