当前位置: 首页 > news >正文

图像、视频一模搞定!字节全能原生多模态本地可部署

字节刚刚开源了一个原生多模态全能王Lance。

仅3B激活参数,40G显存就能跑。真正的本地全能多边形战士。

已经登顶huggingface趋势榜,而且仅一天,社区已有大量量化版发布,24G以下也能玩转了。

图像与视频理解、生成、编辑统统不在话下。

问:“这个人做了一系列重复的动作。这个人做了多少个不同的重复动作?”

它能精准回答出来。

文生图

图像随意编辑

图像理解

统一的原生多模态框架

无论是X2T、X2I和X2V,所有的多任务输入,Lance都将所有输入编码为统一的MaPE(模态感知旋转位置编码)增强多模态上下文序列。

双专家骨干在共享上下文中执行广义的3D因果注意力,并产生特定任务的隐藏状态,这些状态由LM头进一步解码,用于自回归下一个令牌预测,并由flow头进一步解码用于视觉潜在空间中的速度预测。

全能的六边形战士

在DPG Bench和GenEval图像生成基准上,参数少,但多模态性能多项第一,甚至一些超越前沿开源单模态模型,如Flux,Qwen-Image。

视频生成基准超越开源,比肩闭源。

图像编辑超越GPTImage 1和Qwen-Image-Edit。

视频理解把很多专用模型按地上摩擦。

这么强的模型,你不赶紧试试!

参考资料:

https://huggingface.co/bytedance-research/Lance

https://lance-project.github.io/

https://github.com/bytedance/Lance

https://arxiv.org/pdf/2605.18678

http://www.jsqmd.com/news/865787/

相关文章:

  • 威县辰轩再生物资:密云靠谱的酒店设备回收公司选哪家 - LYL仔仔
  • 生成引擎优化(GEO)助推内容创作和用户体验的有效策略与实践分享
  • 如何快速上手BCFtools:生物信息学变异数据处理终极指南
  • Taotoken Token Plan 套餐在实际项目中的成本控制效果分析
  • 终极安全防护:YimMenu游戏增强工具完全使用指南与实战手册
  • 成都高性价比西装定制Top 5权威推荐 - 西装爱好者
  • 跨平台获取macOS安装包的终极方案:gibMacOS深度解析与技术实践
  • WuWa-Mod AES加密机制的技术实现与安全应用
  • SpaceX提交招股书,人类历史上最大IPO要来了!
  • 2026年5月最新肥东黄金回收实测:昊强黄金同步大盘、到手价最高 - 新闻全知道
  • Elasticsearch结果排序最佳实践:5种排序方法提升用户体验
  • PersistentWindows高级功能揭秘:36个快照、网页指挥官等隐藏功能详解
  • 2026年度北京离婚律师综合实力深度评测与权威榜单发布:专业力量全景透视与理性抉择指南 - 资讯速览
  • 原来挑选适合全家的床垫居然有这么多讲究?
  • 终极指南:使用Cloudscraper绕过Cloudflare反爬虫保护
  • AI Scientist-v2社区贡献指南:如何参与自动化科学发现项目开发
  • BurpBounty代码架构解析:Java扩展开发最佳实践
  • 碧蓝航线皮肤全解锁:Perseus原生库5分钟配置终极指南
  • 别等金价反弹了,在衢州卖黄金认准福运来就对了 - 黄金回收
  • OpenAI官方未公开的计费细节:上下文窗口溢出惩罚、system message权重、function calling额外token如何精准预估?
  • 实战指南:如何用Python实现专业的数字盲水印保护
  • 2026广州南沙代账怎么选?实测5家靠谱财税公司,适配南沙外贸/高新企业 - 资讯速览
  • 如何选择Pentaho Kettle 11.0:企业级数据集成的最佳实践指南
  • 杭州高性价比西装定制Top 5权威推荐 - 西装爱好者
  • OpenUtau终极指南:免费开源的跨语言歌声合成平台
  • Netlify CLI 环境变量管理:安全配置的5个关键技巧
  • 3分钟免费上手PlantUML Editor:用代码绘制专业UML图的终极指南
  • 深度解析AlphaPose骨架连接:3种高效姿态估计解决方案
  • Usertour SDK完全指南:如何在前端项目中集成用户引导功能
  • B站直播自动化革命:神奇弹幕如何通过可编程工作流提升互动效率300%