当前位置：首页 > news >正文

京东开源全球首个全栈实时视频视觉语言交互模型，对比竞品胜率最高达87.9%

news 2026/6/23 5:26:38

【导语：近日，京东开源了实时视频视觉语言交互模型JoyAI-VL-Interaction，这是全球首个全栈开源的interaction模型和系统，能让大模型从“一问一答”走向“边看边说”，在评测中对比竞品优势明显。】

京东近日开源的JoyAI-VL-Interaction，是全球首个全栈开源的interaction模型和系统，还获得了vLLM-Omni的day-0原生支持。此模型让大模型从传统的“一问一答”模式转变为“边看边说”，开发者基于该框架能快速搭建实景AI助手，可实现持续观察、自主判断和即时响应。

相比传统模型，JoyAI-VL-Interaction有三重显著突破。首先是主动判断，传统模型需等用户发起问题才处理画面，而它能持续观察视频流，自主判断何时说话或沉默。例如用户设置“裁判出示红牌时提醒我”，模型会自动预警。

其次是实时响应，传统视频理解多在上传完整视频后分析，而它面向正在发生的视频流，画面变化时就能响应，在安防预警等场景中更具价值。最后是适时智能体委托，它具备后台任务委派能力，遇到复杂任务可交给后台大模型或Agent，前台继续观察，开启了AI与人类协作的新范式。

JoyAI-VL-Interaction支持摄像头、直播流、监控流等多种视频输入，也支持语音输入输出、可视化界面等。其ASR、TTS等组件都可按需替换，开发者能接入自己的语音服务、Agent等，具有很高的灵活性。

在评测中，JoyAI-VL-Interaction覆盖多个真实流式场景。在58个真人盲评案例中，对比豆包视频通话助手总体胜率达77.6%，对比Gemini视频通话助手总体胜率达87.9%，尤其在监控预警场景中对两个基线均取得100%胜率。

编辑观点：京东开源的JoyAI-VL-Interaction为实时视频交互领域带来新突破，其三重优势和高灵活性使其在实际应用中表现出色，有望推动相关产业发展。