当前位置：首页 > news >正文

ltx2.3 最强开源视频生成模型，支持图生视频、文生视频、消费级显卡可本地部署，一键整合包

news 2026/5/12 4:07:14

LTX‑2.3 是一个开源的音视频生成模型，支持从文字、图片和音频生成带有画面和声音的视频。这个模型由 Lightricks 发布，完整模型权重和代码可以开源使用，也可以在本地显卡上部署生成视频。它在 2026 年发布后在社区里引起了较多讨论，很多人用于短视频制作、模型实验和工作流程集成。([LTX][1])

LTX2.3 是什么

LTX‑2.3 是 Lightricks 发布的开源视频生成基础模型。它基于一种叫Diffusion Transformer（DiT）的架构，有大约 220 亿个参数，可以一次性生成视频和音频，不需要先生成画面再后处理配音。模型支持多种输入方式，包括：

文本生成视频（text‑to‑video）
图片生成视频（image‑to‑video）
音频驱动生成视频（audio‑to‑video）

模型可以输出最高 4K 分辨率的视频片段，并支持横屏和原生竖屏（9:16）格式，可用于适配手机端短视频平台。([LTX][1])

模型在同一次推理过程中处理画面和音频，所以输出的视频和声音是一致的，不需要后期再混合，减少了制作步骤。([Cinevva][2])

软件特点

以下是 LTX‑2.3 的一些核心特点，整理了官方说明和社区讨论：

多模态输入输出

LTX‑2.3 支持三种主要输入模式：

文本到视频：用户写一段描述语句，模型根据提示生成视频内容。
图片到视频：用户提供一张或多张图片作为参考序列，生成连续画面。
音频到视频：输入音频片段，生成画面并保持与声音同步。([AI工具集][3])

这种多模态支持让制作流程更灵活，不局限于单一方式。([LTX][1])

原生音视频同步

和很多旧版本或一些开源模型不同，LTX‑2.3 在生成过程中就已经把音频和画面放在一起输出，不需要单独配音或对齐步骤。([Cinevva][2])

支持竖屏格式

模型原生支持 9:16 竖屏输出，这是很多短视频平台需要的格式，不需要裁剪或后期调整。([LTX][1])

改进的细节和提示词处理

相比前一代 LTX‑2，LTX‑2.3 在细节表现、提示词理解、纹理表现等方面有明显提升，提示词更容易被模型准确理解。([ChooseAI][4])

生成时长和帧率

单次生成视频时长最多约 20 秒，支持不同帧率选项，例如 24、25、48、50 帧每秒，适应不同的视觉需求。([Cinevva][2])

LTX2.3 需要的硬件条件（本地部署）

在社区讨论中，有人分享了不同 VRAM 下的运行情况，说明实现本地生成视频的硬件需求并不是统一的固定标准，而是会根据分辨率和模型版本不同而变化。

建议硬件配置

显卡：RTX 4090 是理想选择，可在较高分辨率下运行；也有人在 3060 系列显卡上测试过，但需要调整参数、降低分辨率或拆分生成步骤。([Reddit][5])
显存：至少 12GB 以上显存才可能稳定运行完整 1080p 输出；更低显存需要使用量化模型或分步生成流程。([Reddit][5])
CPU、内存等：现代多核 CPU 和 32GB 以上内存可以提升整体处理性能。社区用户常见组合是如 Ryzen 9 + 64GB 内存等配置。([Reddit][6])

模型版本

官方开源仓库提供不同版本的模型权重，包括原始、量化（如 FP8）和精简版本，可以针对不同硬件选择更合适的模型。([LTX][1])

与其它开源视频生成模型对比

下面是 LTX‑2.3 和其他开源视频生成模型的一些对比，主要整理社区讨论和模型参数：

特征	LTX‑2.3	Wan 2.2	其他开源模型
核心架构	DiT（Diffusion Transformer）	类似扩散架构	不同扩散/变换架构
参数量	约 220 亿	一般较少	依具体模型
音视频同步	支持（同一次生成）	通常需要后处理	大部分不支持
本地部署	支持	支持	多数可本地运行
竖屏原生支持	有	少	多数不支持或需要裁剪
多输入支持	文/图/音	文生、图生部分支持	多数只支持文本或图片
最高分辨率	最高可到 4K	多数低于	有些可扩展
模型开放	开源权重	部分模型开源	各不相同