当前位置: 首页 > news >正文

ltx2.3 最强开源视频生成模型,支持图生视频、文生视频、消费级显卡可本地部署,一键整合包


LTX‑2.3 是一个开源的音视频生成模型,支持从文字、图片和音频生成带有画面和声音的视频。这个模型由 Lightricks 发布,完整模型权重和代码可以开源使用,也可以在本地显卡上部署生成视频。它在 2026 年发布后在社区里引起了较多讨论,很多人用于短视频制作、模型实验和工作流程集成。([LTX][1])


LTX2.3 是什么

LTX‑2.3 是 Lightricks 发布的开源视频生成基础模型。它基于一种叫Diffusion Transformer(DiT)的架构,有大约 220 亿个参数,可以一次性生成视频和音频,不需要先生成画面再后处理配音。模型支持多种输入方式,包括:

  • 文本生成视频(text‑to‑video)
  • 图片生成视频(image‑to‑video)
  • 音频驱动生成视频(audio‑to‑video)

模型可以输出最高 4K 分辨率的视频片段,并支持横屏和原生竖屏(9:16)格式,可用于适配手机端短视频平台。([LTX][1])

模型在同一次推理过程中处理画面和音频,所以输出的视频和声音是一致的,不需要后期再混合,减少了制作步骤。([Cinevva][2])


软件特点

以下是 LTX‑2.3 的一些核心特点,整理了官方说明和社区讨论:

多模态输入输出

LTX‑2.3 支持三种主要输入模式:

  • 文本到视频:用户写一段描述语句,模型根据提示生成视频内容。
  • 图片到视频:用户提供一张或多张图片作为参考序列,生成连续画面。
  • 音频到视频:输入音频片段,生成画面并保持与声音同步。([AI工具集][3])

这种多模态支持让制作流程更灵活,不局限于单一方式。([LTX][1])

原生音视频同步

和很多旧版本或一些开源模型不同,LTX‑2.3 在生成过程中就已经把音频和画面放在一起输出,不需要单独配音或对齐步骤。([Cinevva][2])

支持竖屏格式

模型原生支持 9:16 竖屏输出,这是很多短视频平台需要的格式,不需要裁剪或后期调整。([LTX][1])

改进的细节和提示词处理

相比前一代 LTX‑2,LTX‑2.3 在细节表现、提示词理解、纹理表现等方面有明显提升,提示词更容易被模型准确理解。([ChooseAI][4])

生成时长和帧率

单次生成视频时长最多约 20 秒,支持不同帧率选项,例如 24、25、48、50 帧每秒,适应不同的视觉需求。([Cinevva][2])


LTX2.3 需要的硬件条件(本地部署)

在社区讨论中,有人分享了不同 VRAM 下的运行情况,说明实现本地生成视频的硬件需求并不是统一的固定标准,而是会根据分辨率和模型版本不同而变化。

建议硬件配置

  • 显卡:RTX 4090 是理想选择,可在较高分辨率下运行;也有人在 3060 系列显卡上测试过,但需要调整参数、降低分辨率或拆分生成步骤。([Reddit][5])
  • 显存:至少 12GB 以上显存才可能稳定运行完整 1080p 输出;更低显存需要使用量化模型或分步生成流程。([Reddit][5])
  • CPU、内存等:现代多核 CPU 和 32GB 以上内存可以提升整体处理性能。社区用户常见组合是如 Ryzen 9 + 64GB 内存等配置。([Reddit][6])

模型版本

官方开源仓库提供不同版本的模型权重,包括原始、量化(如 FP8)和精简版本,可以针对不同硬件选择更合适的模型。([LTX][1])


与其它开源视频生成模型对比

下面是 LTX‑2.3 和其他开源视频生成模型的一些对比,主要整理社区讨论和模型参数:

特征LTX‑2.3Wan 2.2其他开源模型
核心架构DiT(Diffusion Transformer)类似扩散架构不同扩散/变换架构
参数量约 220 亿一般较少依具体模型
音视频同步支持(同一次生成)通常需要后处理大部分不支持
本地部署支持支持多数可本地运行
竖屏原生支持多数不支持或需要裁剪
多输入支持文/图/音文生、图生部分支持多数只支持文本或图片
最高分辨率最高可到 4K多数低于有些可扩展
模型开放开源权重部分模型开源各不相同

这是基于社区整理和用户反馈整理的对比表,不同模型在具体使用体验上可能还有差异。社区普遍认为 Wan 2.2 在某些清晰度指标上表现强,但 LTX‑2.3 在音视频同步、竖屏支持等方面具有独特优势。([Reddit][7])


下载安装包

本文配套的一键整合包下载链接可以从百度网盘获取:

链接地址:
https://pan.baidu.com/s/1y6kfxkE0ivA1Rw5o44i-Aw?pwd=lijj

请按页面提示输入提取码后下载。里面大多包含模型权重、ComfyUI 工作流和一键启动脚本。根据不同显卡和系统选择合适的版本。


安装与配置步骤(教程式)

下面是一个简单的安装和部署流程示例,假设你使用的是 Windows 环境。

1. 准备环境

  • 在显卡驱动和 CUDA 驱动上先确保安装 NVIDIA 官方最新驱动。
  • 安装 Python(建议 Python 3.10+)。
  • 确保环境变量设置正确,以便直接在命令行调用 Python。

2. 解压一键整合包

把整合包解压到合适的文件夹,例如:

D:\AI\LTX2.3\

3. 安装依赖

打开命令行终端,定位到模型主目录,运行:

pipinstall-rrequirements.txt

确保依赖顺利安装。通常会包括 PyTorch、Transformers、ComfyUI 或其他需要的库。


4. 模型权重放置

把下载的模型权重文件放置到指定文件夹,例如:

models/ltx2.3/

按照文档指引确认权重路径正确。


5. 启动生成界面或脚本

如果是一键启动配置:

python run_server.py

或者打开 ComfyUI 界面并加载 LTX‑2.3 的节点,选择对应流程(文本/图片/音频生成模板),然后输入提示词开始生成。


6. 调整输出参数

在生成过程中可以调整:

  • 输出分辨率
  • 帧率
  • 生成时长
  • 模式选择(fast、pro)

根据硬件性能选择合适设置。


社区实践经验

从一些用户反馈看,LTX‑2.3 在高显存显卡上生成视频质量平衡较好,也有人在低显存上尝试使用量化模型。权衡点在于:

  • 在低显存条件下可以降低分辨率、拆分生成阶段。([Reddit][5])
  • 使用提示词技巧可以提高生成稳定性和符合度。([Reddit][8])
  • 某些复杂人物场景可能出现细节偏差或不稳定,需要多次尝试调整。([Reddit][9])

http://www.jsqmd.com/news/799915/

相关文章:

  • ViGEmBus终极指南:3步掌握Windows游戏手柄模拟核心技术
  • 大型机场U型机坪推出等待点运行优化【附案例】
  • NotebookLM Drive整合失效诊断图谱(含HTTP 403/401错误码映射表、OAuth2作用域校验清单)
  • Sora 2生成素材在AE中频繁掉帧?20年合成老炮儿用CUDA Graph重构图层管线,性能提升3.8倍(含Profile对比图)
  • Pretticlaw:AI应用开发的工作流编排与生产部署平台
  • iPhone 17 护眼膜选购避坑:为什么说圆偏振光才是真护眼?
  • Axolotl与LLaMA-Factory对比:架构与扩展性分析-方案选型对比
  • 硅应变计与Σ-Δ ADC协同设计及温度补偿技术
  • Harness 中的动态熔断阈值调整
  • 清华研究发现:当世界模型能够通过视觉想象而非纯文本思考时,其推理方式更接近人类!
  • 谁懂啊[特殊字符]UniApp上架苹果4.3a被拒?改UI?纯纯大冤种行为!
  • 基于Gemini CLI Blueprint框架构建AI命令行工具:从原理到实践
  • AI发展速度惊人,普通人如何抓住时代红利?内含低门槛入局指南!
  • Discord集成Claude智能体:极简Docker容器化部署与安全实践
  • 使用remote2mac实现Windows远程开发macOS:VSCode SSH配置与优化指南
  • Win10/Win11下华硕笔记本Wi-Fi 6 AX201代码10的‘节能模式’陷阱与排查清单
  • 惠普开发了一架3D打印无人机,超轻、超快组装、成功试飞!
  • Linux桌面美化:pixie-cursors鼠标指针主题安装与定制指南
  • NUMA架构性能优化:Phoenix技术解析与实践
  • 智能缓存优化LibraVDB视频数据库内存管理实战
  • 线束工程化实践:从设计到测试的自动化工具链与开源资源
  • 双非二本生的逆袭:月薪4万+的大模型应用开发
  • 从零构建高性能自定义光标框架:原理、实现与插件化设计
  • GPTtrace:基于LLM的eBPF追踪数据智能分析实践
  • 2025届必备的AI写作方案实测分析
  • 开源AI工具qu-ai-wei:轻量级部署与多模型集成实践
  • 汽车电子保护:TVS二极管选型与应用指南
  • OpenClaw Deck:为Steam Deck打造开源模块化工具集
  • spawnfile:轻量级进程编排工具,提升本地开发与测试效率
  • GTA5线上小助手:5步快速掌握免费游戏增强工具完整指南