当前位置：首页 > news >正文

LTX2.3 最强开源视频生成模型文生图 / 图生视频 / 音频驱动｜低端显卡本地安装

news 2026/7/10 22:01:28

LTX2.3 是 Lightricks 推出的开源音视频生成模型，支持文生视频、图生视频、音频驱动生成视频，原生音画同步、支持 4K / 竖屏，消费级显卡可本地部署，一键整合包开箱即用。

一、LTX2.3 是什么

LTX‑2.3 是 Lightricks 发布的开源视频生成基础模型，基于 Diffusion Transformer（DiT）架构，参数量约 220 亿。

核心能力

✅文生视频（text‑to‑video）：文字描述生成视频

✅图生视频（image‑to‑video）：图片生成连续动态视频

✅音频驱动（audio‑to‑video）：输入音频生成同步画面

✅原生音画同步：一次推理生成视频 + 音频，无需后期配音

✅4K 分辨率 + 竖屏（9:16）：适配短视频平台

二、软件核心特点

多模态输入输出文、图、音三种输入模式，覆盖短视频、内容创作、批量生成场景，灵活适配需求。
原生音视频同步区别于多数模型 “先画面后配音”，LTX2.3 同步生成音画，无需后期对齐，一步到位。
竖屏原生支持9:16 竖屏直接输出，无需裁剪，适配抖音、快手等平台。
细节与提示词优化相比前代，细节更清晰、提示词理解更准、纹理表现提升，生成效果更稳定。
时长与帧率灵活单次最长生成 20 秒视频，支持 24/25/48/50 帧，适配不同画质需求。

三、本地部署硬件要求

推荐配置

显卡：RTX 4090（最佳）；RTX 3060/4060 可跑（降分辨率）
显存：≥12GB（1080p 稳定）；8GB 需用量化模型
内存：≥32GB（复杂生成更稳）
系统：Windows 10/11、Linux

模型版本选择

官方提供原始 / FP8 量化 / 精简版，低显存优先选量化版，平衡速度与画质。

四、与主流开源模型对比

表格

特征	LTX‑2.3	Wan 2.2	其他开源模型
核心架构	DiT（扩散 Transformer）	扩散架构	多样
参数量	约 220 亿	较少	依模型而定
音视频同步	原生支持（同生成）	需后处理	多数不支持
竖屏原生支持	✅	❌	❌
多输入支持	文 / 图 / 音	文生 / 图生	多数仅文 / 图
最高分辨率	4K	低于 4K	部分可扩展
本地部署	✅	✅	多数支持

总结：LTX2.3 胜在音画同步、竖屏适配、多模态，短视频创作首选；Wan 2.2 清晰度略优。

五、一键整合包安装教程（新手友好）

第一步：下载整合包

LTX2.3 安装地址: https://pan.baidu.com/s/1j7Fci5qkl04s9p6KqDC0rQ?pwd=8888 提取码: 8888

后续会有陆续更新音频以及相应扩展插件丰富生成的各类场景视频，有兴趣的可以保存订阅

第二步：解压（避坑）

解压到纯英文路径，示例：D:\AI\LTX2.3，中文路径易报错。

第三步：环境准备

安装 NVIDIA 显卡驱动 + CUDA（适配 PyTorch）
安装 Python 3.10+

第四步：启动运行

进入目录，安装依赖：

pip install -r requirements.txt

启动界面：

python run_server.py

浏览器打开：http://127.0.0.1:7860，选择生成模式（文 / 图 / 音）

第五步：生成参数调整

分辨率：1080p（12G 显存）/720p（8G 显存）
帧率：24 帧（通用）
时长：≤20 秒
模式：fast（快速）/pro（高清）

六、使用注意事项

低显存：降分辨率、用量化模型、分段生成
提示词：精准描述细节，提升生成稳定性
复杂场景：人物 / 复杂构图易细节偏差，多试几次

总结

LTX2.3 是消费级显卡可跑的全能开源视频模型，文生 / 图生 / 音频驱动全覆盖，音画同步 + 竖屏原生支持，一键整合包免配置，短视频、自媒体、AI 创作必备。

http://www.jsqmd.com/news/820010/

相关文章：

刘强东把京东零售的钱，都“种”进了外卖、机器人和出海

18、K8S-调度管理

装机实战：Win10系统盘安装遇“找不到驱动程序”的排查与解决指南

基于MCP协议构建微信通知服务：解耦业务与通知逻辑的实践

Magnet2Torrent技术解析：磁力链接到种子文件的工程化转换方案

全域数学·体积与表面积通项定理【乖乖数学】

Arm Debugger内存操作与MMU调试实战指南

前端学习打卡Day9：CSS 关系选择器、综合实战案例|古诗鉴赏网页制作

西电B测：基于SystemView的2PSK调制解调仿真与性能分析

第5篇：电力电子行业全解析：主流岗位、薪资区间与职业发展路径

Adafruit 9-DoF IMU模块实战：从硬件连接到姿态解算与数据融合

基于MCP协议的AI智能体安全扫描器：架构、部署与实战指南

FPGA架构定义文件：开源工具链的芯片手册与核心数据源

Taotoken在高校科研项目中实现多模型API的成本可控调用

Flume数据采集工具深度解析与实战配置

深耕UE5：放下浮躁，在虚拟世界打磨创作本心

基于MCP协议集成Seedream：为AI智能体赋予图像生成能力

【AI for EDA】基于 LLM 的 UPF 自动生成：从 SpecVision 到 BusForge

基于RAG的代码语义搜索插件：为Cursor打造本地化智能代码助手

为什么你的技术方案总是被驳回？问题可能出在“翻译层”

从2.6.4到2.7.15：一次生产环境Dubbo高危漏洞修复实战

MATLAB 多图可视化进阶：巧用 tiledlayout 与 nexttile 实现统一色彩映射

告别Arduino IDE：用ESP8266和MicroPython玩点不一样的（附固件下载与烧录避坑指南）

AI开发资源管理框架：声明式配置与多源适配实践

Blinko项目解析：现代Web应用轻量化架构与性能优化实践

Cursor集成MCP服务器：本地AI开发效率革命与安全实践

电平转换器设计：多电压域通信解决方案

科技晚报｜2026年5月14日：Gemini 进系统层，开发平台开始补长期控制面

ARM GICv3中断控制器架构与寄存器解析

Unity本地化自动化实践：基于GPT的AI翻译流水线设计与部署