当前位置: 首页 > news >正文

嘴型训练数据集 嘴型数据集 可用于训练wav2lip模型 史上最数字人嘴型训练数据集

史上最数字人嘴型训练数据集,样本超1000个,话语实例超550000个,可用于训练wav2lip模型!数据量巨大,约66g,
1

史上最强数字人嘴型训练数据集(LRW-1000 / CAS-VSR-W1k)

  • 样本超1000 人,话语实例超550,000 条,可直接用于训练Wav2Lip等嘴型同步模型
  • 原始数据体量巨大,约66GB,高清视频+音频配对,覆盖年龄、性别、语速、表情、光照、多视角
  • 场景丰富:新闻播报、日常对话、访谈等,真实自然,泛化能力强
  • 用途:数字人直播、虚拟主播、短视频对口型、AI 换嘴、唇语识别、语音驱动面部动画
  • 格式:视频(MP4)+ 对应音频(WAV)+ 文本标注,开箱即用,适配 Wav2Lip、SadTalker、GeneFace++

数据集信息表

项目内容
数据集名称LRW-1000(CAS-VSR-W1k)
说话人数≥1000 人
话语实例≥550,000 条
数据大小约 66GB
数据格式视频 MP4 + 音频 WAV + 文本标注
适用模型Wav2Lip、SadTalker、GeneFace++、唇语识别等
场景覆盖新闻、访谈、日常对话、多光照、多视角

环境准备(Wav2Lip)

conda create-nwav2lippython=3.8conda activate wav2lip pipinstalltorch==1.10.0torchvision==0.11.0 pipinstallopencv-python ffmpeg-python pillow pipinstalllibrosa numpy

数据集准备与目录结构

lrw1000/ ├── videos/ # 所有视频.mp4 ├── audios/ # 对应音频.wav ├── transcripts/ # 文本标注.txt ├── train.txt # 训练集列表 ├── val.txt # 验证集列表 └── test.txt # 测试集列表

格式转换(统一提取人脸+对齐音频)

importcv2importlibrosaimportosdefextract_face_and_audio(video_path,out_img_dir,out_audio_dir):os.makedirs(out_img_dir,exist_ok=True)os.makedirs(out_audio_dir,exist_ok=True)# 提取人脸帧cap=cv2.VideoCapture(video_path)idx=0whileTrue:ret,frame=cap.read()ifnotret:breakcv2.imwrite(f"{out_img_dir}/{idx:06d}.jpg",frame)idx+=1cap.release()# 提取音频y,sr=librosa.load(video_path,sr=16000)librosa.output.write_wav(f"{out_audio_dir}/audio.wav",y,sr)# 批量处理withopen("train.txt")asf:lines=f.read().splitlines()forlineinlines:extract_face_and_audio(f"lrw1000/videos/{line}.mp4",f"lrw1000/preprocessed/train/{line}",f"lrw1000/preprocessed/train/{line}")

配置文件(wav2lip.yaml)

data_root:"lrw1000/preprocessed"train_list:"train.txt"val_list:"val.txt"img_size:96fps:25sample_rate:16000batch_size:32epochs:50lr:0.001

模型训练代码

fromultralyticsimportYOLOimporttorchfromwav2lip.modelsimportWav2Lip model=Wav2Lip()model.cuda()# 加载数据、优化器、损失函数省略...forepochinrange(50):model.train()forbatchintrain_loader:imgs,audios,targets=batch imgs,audios,targets=imgs.cuda(),audios.cuda(),targets.cuda()outputs=model(imgs,audios)loss=criterion(outputs,targets)loss.backward()optimizer.step()print(f"Epoch{epoch}, Loss:{loss.item()}")torch.save(model.state_dict(),f"checkpoints/epoch_{epoch}.pth")

推理代码(生成嘴型同步视频)

fromwav2lipimportinferenceimportcv2 face_img="test_face.jpg"audio_path="test_audio.wav"out_path="result.mp4"inference.run(face=face_img,audio=audio_path,outfile=out_path,checkpoint_path="checkpoints/best.pth")print("✅ 生成完成:",out_path)

评估代码(计算LSE、同步误差)

importnumpyasnpfromwav2lip.metricsimportcalculate_lse pred_video="result.mp4"gt_video="ground_truth.mp4"lse=calculate_lse(pred_video,gt_video)print(f"LSE(唇形同步误差):{np.mean(lse):.4f}")
http://www.jsqmd.com/news/913077/

相关文章:

  • 2026年5月新发布:探寻智能水电气集中供料系统领域实力强劲的批发厂家 - 2026年企业资讯
  • 实战指南:用Python复现ICLR 2021的聚类友好表征学习(附Instance Discrimination与Feature Decorrelation代码)
  • 3分钟掌握Sketchfab下载神器:Firefox用户脚本完全指南
  • 从原理到代码,拆解 Transformer 自注意力机制与多头结构
  • 3步搞定抖音无水印下载:douyin-downloader高效工作流全解析
  • 基于ESP32-S3的便携式鼓机:从PWM音频合成到3D打印外壳的完整DIY实践
  • 2026年Q2佛山靠谱标签定制厂家排行及参考:佛山定制印刷公司电话/佛山市印刷公司电话/佛山标签定制厂家电话/印刷公司哪家好/选择指南 - 优质品牌商家
  • 保姆级教程:用CCS12.1+TI Clang搞定CC2340开发环境(附Sysconfig和FreeRTOS配置)
  • 2026自贡提供免费量房出方案家装品牌排行:自贡装修设计效果图定制、自贡诚信透明报价装修、自贡轻奢风装修设计预算选择指南 - 优质品牌商家
  • 为什么92%的工程师写不好Claude回溯?揭秘3个被教科书忽略的语义约束建模原则
  • Lindy玩家支持自动化落地难题:3类高频故障的根因分析与5分钟应急响应SOP
  • 避开这些坑!用CA3140运放设计电荷放大器时,90%新手会忽略的细节(附低通滤波器参数计算)
  • AWS EC2 Windows Server 2012升级2016实战:从备份到SSM修复的完整避坑手册
  • 2026年河南省央美推荐画室排行:平顶山艺考画室、开封艺考画室、新乡艺考画室、沈丘画室、河南省央美推荐画室、河南省清华推荐画室选择指南 - 优质品牌商家
  • 丰宝斋上门回收:一次托付,一生信赖,老字号从不让藏家失望 - 深鉴新闻
  • 异步里捕获 this?我被坑到想哭
  • 2026年淬火炉实测评测:主流品牌核心性能对比 - 优质品牌商家
  • 【AI面试临阵磨枪-087】Skill 生命周期:注册、加载、调度、熔断、卸载、版本管理?
  • 10 基础阶段综合实战
  • 麒麟Kylin桌面版网络配置保姆级教程:从插网线到连隐藏Wi-Fi,一次搞定
  • Silicon Graphics 030-0686-004图形控制板卡
  • 2026年5月新消息:江苏省内信誉与实力兼备的奥迪双离合维修服务商深度解析 - 2026年企业资讯
  • 056、HDR 合成后画面诡异、发灰?多曝光对齐、鬼影消除与 Tone Mapping 调优方案
  • 当Lindy遇上低代码:构建“越运行越可信”的自动化系统,这4个反直觉设计决策决定成败
  • 成都H型钢供应商|盛世钢联国标现货批发,钢厂直供仓储中心 - 四川盛世钢联营销中心
  • Cadence OrCAD层次化设计进阶:像管理代码分支一样管理你的电路模块
  • 四川灭火器维修充装正规机构排行:写字楼灭火器维修、工厂灭火器维修、工地灭火器回收充装、干粉灭火器充装、废旧灭火器回收选择指南 - 优质品牌商家
  • 成都H型钢经销商|盛世钢联国标现货批发,钢厂直供仓储中心 - 四川盛世钢联营销中心
  • Amazon RDS 蓝绿部署完全指南
  • Claude研究报告生成:从零到专业级输出的7步标准化工作流(含Prompt工程黄金公式)