当前位置: 首页 > news >正文

TEMOS

TEMOS(Text-conditioned Motion Synthesis)是2022年提出的一个文本驱动动作生成模型,核心设计是:

文本编码器 + 动作编码器 + 动作解码器

输入文本描述 → 生成对应的3D动作序列

训练时用 KL 散度损失让文本和动作的隐空间分布对齐,让两者都趋向正态分布,方便从文本隐向量解码生成动作。

一对匹配的数据:

文本描述 → 文本编码器 → z_text

对应的真实动作序列 → 动作编码器 → z_motion

任务一:对齐: z_text 和 z_motion 尽量靠近 → 用 KL 散度损失 → 让两者的分布都趋向正态分布

任务二:文本重建 z_text → 解码器 → 重建动作序列 → 和真实动作序列尽量相似 → 用重建损失

任务三:动作重建 z_motion → 解码器 → 重建动作序列 → 和原始动作序列尽量相似 → 用重建损失

”真实动作"和"原动作"是同一个东西,都是指采集的 Ground Truth 动作序列:

任务二和任务三共享同一个解码器:

z_text ─→┐

├→ 同一个解码器 → 重建动作

z_motion─→┘

TEMOS推理/测试阶段输入只有文本,模型的任务是:
将文本编码为 latent 表示,再通过 decoder 生成对应的动作序列。

但论文使用KL散度,会把latent分布“高斯化 + 集中化”,把原本数据的“个性差异”压缩掉,压缩数据之间的差异,而FID正是依赖这些差异来衡量质量,因此会导致FID出现“虚假乐观”的失真结果。

http://www.jsqmd.com/news/573363/

相关文章:

  • Adafruit NeoMatrix 原理与坐标映射详解
  • 避开这两个坑!ESP32驱动LD3320语音识别与SYN6288语音合成的实战经验分享
  • 别再用time.sleep模拟流式了!FastAPI 2.0原生async generator流式实践(含LangChain集成、RAG流式分块、错误恢复兜底机制)
  • LCC-S无线电能传输的Pi移相控制与SS结构效果显著
  • 2.5D转真人效果对比评测:Anything to RealCharacters不同权重版本实测分析
  • **WebGPU实战进阶:用现代图形API打造高性能可视化应用**在前端开发的演进中,We
  • 通义千问1.5-1.8B-Chat实战体验:智能客服问答系统完整搭建流程
  • Awesome-Embedded资源库:嵌入式开发者的实用指南
  • 2026年AI从数字世界迈入物理世界:智源研究院十大技术趋势深度解析
  • C语言回调函数在TCP客户端中的应用与实践
  • OpenClaw任务监控:千问3.5-9B执行状态可视化
  • Android安全漏洞案例分析:血淋淋的教训
  • StreamlabsArduinoAlerts:嵌入式设备接入Twitch直播事件
  • 告别命令行!极空间部署 Portainer,搭配 cpolar 实现 Docker 公网远程管理
  • Glide框架在Java中的高效集成与动图加载实践
  • 嵌入式轻量级三自由度逆运动学库Leg
  • Mojo嵌入Python解释器踩坑实录:SIGSEGV、引用计数泄漏、线程本地存储冲突——附可直接上线的patch级修复方案
  • 3步实现高效动漫追番:Mikan Project开源客户端完全指南
  • 嵌入式技术社区运营与内容创作实践
  • **跨平台开发新范式:Flutter + Dart实战构建高性能多端应用**在移动与桌面融
  • IP-Adapter-FaceID在社交媒体中的应用:内容创作与分享
  • A/B测试、质量控制的统计基石:深入理解样本均值与方差分布的实际应用
  • OpenClaw 的模型架构中,是否使用了记忆增强神经网络(MANN)?
  • 2026年4月怎么搭建OpenClaw?腾讯云小白1分钟部署及百炼APIKey配置步骤
  • Visual C++组件维护完全指南:从问题诊断到系统优化
  • 【复现】考虑双重低碳需求响应的电力系统优化调度研究(Matlab代码实现)
  • 程序员体检报告暗语:甲状腺结节=加班等级说明书
  • TQVaultAE:突破《泰坦之旅》装备管理瓶颈的终极解决方案
  • 【Cuvil编译器实战白皮书】:Python AI推理性能提升3.7倍的架构设计图首次公开解密
  • 2026年随州AI搜索服务商深度测评:五家专业机构综合选购指南 - 2026年企业推荐榜