当前位置：首页 > news >正文

跨平台部署Hy-Embodied-0.5-VLA-UMI：支持4种真实机器人平台的技术解析

news 2026/6/17 15:53:28

跨平台部署Hy-Embodied-0.5-VLA-UMI：支持4种真实机器人平台的技术解析

【免费下载链接】Hy-Embodied-0.5-VLA-UMI项目地址: https://ai.gitcode.com/tencent_hunyuan/Hy-Embodied-0.5-VLA-UMI

Hy-Embodied-0.5-VLA-UMI是腾讯Robotics X与腾讯Hy团队联合开发的端到端视觉-语言-动作（VLA）系统，能够实现跨四种真实机器人平台的部署与迁移。本文将详细解析其跨平台部署的核心技术与实现步骤，帮助开发者快速掌握这一强大工具的应用方法。

🤖 跨平台部署的核心优势

Hy-Embodied-0.5-VLA-UMI基于Hy-Embodied-0.5 MoT骨干网络构建，通过10,000+小时的高保真UMI演示数据训练，实现了在四种真实机器人平台上的稳健跨实体迁移。其核心优势包括：

动作表示解耦：采用与实体特定运动学解耦的delta-chunk动作表示，使模型能够适应不同机器人的硬件结构
通用预训练 checkpoint：作为Hy-Embodied-0.5-VLA的预训练检查点，为下游目标实体的微调提供通用起点
高效迁移能力：在RoboTwin 2.0基准测试中达到90.9%/90.1%的Clean/Randomized任务成功率

📋 部署前的准备工作

环境要求

Python 3.8+
PyTorch 1.13+
CUDA 11.7+
至少16GB显存的GPU

必要文件

Hy-Embodied-0.5-VLA-UMI提供了部署所需的全部文件：

tencent/Hy-Embodied-0.5-VLA-UMI/ ├── model.safetensors # 模型权重 ├── config.json # HyVLA配置 ├── tokenizer.json # VLM骨干网络的分词器 ├── tokenizer_config.json ├── special_tokens_map.json ├── chat_template.jinja # 指令格式化的聊天模板 ├── preprocessor_config.json # 图像预处理配置 ├── norm_stats.pkl # 预计算的归一化统计数据 └── LICENSE

模型获取

通过以下命令克隆仓库：

git clone https://gitcode.com/tencent_hunyuan/Hy-Embodied-0.5-VLA-UMI

🔧 基础部署步骤

模型加载

使用以下代码加载预训练模型：

import torch from huggingface_hub import snapshot_download from hy_vla import HyVLA, HyVLAConfig ckpt = snapshot_download("tencent/Hy-Embodied-0.5-VLA-UMI") config = HyVLAConfig.from_pretrained(ckpt) policy = HyVLA.from_pretrained(ckpt, config=config) policy.enable_video_encoder_if_needed() # 预训练时K=1；在K>1的微调前调用此函数 policy = policy.to(device="cuda", dtype=torch.bfloat16).eval()

输入准备

模型需要以下输入数据：

# (B, K, C, H, W); K=1个历史槽位（预训练模式） img = torch.zeros(1, 1, 3, 224, 224, device="cuda", dtype=torch.bfloat16) # 归一化的双臂末端执行器状态: [xyz(3) + rot6d(6) + gripper(1)] * 2 state = torch.zeros((1, config.max_state_dim), device="cuda", dtype=torch.bfloat16) batch = { "observation.images.top_head": img, "observation.images.hand_left": img, "observation.images.hand_right": img, "observation.state": state, "task": ["pick up the bottle"], }

推理执行

with torch.no_grad(): actions = policy.forward_evaluate(batch)["pred"] actions = actions[..., : config.action_feature.shape[0]] print(actions.shape)

🎯 针对特定机器人平台的微调

Hy-Embodied-0.5-VLA-UMI设计为可微调模型，针对不同机器人平台需要进行特定微调：

RoboTwin 2.0微调示例

# 在RoboTwin 2.0上微调 export CHIEF_IP=<chief-ip> INDEX=0 bash scripts/train_robotwin_umi.sh

归一化统计数据更新

如果在新数据集上微调，可能需要重新生成归一化统计数据：

python scripts/compute_norm_lance.py \ --lance-source /path/to/your/data \ --output norm_stats.pkl

🔄 跨平台迁移的关键技术

动作表示方法

Hy-Embodied-0.5-VLA-UMI采用相对于第一帧的delta EEF块动作表示：

每臂10维：xyz + rot6d + gripper
动作时间范围：H=50（10 Hz）

异步推理框架

结合异步推理框架，Hy-VLA建立了连续灵巧操作的可扩展范式，使模型能够在不同硬件条件下保持高效推理。

偏好优化

通过FlowPRO偏好优化技术，进一步提升模型在不同平台上的表现，增强跨平台适应性。

📚 参考资源

技术报告：arXiv:2606.14409
模型配置：config.json
预处理器配置：preprocessor_config.json
聊天模板：chat_template.jinja

📝 总结

Hy-Embodied-0.5-VLA-UMI通过创新的动作表示和解耦设计，实现了在四种真实机器人平台上的高效部署与迁移。其预训练模型提供了强大的通用起点，配合针对性的微调流程，使开发者能够快速将其应用于各种机器人系统中，推动机器人操作技术的实际应用与发展。

【免费下载链接】Hy-Embodied-0.5-VLA-UMI项目地址: https://ai.gitcode.com/tencent_hunyuan/Hy-Embodied-0.5-VLA-UMI

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.jsqmd.com/news/1030517/

让音乐在屏幕上舞动：MusicWave的渐变色彩可视化魔法

2026高考参考：东北大学工商管理学院专业搭配双学位，就业前景广阔 - 品牌2026

CodeWarrior IDE 5.5菜单功能深度解析：从构建到调试的嵌入式开发实践

齿轮泵优选：2026年高温齿轮计量泵十大品牌排名 - 微流测控

IDE项目管理进阶：链接顺序、构建目标与工作区布局实战解析

Duix-Avatar：本地化数字人视频合成终极指南

资质称重双标准评测，合肥无虚高引流黄金回收门店排名 - 讯息早知道

2026年国内高精度齿轮厂家怎么选？供应商评估要点 - GrowthUME

10分钟快速掌握Isaac Lab：机器人学习框架终极实战指南

达梦数据库的基础学习

课题组协同制图实操心得，多人统一图表风格实用方法 - 品牌2026

实测深圳老牌黄金回收店，称重检测全程透明 - 讯息早知道

中国位于第一梯队的展厅设计公司有哪些？中国顶流展厅设计公司前五 - 优质品牌甄选

Windows 11安卓子系统完整配置指南：WSABuilds一站式解决方案深度解析

2026 上海卡地亚手表回收全攻略：爆款行情・鉴定要点・7 大品牌实力测评 - 薛定谔的梨花猫

从入门到精通：利用Stata的medsens包完成中介效应敏感性分析

2026埃塞俄比亚商务舱机票预订深度指南 - 奔跑123

接口文档一上传，接口测试用例自动生成？爱测平台把这个能力做出来了

多款闲置大牌包处置分享，合肥连锁二奢真实估价体验 - 讯息早知道

2026 东阳市防水补漏机构甄选榜单｜住建实测全域靠谱修缮品牌 TOP5 及片区避坑指南 - 宅安选房屋修缮

宁波手表回收｜24 小时上门，报价即到手价不砍价 - 逸程

2026年不锈钢打包机供应商推荐排行榜TOP5 - 热点速览

okbiye 跳出模板化桎梏：一套贴合高校评审标准的开题报告原生创作体系

msmarco-distilbert-base-v4代码实现原理：深入理解mean_pooling机制

终极DLL劫持实验平台：Koppeling项目核心组件与工作原理详解

2026重庆二手名表回收测评｜不限年份古董腕表变现优选排行 - 名奢变现站

基于MC33812的单缸发动机ECU硬件设计：从原理到实践

Boss-Key：Windows用户的隐私守护终极方案，一键搞定窗口隐藏难题

安徽亳州市中职中专十大排名学校2026行业测评一览：想学机电一体化专业学生必看 - 小途xt