当前位置: 首页 > news >正文

Rex-Omni 开始

Rex-Omni 是一个 3B 参数多模态模型,它将视觉感知任务统一到一个“下一点预测”框架中。

  • 主页: https://rex-omni.github.io/
  • 代码: https://github.com/IDEA-Research/Rex-Omni

其支持的任务有:物体检测、OCR、指向、关键点定位、视觉提示。

官方 README 有详细说明,包括各任务的示例。以下是个人的实践手记 ✌️

环境

准备 Conda 环境,

conda create -n rexomni python=3.10 -y
conda activate rexomni# Install PyTorch (CPU version)
pip install torch torchvision
# Install PyTorch with CUDA (version <= nvidia-smi shown)
#  https://pytorch.org/get-started/locally
pip install torch==2.7.0 torchvision --index-url https://download.pytorch.org/whl/cu128

准备 Rex-Omni,

git clone --depth 1 https://github.com/IDEA-Research/Rex-Omni.git
cd Rex-Omni
pip install -r requirements.txt
pip install -v -e .

如遇 flash-attn 安装错误,

# 直接安装预编译的 flash-attn
wget https://github.com/Dao-AILab/flash-attention/releases/download/v2.7.4.post1/flash_attn-2.7.4.post1+cu12torch2.7cxx11abiTRUE-cp310-cp310-linux_x86_64.whl
pip install ./flash_attn-*.whl# 或编译安装 flash-attn
#  https://github.com/dao-ailab/flash-attention
conda install -c nvidia cuda=12.8
# pip install -U pip setuptools
pip install packaging psutil ninja
MAX_JOBS=4 pip install flash-attn --no-build-isolation# 检查 flash-attn 版本(注意版本要求)
#  Rex-Omni: flash-attn==2.7.4.post1
#  xformers: flash-attn>=2.7.1,<=2.7.4
python -c "import flash_attn; print(flash_attn.__version__)"

推理

# Use model: Rex-Omni-AWQ, not Rex-Omni
#  vLLM params adjusted to reduce HBM usage
HF_ENDPOINT=https://hf-mirror.com python practice/Rex-Omni/infer_awq.py
# HF_ENDPOINT=https://hf-mirror.com python practice/Rex-Omni/infer.py# Notice:
#  Cannot use FlashAttention-2 backend for Volta and Turing GPUs

代码,

  • infer_awq.py

结果,

训练

  • Fine-tuning Guide

结语

Let's Go Coding ~

http://www.jsqmd.com/news/769352/

相关文章:

  • ix6780,ip87800,mg3580,mg3680,mg3620,TS3380,TS3340,X6800,iB4180报错5B00,P07,E08,1700,5b04废墨垫清零,亲测有用。
  • ngx_http_init_connection
  • 2026年第二季度国内化工流量计厂家深度解析与选型指南 - 流量计品牌
  • 进口真空烘箱/智能烘箱哪个厂家品质好 实力派制造企业榜单 - 品牌推荐大师1
  • 2026年新疆三元催化器专业公司推荐榜TOP5 - 速递信息
  • 别再为抓不到FPGA信号发愁了!手把手教你用Vivado的VIO IP核做精准调试
  • 告别速度模糊:手把手教你用TI AWR2944的DDMA波形提升毫米波雷达性能
  • 观察大流量并发请求下API聚合服务的稳定性表现
  • CCAA补考政策是什么? - 众智商学院官方
  • 【云藏山鹰代数信息系统】浅析意气实体过程知识图谱12
  • 娱乐圈天降紫微星终现真身,海棠山铁哥不靠人间资源靠天道
  • 大学生备考CFA|揽星CFA APP零成本助力,课业备考双兼顾不内耗 - 速递信息
  • 轻量级网络节点推送工具:Go语言实现的自托管消息推送服务
  • Honey Select 2终极汉化补丁:3步告别日语障碍,畅享中文游戏体验
  • 2026珠三角企业团建复购率排行:5家客户粘性高的服务商,含满意度95%、80%复购率、全周期复盘报告等 - 速递信息
  • 陪同翻译推荐公司有哪些?北京这家口译公司口碑稳、性价比高 - 品牌推荐大师1
  • FastMCP 服务说明文档
  • 语音打断、流式播报、前置指令:打造工业级AI语音交互体验
  • Coolapk-UWP:重新定义Windows桌面上的酷安社区体验
  • Swin Transformer注意力计算复杂度为何比全局注意力少那么多?
  • BiliDownload:3分钟掌握B站视频下载的终极免费方案
  • TVA与CNN的历史性对决(19)
  • AISMM认证全流程时间轴:22个工作日压缩至11天的实战策略(含SITS2026独家加急通道申请模板)
  • 微信立减金回收怎么操作最安全靠谱?避开骗局快速变现 - 米米收
  • 3步掌握MTK设备救砖:从黑屏到正常启动的完整指南
  • 国产AI模型平台崛起:模力方舟如何破解HuggingFace本土化困境
  • 别再死记硬背了!用Vivado手把手教你配置RFSoC的ADC混频器(Fine/IQ模式详解)
  • 别再死磕OPC DA了!手把手教你用OPC UA搞定跨平台工业数据采集(附Python示例)
  • Python开发在数据分析领域的应用探索
  • 使用 Taotoken 后 API 调用成功率与延迟的直观观测体验