当前位置: 首页 > news >正文

阶跃星辰开源模型STEP3-VL-10B训练策略

文章目录

      • 架构
      • 训练流程

https://www.modelscope.cn/models/stepfun-ai/Step3-VL-10B

策略:
统一的全解冻预训练


架构

视觉编码器:PE-lang(语言优化的感知编码器),18亿参数。
解码器:Qwen3-8B。
投影层:两个连续的stride-2层(实现16倍空间下采样)。
分辨率:多裁剪策略,包含一个728×728的全局视图和多个504×504的局部裁剪。

训练流程

预训练:单阶段、完全非冻结策略,使用AdamW优化器(总计:1.2T tokens,370K步)。

  • 阶段1:900B tokens。
  • 阶段2:300B tokens。

监督微调(SFT):两阶段方法(总计:约226B tokens)。

  • 阶段1:文本到多模态比例为9:1(约190B tokens)。
  • 阶段2:文本到多模态比例为1:1(约36B tokens)。

强化学习:总计>1,400轮迭代。

  • RLVR:600轮迭代(任务:数学、几何、物理、感知、定位)。
  • RLHF:300轮迭代(任务:开放式生成)。
  • PaCoRe训练:500轮迭代(上下文长度:最大序列长度64K)。

from modelscopeimportAutoProcessor, AutoModelForCausalLM key_mapping={"^vision_model":"model.vision_model", r"^model(?!\.(language_model|vision_model))":"model.language_model","vit_large_projector":"model.vit_large_projector",}model_path="stepfun-ai/Step3-VL-10B"processor=AutoProcessor.from_pretrained(model_path,trust_remote_code=True)messages=[{"role":"user","content":[{"type":"image","url":"https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},{"type":"text","text":"What's in this picture?"}]},]model=AutoModelForCausalLM.from_pretrained(model_path,trust_remote_code=True,device_map="auto",torch_dtype="auto",key_mapping=key_mapping).eval()inputs=processor.apply_chat_template(messages,add_generation_prompt=True,tokenize=True,return_dict=True,return_tensors="pt").to(model.device)generate_ids=model.generate(**inputs,max_new_tokens=1024,do_sample=False)decoded=processor.decode(generate_ids[0, inputs["input_ids"].shape[-1]:],skip_special_tokens=True)print(decoded)
http://www.jsqmd.com/news/437407/

相关文章:

  • 嵌入式T9拼音输入法设计与实现
  • 避坑指南:Ubuntu 20.04安装4080 Super驱动时如何解决nouveau冲突和签名问题
  • LeagueAkari智能助手:英雄联盟效率提升工具集
  • Elsevier期刊LaTeX投稿避坑指南:从文件上传到基金选项的全流程解析
  • PotatoTool V2.3深度解析:红队功能升级与实战应用指南
  • 5个显卡调校心法:NVIDIA Profile Inspector让你释放显卡隐藏性能
  • iOS开发者注意:第三方库隐私清单缺失?手把手教你添加PrivacyInfo.xcprivacy文件
  • Lingyuxiu MXJ LoRA数学建模实战:风格参数优化
  • DeOldify部署审计清单:防火墙规则/端口暴露/认证机制合规检查
  • FATFS底层diskio接口原理与嵌入式移植实战
  • 9.1M轻量级时间序列预测:Granite FlowState R1保姆级教程,小白也能玩转
  • C++动态数组越界踩坑实录:HEAP CORRUPTION DETECTED错误排查指南(附VLD检测)
  • Qwen3-Embedding-4B适合什么场景?金融合同分析案例详解
  • NEURAL MASK 开发环境配置:使用 Anaconda 管理 Python 依赖与虚拟环境
  • XUnity Auto Translator:Unity游戏实时翻译插件解决方案
  • 保姆级教程:Flutter打包避坑指南——解决Gradle assembleRelease卡死问题
  • 基于Chandra的智能招聘系统开发实践
  • 零基础玩转国风AI绘画:LiuJuan20260223Zimage 5分钟快速部署教程
  • ComfyUI Ollama节点502错误终极解决指南(附详细排查步骤)
  • 免费体验东方美学!LiuJuan国风生成模型快速上手,生成你的第一张汉服图
  • Qwen3-ASR-1.7B跨语言会议系统:实时翻译与转录解决方案
  • 手把手教你部署HY-1.8B-2Bit-GGUF:腾讯混元模型在CSDN的保姆级教程
  • 智能家居新手必看:Matter协议下Wi-Fi与Thread的实战选择指南
  • NVIDIA Profile Inspector深度指南:释放显卡潜能的高级配置工具
  • UniApp弹窗手势冲突?教你分分钟搞定iOS和Android的滑动返回问题
  • Nunchaku FLUX.1 CustomV3模型架构解析:理解图像生成的底层原理
  • 2024最新可用!Docker国内镜像源一键配置指南(附实测推荐列表)
  • 5090显卡一键部署LiveTalk数字人(512x512分辨率+解决KV Cache溢出)
  • Vue FullPage.js 实战技巧:打造企业级全屏滚动应用的5个关键优化点
  • 2026护网复盘行业寄语:攻防不止,深耕不辍,做长期主义安全人