当前位置：首页 > news >正文

阶跃星辰开源模型STEP3-VL-10B训练策略

news 2026/7/7 3:20:43

文章目录

- - 架构
  - 训练流程

https://www.modelscope.cn/models/stepfun-ai/Step3-VL-10B

策略：
统一的全解冻预训练

架构

视觉编码器：PE-lang（语言优化的感知编码器），18亿参数。
解码器：Qwen3-8B。
投影层：两个连续的stride-2层（实现16倍空间下采样）。
分辨率：多裁剪策略，包含一个728×728的全局视图和多个504×504的局部裁剪。

训练流程

预训练：单阶段、完全非冻结策略，使用AdamW优化器（总计：1.2T tokens，370K步）。

阶段1：900B tokens。
阶段2：300B tokens。

监督微调（SFT）：两阶段方法（总计：约226B tokens）。

阶段1：文本到多模态比例为9:1（约190B tokens）。
阶段2：文本到多模态比例为1:1（约36B tokens）。

强化学习：总计>1,400轮迭代。

RLVR：600轮迭代（任务：数学、几何、物理、感知、定位）。
RLHF：300轮迭代（任务：开放式生成）。
PaCoRe训练：500轮迭代（上下文长度：最大序列长度64K）。

from modelscopeimportAutoProcessor, AutoModelForCausalLM key_mapping={"^vision_model":"model.vision_model", r"^model(?!\.(language_model|vision_model))":"model.language_model","vit_large_projector":"model.vit_large_projector",}model_path="stepfun-ai/Step3-VL-10B"processor=AutoProcessor.from_pretrained(model_path,trust_remote_code=True)messages=[{"role":"user","content":[{"type":"image","url":"https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},{"type":"text","text":"What's in this picture?"}]},]model=AutoModelForCausalLM.from_pretrained(model_path,trust_remote_code=True,device_map="auto",torch_dtype="auto",key_mapping=key_mapping).eval()inputs=processor.apply_chat_template(messages,add_generation_prompt=True,tokenize=True,return_dict=True,return_tensors="pt").to(model.device)generate_ids=model.generate(**inputs,max_new_tokens=1024,do_sample=False)decoded=processor.decode(generate_ids[0, inputs["input_ids"].shape[-1]:],skip_special_tokens=True)print(decoded)