当前位置: 首页 > news >正文

【vLLM 学习】Save Sharded State

vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。

更多 vLLM 中文文档及教程可访问 →vllm.hyper.ai/

源码 examples/offline_inference/save_sharded_state.py

# SPDX-License-Identifier: Apache-2.0 """ 将每个工作进程(worker)的模型状态字典直接保存到检查点, 这为大型张量并行模型提供了快速加载路径 - 每个工作进程只需读取自己的分片, 而无需读取整个检查点。 示例用法: python save_sharded_state.py \ --model /path/to/load \ --quantization deepspeedfp \ --tensor-parallel-size 8 \ --output /path/to/save Then, the model can be loaded with llm = LLM( model="/path/to/save", load_format="sharded_state", quantization="deepspeedfp", tensor_parallel_size=8, ) """ import dataclasses import os import shutil from pathlib import Path from vllm import LLM, EngineArgs from vllm.utils import FlexibleArgumentParser parser = FlexibleArgumentParser() EngineArgs.add_cli_args(parser) parser.add_argument("--output", "-o", required=True, type=str, help="path to output checkpoint") parser.add_argument("--file-pattern", type=str, help="string pattern of saved filenames") parser.add_argument("--max-file-size", type=str, default=5 * 1024**3, help="max size (in bytes) of each safetensors file") def main(args): engine_args = EngineArgs.from_cli_args(args) if engine_args.enable_lora: raise ValueError("Saving with enable_lora=True is not supported!") model_path = engine_args.model if not Path(model_path).is_dir(): raise ValueError("model path must be a local directory") # Create LLM instance from arguments # 从参数创建 LLM 实例 llm = LLM(**dataclasses.asdict(engine_args)) # Prepare output directory # 准备输出目录 Path(args.output).mkdir(exist_ok=True) # Dump worker states to output directory # 转储工作进程状态到输出目录 model_executor = llm.llm_engine.model_executor model_executor.save_sharded_state(path=args.output, pattern=args.file_pattern, max_size=args.max_file_size) # Copy metadata files to output directory # 将元数据文件复制到输出目录 for file in os.listdir(model_path): if os.path.splitext(file)[1] not in (".bin", ".pt", ".safetensors"): if os.path.isdir(os.path.join(model_path, file)): shutil.copytree(os.path.join(model_path, file), os.path.join(args.output, file)) else: shutil.copy(os.path.join(model_path, file), args.output) if __name__ == "__main__": args = parser.parse_args() main(args)
http://www.jsqmd.com/news/302908/

相关文章:

  • 固件烧录失败故障分析与应对策略
  • GitHub 热榜项目-日榜精选(2026-01-26)|AI生态、多语言生态、实用工具与大厂项目 | mlx-audio、PageIndex、remotion等
  • SpringBoot如何实现大文件上传下载?
  • 讲讲汽车座椅发泡生产线,领新机械技术强服务优
  • 2026年实力强的少儿专注力培训机构怎么选,天使英才是优选
  • 2026年度讲讲口碑不错的无尘车间工程服务商价格与靠谱推荐
  • 细聊专业热解炉网带工厂,西北地区选购哪家更靠谱?
  • 2026年裂解炉网带推荐,西北地区靠谱厂家大揭秘
  • 上海仓储物流价格怎么收费,上海佳莘仓储物流费用高吗
  • 微软MOS认证2月份考试时间
  • Selenium 截图与元素高亮定位技巧
  • Selenium 与 BeautifulSoup 结合解析页面
  • 第 2 章 从 C 代码到机器码:零基础全流程实操(基于 Ubuntu 24.04)
  • 第1章 从C代码到机器指令:完整编译流程解析
  • 新中式服装2026年推荐排行,解锁东方美学新风尚,新中式服装排行榜精选优质品牌助力工程采购
  • Excel金钱函数实战:用DOLLAR/RMB函数实现智能数字格式化
  • 构建高可用ISBN查询服务的技术实践:架构演进与性能优化
  • 数学建模论文的高效复现方法有哪些?10款AI写作工具帮你轻松搞定
  • AI赋能传媒科技创新研究报告 - 详解
  • 10个AI写作神器,让你的数学建模论文复现效率翻倍
  • 想高效复现数学建模论文?这10个AI写作助手不可错过
  • 汽车座椅发泡生产线厂家哪家性价比高,领新机械值得考虑
  • 聊聊旋转蒸发器与普通蒸馏区别,大型、小型供应商靠谱的有哪些
  • 讲讲国内知名的洁净板源头厂家,哪个品牌口碑比较好
  • 2026年洁净板优质厂家排名,靠谱供应商推荐,教你如何选择
  • 2026年服务不错的大米工厂推荐,新孖公仔在肇庆云浮等地表现如何
  • 2026年半导体石英管价格分析,专业的石英管源头厂家怎么收费
  • 2026年高压发泡机生产商排名,领新机械等十大品牌推荐
  • 2026年染发剂代加工品牌推荐,广州靠谱厂家深度盘点
  • 深聊净化板加工厂,靠谱的品牌有哪些