当前位置: 首页 > news >正文

大模型部署测试

目录
  • 查看模型路径
  • 压测命令
  • 安装压力测试工具
  • 或者用官方示例 Python 脚本
  • 实时监控显存/GPU使用率
  • 或者查看特定进程
  • top 或 htop 实时查看
  • 或者更精确

查看模型路径

curl http://127.0.0.1:8000/v1/models
{"object":"list","data":[{"id":"/data/models/Qwen1.5-14B-Chat-AWQ","object":"model","created":1768828444,"owned_by":"vllm","root":"/data/models/Qwen1.5-14B-Chat-AWQ","parent":null,"max_model_len":4096,"permission":[{"id":"modelperm-954558153c0727e8","object":"model_permission","created":1768828444,"allow_create_engine":false,"allow_sampling":true,"allow_logprobs":true,"allow_search_indices":false,"allow_view":true,"allow_fine_tuning":false,"organization":"*","group":null,"is_blocking":false}]}]}(py312) root@4eaebd1dd72f:/data/logs#
(py312) root@4eaebd1dd72f:/da

curl -X POST http://127.0.0.1:8000/v1/completions
-H "Content-Type: application/json"
-d '{
"model": "/data/models/Qwen1.5-14B-Chat-AWQ",
"prompt": "Say hello",
"max_tokens": 10
}'

压测命令

安装压力测试工具

pip install locust

或者用官方示例 Python 脚本

python -m vllm.entrypoints.benchmark
--model Qwen/Qwen-14B-2.5
--dtype float16
--batch-size 1
--num-batches 10
--max-seq-len 512
--use-8bit

实时监控显存/GPU使用率

watch -n 1 nvidia-smi

或者查看特定进程

nvidia-smi -i 0 -q -d MEMORY,UTILIZATION

top 或 htop 实时查看

htop

或者更精确

watch -n 1 "ps -eo pid,cmd,%cpu,%mem --sort=-%cpu | head -20"

http://www.jsqmd.com/news/269764/

相关文章:

  • DAY45@浙大疏锦行
  • 不会建模也能做 3D?2D 原画“充气”变动画的逃课流
  • 想在 Java 八股文面试中脱颖而出?这1000 道互联网大厂面试题必不可少!
  • 9个高效降aigc工具推荐,本科生必看!
  • 啃完阿里老哥这套Java面试八股文后,成功收获蚂蚁 offer
  • 源自新西兰的天然馈赠:Newo纽渥有机娟姗鲜牛奶,重新定义家庭健康饮奶标准 - 行业调研院
  • 致并肩前行的你:一封来自近屿智能的信
  • day154—回溯—分割回文串(LeetCode-131)
  • OpenAI和Anthropic竞相布局医疗健康领域,AI医疗浪潮已至
  • day155—回溯—组合(LeetCode-77)
  • 实用指南:零基础学AI大模型之MultiQueryRetriever多查询检索全解析
  • 基于Hough变换的答题卡识别MATLAB之旅
  • 计算机小程序毕设实战-基于django+微信小程序的运动饮食健康生活系统【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • Day23-20260119
  • C# 实现 TCP/IP 客户端与服务器数据交互及与西门子 S7 - 200Smart 通讯
  • 2026大专计算机专业学数据分析的价值分析
  • PySide系列-07-QMainWindow
  • 【计算机毕业设计案例】基于微信小程序的考研资源共享平台的设计与实现基于django+微信小程序的考研信息查询系统(程序+文档+讲解+定制)
  • c++中的常用栈操作
  • 2026/1/17-Atcoder Beginner Contest 441 T1~4
  • 群友靶机lara复现 - 场
  • 小程序毕设选题推荐:基于django+微信小程序的健康生活系统个人健康生活平台小程序【附源码、mysql、文档、调试+代码讲解+全bao等】
  • 信件分析(2)
  • 探索人脸识别追踪:从图像采集到电机驱动的奇妙旅程
  • ​​​​​​​推荐10个数据备份与恢复工具?先搞懂这3种备份方式,再选才不踩坑!
  • 手把手教你降AI不伤文:保姆级操作让论文既通过检测又保持专业
  • FPGA 实现多路高精度 AD1246 高速数据采集与接收设计
  • ACPI!gReadyQueue中的plistCtxtQ和ACPI!GetOpRegionScopeWorker函数中的赋值*state->PciObj = state->Parent
  • 2026年8款免费降AI率工具实测推荐,毕业党必看
  • 微分方程一维抛物热传导方程数值解法全解析