当前位置: 首页 > news >正文

统一内存架构AI桌面小主机GB10【实测】

1.AI小主机硬件情况

测试的AI小主机为国产厂商单台设备,同DGX Spark

统一内存:128GB

CPU:

GPU:

2.vllm版本

vllm容器镜像版本为0.20,旧版本对nvfp4的支持不好,显存使用率0.85,上下文256K

3.模型生成速率情况

拉取modescope模型

模型生成速率(tokens/s--t/s,截图依次如下):

qwen3.5:27b 4t/s

qwen3.5:27b-int4 8t/s

qwen3.5-122b-a10b-int4 14.5t/s

qwen3.5-35b-a3b-int4 32t/s

qwen3.5-122b-a10b-nvfp4 31t/s

qwen3.6-35b-A3b-fp8 51t/s

qwen3.5:27b

qwen3.5:27b-int4

qwen3.5-122b-a10b-int4

qwen3.5-35b-a3b-int4

qwen3.5-122b-a10b-nvfp4

qwen3.6-35b-A3b-fp8

4.模型并发情况

主要测试了生成速率30tokens/s以上的,用户体验较好,vllm各项性能显著优于ollama,但ollama更易用。

并发测试采用了下述链接方案(参数默认,容器化部署):

https://github.com/lework/llm-benchmark

qwen3.5-35b-a3b-int4

qwen3.5-122b-a10b-int4

qwen3.6-35b-A3b-fp8

以上对迷你AI桌面工作站的简要测试,如有不妥请批评指正!

http://www.jsqmd.com/news/775388/

相关文章:

  • qmcdump终极指南:快速解锁QQ音乐加密文件的完整解决方案
  • 基于MCP协议构建日本本地化AI工具:japan-mcp-servers项目实践
  • 东莞AI培训主流机构对比评测
  • 基于Jetpack Compose与OpenAI API的Android聊天机器人开发实践
  • 程序员自媒体必备:AI封面与头图批量生成实操方案
  • QMCDecode:Mac用户必备的QQ音乐加密文件解密终极指南
  • 利用Taotoken实现多模型A/B测试以优化产品AI功能效果
  • Unity虚拟数字人开发实战:语音交互与口型同步全流程解析
  • qmcdump解密指南:3分钟解锁QQ音乐加密音频,让音乐自由播放
  • DownKyi完整教程:新手也能轻松掌握的B站视频下载神器
  • 如何5分钟精通网页资源嗅探:猫抓扩展完整实战指南
  • 2026年南京日立中央空调价格合理代理商排名 - mypinpai
  • AI智能体Devon:自主规划与执行复杂软件研发任务
  • DoL-Lyra游戏整合包:3分钟实现一键美化的完整解决方案
  • Docker——安装配置与使用
  • 为AI编程助手加装安全层:Claw Gatekeeper风险分级与动态审批实践
  • 如何快速掌握网页资源捕获:3个专业技巧帮你轻松搞定猫抓浏览器扩展
  • 把2000个端子排得整整齐齐,强迫症的快乐!
  • spec2026
  • MCP服务器开发指南:为AI助手构建安全可控的本地文件与应用管理能力
  • 3步解锁Warframe音乐创作:智能演奏系统完全指南
  • GJB/Z 299D-2024 电子设备可靠性预计软件高效实操教程
  • 节能酶解鱼溶浆设备推荐,龙源四方怎么样 - mypinpai
  • 3分钟搞定QQ音乐加密文件转换:QMCDecode终极解密指南
  • TIDAL音乐下载神器:tidal-dl-ng完整使用教程与配置指南
  • 浏览器视频资源智能捕获:猫抓扩展如何帮你轻松下载网页媒体内容
  • 2026年北京哪里配近视眼镜能免费调整清洗口碑榜 - mypinpai
  • Windows 无缝运行 deepin 25|WSL 离线安装全指南
  • 解锁NVIDIA显卡隐藏潜能:5个必学的Profile Inspector高级优化技巧
  • AI智能体配置管理利器:create-agent-config标准化开发实践