当前位置：首页 > news >正文

统一内存架构AI桌面小主机GB10【实测】

news 2026/6/24 10:35:40

1.AI小主机硬件情况

测试的AI小主机为国产厂商单台设备，同DGX Spark

统一内存：128GB

CPU:

GPU:

2.vllm版本

vllm容器镜像版本为0.20，旧版本对nvfp4的支持不好，显存使用率0.85，上下文256K

3.模型生成速率情况

拉取modescope模型

模型生成速率（tokens/s--t/s，截图依次如下）：

qwen3.5:27b 4t/s

qwen3.5:27b-int4 8t/s

qwen3.5-122b-a10b-int4 14.5t/s

qwen3.5-35b-a3b-int4 32t/s

qwen3.5-122b-a10b-nvfp4 31t/s

qwen3.6-35b-A3b-fp8 51t/s

qwen3.5:27b

qwen3.5:27b-int4

qwen3.5-122b-a10b-int4

qwen3.5-35b-a3b-int4

qwen3.5-122b-a10b-nvfp4

qwen3.6-35b-A3b-fp8

4.模型并发情况

主要测试了生成速率30tokens/s以上的，用户体验较好，vllm各项性能显著优于ollama，但ollama更易用。

并发测试采用了下述链接方案（参数默认，容器化部署）：

https://github.com/lework/llm-benchmark

qwen3.5-35b-a3b-int4

qwen3.5-122b-a10b-int4

qwen3.6-35b-A3b-fp8

以上对迷你AI桌面工作站的简要测试，如有不妥请批评指正！

http://www.jsqmd.com/news/775388/

相关文章：

qmcdump终极指南：快速解锁QQ音乐加密文件的完整解决方案

基于MCP协议构建日本本地化AI工具：japan-mcp-servers项目实践

东莞AI培训主流机构对比评测

基于Jetpack Compose与OpenAI API的Android聊天机器人开发实践

程序员自媒体必备：AI封面与头图批量生成实操方案

QMCDecode：Mac用户必备的QQ音乐加密文件解密终极指南

利用Taotoken实现多模型A/B测试以优化产品AI功能效果

Unity虚拟数字人开发实战：语音交互与口型同步全流程解析

qmcdump解密指南：3分钟解锁QQ音乐加密音频，让音乐自由播放

DownKyi完整教程：新手也能轻松掌握的B站视频下载神器

如何5分钟精通网页资源嗅探：猫抓扩展完整实战指南

2026年南京日立中央空调价格合理代理商排名 - mypinpai

AI智能体Devon：自主规划与执行复杂软件研发任务

DoL-Lyra游戏整合包：3分钟实现一键美化的完整解决方案

Docker——安装配置与使用

为AI编程助手加装安全层：Claw Gatekeeper风险分级与动态审批实践

如何快速掌握网页资源捕获：3个专业技巧帮你轻松搞定猫抓浏览器扩展

把2000个端子排得整整齐齐，强迫症的快乐！

MCP服务器开发指南：为AI助手构建安全可控的本地文件与应用管理能力

3步解锁Warframe音乐创作：智能演奏系统完全指南

GJB/Z 299D-2024 电子设备可靠性预计软件高效实操教程

节能酶解鱼溶浆设备推荐，龙源四方怎么样 - mypinpai

3分钟搞定QQ音乐加密文件转换：QMCDecode终极解密指南

TIDAL音乐下载神器：tidal-dl-ng完整使用教程与配置指南

浏览器视频资源智能捕获：猫抓扩展如何帮你轻松下载网页媒体内容

2026年北京哪里配近视眼镜能免费调整清洗口碑榜 - mypinpai

Windows 无缝运行 deepin 25｜WSL 离线安装全指南

解锁NVIDIA显卡隐藏潜能：5个必学的Profile Inspector高级优化技巧

AI智能体配置管理利器：create-agent-config标准化开发实践