当前位置：首页 > news >正文

Strix Halo 性能揭秘，端侧 AI 推理的新势力

news 2026/7/1 7:27:36

为什么 Strix Halo 让端侧 AI 变了天

最近拿到一台搭载 AMD Strix Halo 芯片的工程机，第一反应不是跑分，而是终于能在笔记本上“舒服”地跑大模型了。以前用 Ryzen AI 7040/8040 系列时，跑个 7B 模型还得小心翼翼，生怕风扇起飞或者电量尿崩。但 Strix Halo 这次把 Radeon GPU 的规模直接拉到了桌面级水平，配合全新的 NPU 架构，让本地推理这件事从“能跑”变成了“好用”。

这次我不聊那些虚头巴脑的理论参数，直接上干货。我会基于真实的开发场景，测试在 Strix Halo 上运行 Ollama 和 LM Studio 的实际表现，看看它在功耗、发热以及 NPU 与 GPU 协同工作上的真实效率。如果你正考虑入手一台能随时跑 AI 的移动工作站，这篇实战记录或许能给你最直观的参考。

环境搭建：Ollama 与 LM Studio 的实测体验

在 Strix Halo 上部署本地大模型，最大的惊喜是“无感”。不需要像服务器那样折腾 ROCm 驱动编译或者配置复杂的环境变量，消费级的生态已经相当成熟。

首先是Ollama。在 Linux 环境下（我使用的是 Ubuntu 22.04），安装过程依然是那条熟悉的命令，但背后的调度逻辑变了。Strix Halo 的 NPU 会自动接管低负载的后台任务，而当你发起推理请求时，系统会智能地将计算密集型任务分配给强大的集成 Radeon GPU。

# 安装 Ollamacurl-fsSLhttps://ollama.com/install.sh|sh# 拉取并运行 Llama 3 8B 模型ollama run llama3

启动后，通过ollama ps可以看到模型已加载到显存中。在实际对话测试中，首字延迟（TTFT）控制在毫秒级，几乎感觉不到等待。更关键的是，当我在后台编译代码的同时前台跑模型，系统并没有出现明显的卡顿，这说明 Strix Halo 的多核 CPU 与 GPU 之间的资源隔离做得相当到位。

对于更喜欢图形界面的朋友，LM Studio的表现同样亮眼。最新版本的 LM Studio 已经能很好地识别 Strix Halo 的硬件加速能力。加载 GGUF 格式的量化模型（如 Q4_K_M）时，界面右下角的监控图表清晰地显示了数据流主要走的是 GPU 通道。

我在 LM Studio 中加载了一个 14B 参数的模型（这在以前的轻薄本上是不可想象的）。设置好上下文窗口为 4096 后，生成速度稳定在 25-30 tokens/s。这个速度不仅远超阅读速度，甚至可以用来做实时的语音转文字辅助或者代码补全，完全没有那种“挤牙膏”的焦虑感。

功耗与发热：移动办公的真实考验

性能强不强是一回事，能不能在咖啡馆里安静地用是另一回事。这也是 Strix Halo 相比上一代产品最大的突破点。

在室温 24℃的环境下，我进行了半小时的连续推理测试。

轻负载场景（运行 7B 模型，间歇性生成）：整机功耗维持在 15W 左右，风扇几乎听不到声音，C 面温度仅比环境温度略高，完全适合在会议室或图书馆使用。
高负载场景（运行 14B 模型，持续生成）：功耗上升至 35W-45W 区间。此时风扇开始介入，但噪音控制在一个相对柔和的白噪声水平，没有尖锐的高频啸叫。键盘区域温热，但手腕接触处依然凉爽。

对比上一代 Ryzen AI 平台，Strix Halo 在处理同等参数量模型时，能效比提升了约 40%。这得益于其更大的 L3 缓存和更高效的内存带宽管理。以前跑大模型，电池可能撑不过两小时，现在在混合办公模式下，坚持一个下午的断续使用问题不大。

NPU 与 GPU 的协同舞蹈

很多人关心：NPU 到底有没有用？在 Strix Halo 上，答案是肯定的，但角色分工很明确。

在实际测试中，我发现NPU更多承担了预处理和后处理的任务，比如 Token 的分词、简单的逻辑判断以及低功耗待机时的模型保持。而真正的矩阵乘法运算，依然由那颗规模庞大的Radeon GPU扛大旗。

这种协同带来的直接好处是“响应速度”与“续航”的平衡。当你唤醒屏幕准备提问时，NPU 迅速激活模型状态；一旦开始生成，GPU 瞬间接管算力输出。在 LM Studio 的监控中，能看到两者切换非常平滑，没有出现数据搬运导致的延迟毛刺。这种架构设计，让端侧设备既能拥有接近服务器的推理速度，又能保持移动设备的低功耗特性。