当前位置：首页 > news >正文

本地部署小米MiMo-7B-RL多模态决策模型实战

news 2026/6/20 11:13:45

1. 项目概述：为什么一个普通开发者要亲手把小米MiMo-7B-RL跑在自己笔记本上？

“本地部署小米MiMo-7B-RL大模型”——这行字刚出现在我本地终端里时，我盯着那行绿色的INFO:root:Model loaded successfully愣了三秒。不是因为有多难，而是因为太实在了：它真就在我这台i7-11800H+32GB内存+RTX3060的旧笔记本上，不连网、不调API、不交token，纯靠本地显存推理出第一句回答。没有云服务账单提醒，没有请求限频弹窗，更没有“当前模型繁忙，请稍后再试”的温柔搪塞。它就坐在那儿，像一台刚擦完油的机械臂，等你下指令。

这个标题里的每个词都踩在当下AI落地的痛点上。“小米”不是指手机系统，而是指其开源的大模型家族；“MiMo-7B-RL”是小米2024年中正式发布的70亿参数多模态强化学习模型，全称MiMo（Multimodal Model）-7B-RL，核心能力不是单纯聊天，而是在视觉-语言-动作闭环中做决策——比如看一张厨房照片，判断“灶台上有锅但没开火”，再生成“请打开燃气灶并调至中火”的可执行指令；“本地部署”三个字，直击企业私有数据不出域、个人隐私零上传、离线环境持续可用这三大刚需；而“SGLang”则是这次能跑通的关键钥匙，它不是传统推理框架，而是一个专为结构化推理+工具调用+Agent工作流设计的轻量级运行时，比vLLM更薄，比Ollama更可控，比Transformers原生加载快37%（实测，后文详述）。

我做这个项目的直接动因很朴素：想让家里的小米智能中枢（网关+空调+灯+扫地机）真正听懂“自然语言指令”，而不是只认预设的12条语音命令。比如我说“孩子刚睡着，把客厅灯调暗、空调设为26度静音模式、扫地机暂停清扫”，传统方案得写三条HTTP请求+状态轮询+超时重试；而MiMo-7B-RL+SGLang组合，能把这句话拆解成带依赖关系的原子动作序列，自动校验设备在线状态、执行顺序、失败回滚——这才是Agent该有的样子。它不追求参数规模碾压，但胜在小而准、快而稳、专而实。如果你也厌倦了调用公有云API时的延迟抖动、内容审查和费用焦虑，或者正卡在“大模型怎么真正驱动硬件”这个临门一脚上，这篇就是为你写的。不需要GPU服务器，一台游戏本足矣；不需要博士学历，Python基础+一点Linux常识就够；更不需要等厂商SDK更新——所有代码、配置、避坑细节，我都已实测打包好。

2. 核心技术拆解：MiMo-7B-RL到底是什么？为什么非得用SGLang？

2.1 MiMo-7B-RL不是另一个“聊天玩具”，而是面向物理世界的决策引擎

先破除一个常见误解：很多人看到“7B”就默认这是个文本大模型，类似Llama-3-8B或Qwen2-7B。错。MiMo-7B-RL的架构图里，视觉编码器（ViT-L/14）和语言解码器（LLaMA-2风格）是深度耦合的，但最关键的第三部分——动作策略头（Action Policy Head）——才是它的灵魂。这个头不是输出文字，而是输出结构化动作元组：(device_id, action_type, params_dict, confidence_score)。举个真实例子：

输入图像：小米米家扫地机器人APP界面截图（显示“清扫中”状态）
输入文本：“暂停清扫，去充电座待命”
MiMo-7B-RL输出：
{ "actions": [ {"device": "roborock.vacuum.v1", "action": "pause", "params": {}, "confidence": 0.92}, {"device": "roborock.vacuum.v1", "action": "charge", "params": {"target_position": "docking_station"}, "confidence": 0.87} ], "reasoning": "当前状态为清扫中，需先暂停再移动至充电座；目标位置需明确指定为 docking_station" }

这个输出不是LLM“编”出来的，而是模型在RLHF（基于人类反馈的强化学习）阶段，用真实小米IoT设备操作日志作为奖励信号训练出来的。小米公开的技术白皮书里提到，他们采集了超过200万条用户与米家APP的真实交互轨迹（点击、滑动、语音指令、设备状态变更），把这些轨迹映射成“观察-动作-奖励”三元组，喂给PPO算法优化策略网络。所以MiMo-7B-RL的“智能”，本质是对小米生态设备控制逻辑的深度内化，而非通用世界知识的泛化。

参数量7B是刻意为之的平衡点：ViT-L/14视觉编码器约3B参数，语言解码器约3.5B，动作头仅0.5B。总参数控制在7B，是为了确保能在单张消费级GPU（如RTX3090/4090）上以FP16精度全参数加载，显存占用<16GB。对比同级别的Qwen-VL-7B（纯视觉语言），MiMo-7B-RL多了动作策略头，但整体显存开销反而低8%，因为它的视觉编码器做了通道剪枝（channel pruning），移除了ViT中对IoT控制无意义的高频纹理特征通道——这是小米工程师在GitHub issue里亲口确认的优化细节。

2.2 SGLang为何成为本地部署的“最优解”？三重不可替代性

为什么不用vLLM？vLLM确实快，但它为纯文本生成而生，对多模态输入（图像+文本）和结构化输出（JSON动作序列）支持极弱。vLLM的PagedAttention机制假设所有token都是同质的，但MiMo-7B-RL的输入里，图像patch token和文本token的语义权重、计算路径完全不同；它的输出也不是自回归token流，而是需要强制约束格式的JSON Schema。强行用vLLM，得自己写复杂的post-processing逻辑，且无法利用其KV Cache优化。

为什么不用Ollama？Ollama的便利性毋庸置疑，但它底层是llama.cpp，对ViT视觉编码器的支持近乎为零。Ollama目前只支持纯文本模型（GGUF格式），而MiMo-7B-RL的视觉部分必须用PyTorch加载，Ollama无法混合调度。社区有人尝试用Ollama加载文本部分+外部调用OpenCV处理图像，结果端到端延迟飙到8秒以上，完全失去实时控制价值。

SGLang的不可替代性，就体现在它为这类“感知-决策-执行”闭环量身定制的三层设计：

前端：统一的Prompt Engine
它定义了一套DSL（领域特定语言），让你用类似Python的语法描述多模态输入：
```
# SGLang DSL 示例 image = sg.Image("kitchen.jpg") # 自动调用ViT编码 text = sg.Text("把灶台上的锅拿走") # 自动拼接为 <image><text> 的多模态嵌入
```
这比手动拼接tensor、管理device placement简单十倍。

中端：结构化输出约束（Structured Output Constraint）
通过JSON Schema直接约束模型输出格式：

schema = { "type": "array", "items": { "type": "object", "properties": { "device": {"type": "string"}, "action": {"type": "string"}, "params": {"type": "object"}, "confidence": {"type": "number", "minimum": 0.0, "maximum": 1.0} } } } # SGLang会在生成时动态注入grammar bias，确保100%符合schema

实测表明，相比用正则表达式后处理，SGLang的结构化输出准确率从72%提升到99.4%，且首token延迟降低40%。

后端：轻量级Runtime（sglang-runtime）
它不追求vLLM的极致吞吐，而是专注低延迟、高确定性、易调试。整个runtime用Rust编写，二进制体积<15MB，启动时间<800ms。最关键的是，它暴露了完整的推理trace接口：你能看到每个token生成时的logits分布、attention map热力图、甚至视觉编码器各层的feature map激活值——这对调试“为什么模型把扫地机识别成空调”这种问题至关重要。

我实测过三种部署方式在同一台机器（RTX3060 12GB）上的表现：

方案	首token延迟	端到端延迟（图像+文本）	结构化输出准确率	显存峰值	调试难度
Transformers + manual	1200ms	4200ms	68%	11.2GB	极高（需读源码）
vLLM + custom postproc	380ms	3100ms	72%	9.8GB	高（需改vLLM源码）
SGLang（本文方案）	210ms	1850ms	99.4%	8.3GB	低（内置WebUI trace）

这个表格不是理论值，而是我用timeit和nvidia-smi dmon连续采样300次的均值。SGLang在延迟和准确率上的双重优势，让它成为MiMo-7B-RL本地部署的唯一合理选择。

3. 实操全流程：从零开始，在Windows/Mac/Linux上部署MiMo-7B-RL+SGLang

3.1 环境准备：硬件要求远比你想象的宽松

很多人被“大模型”吓住，以为必须A100/H100。MiMo-7B-RL的设计哲学恰恰是“普惠智能”，官方文档明确标注：最低配置为RTX3060 12GB（Windows/Linux）或M2 Max 32GB（macOS）。我用三台不同配置机器实测过，结论很清晰：

Windows（主力测试机）：i7-11800H + 32GB RAM + RTX3060 12GB（笔记本）
- 关键设置：必须关闭Windows硬件加速GPU调度（WDDM），强制使用TCC模式（NVIDIA控制面板→3D设置→首选图形处理器→高性能NVIDIA处理器→关闭“硬件加速GPU调度”）。否则SGLang会报CUDA_ERROR_INVALID_VALUE。
- 显存优化：启用--enable-tensor-parallel（即使单卡也开启），SGLang会自动将模型层切分到不同CUDA stream，提升缓存命中率。
macOS（M2 Max）：32GB Unified Memory
- 优势：无需CUDA，全程Metal加速，功耗极低（整机功耗<25W）。
- 注意：必须用pip install sglang[metal]安装专用版本，普通pip包会fallback到CPU，速度慢10倍。
- 内存技巧：M2的Unified Memory是共享的，需预留至少8GB给系统，模型实际可用内存≈24GB，刚好够MiMo-7B-RL的FP16加载（实测占用23.7GB）。
Linux（备用服务器）：Xeon E5-2680v4 + 64GB RAM + RTX3090 24GB
- 最佳实践：用nvidia-docker容器化部署，避免CUDA版本冲突。镜像基于nvidia/cuda:12.1.1-devel-ubuntu22.04构建，预装cuDNN 8.9.2。

提示：不要试图在RTX2060或GTX1660上硬扛。这些卡显存<12GB，MiMo-7B-RL的ViT编码器单次前向传播就要占用约9GB显存，剩余空间不足以支撑语言解码器的KV Cache。强行量化到INT4会导致动作策略头崩溃（实测准确率跌至31%），得不偿失。

3.2 模型获取与验证：绕过官网，直取Hugging Face可信源

小米官方并未提供MiMo-7B-RL的独立下载页，所有模型权重都托管在Hugging Face上，仓库名为xiaomi/mimo-7b-rl。但这里有个关键陷阱：Hugging Face上有两个同名仓库——一个是小米官方认证的（绿色Verified徽章），另一个是第三方fork（无徽章，star数更高但含恶意代码）。我曾误下fork版，结果模型加载时偷偷连接了境外IP（Wireshark抓包证实），虽未造成数据泄露，但严重违背“本地部署”初衷。

正确获取步骤（Windows为例）：

# 1. 安装huggingface-hub（确保最新版） pip install --upgrade huggingface-hub # 2. 登录Hugging Face（必须！否则下载限速且可能403） huggingface-cli login # 输入你的HF Token（在https://huggingface.co/settings/tokens生成） # 3. 使用hf_hub_download精确拉取，避免git lfs大文件 from huggingface_hub import hf_hub_download import os model_dir = "./mimo-7b-rl" os.makedirs(model_dir, exist_ok=True) # 下载核心文件（共7个，总计约13.2GB） files_to_download = [ "config.json", "pytorch_model.bin.index.json", # 权重索引文件，关键！ "pytorch_model-00001-of-00007.bin", # 分片1 "pytorch_model-00002-of-00007.bin", # 分片2 "pytorch_model-00003-of-00007.bin", # 分片3 "pytorch_model-00004-of-00007.bin", # 分片4 "pytorch_model-00005-of-00007.bin", # 分片5（注意：只有5个分片，不是7个） ] for file in files_to_download: hf_hub_download( repo_id="xiaomi/mimo-7b-rl", filename=file, local_dir=model_dir, local_dir_use_symlinks=False )

注意：pytorch_model.bin.index.json是重中之重。它定义了每个权重张量存储在哪个分片文件中。如果漏下它，SGLang启动时会报KeyError: 'model.layers.0.self_attn.q_proj.weight'，因为找不到权重映射关系。我第一次部署就栽在这儿，花了两小时排查。

验证模型完整性（防下载损坏）：

# 进入模型目录，校验SHA256 cd ./mimo-7b-rl sha256sum config.json # 应输出：a1b2c3...d4e5f6 config.json （官方公布的checksum） sha256sum pytorch_model-00001-of-00007.bin # 应输出：7890ab...cdef12 pytorch_model-00001-of-00007.bin

官方checksum列表在Hugging Face仓库的README.md底部“Model Card”章节，务必逐个核对。任何一项不匹配，立刻重新下载——损坏的权重会导致动作策略头输出全为{"confidence": 0.0}。

3.3 SGLang安装与配置：避开pip install的三个深坑

SGLang的pip安装看似简单，实则暗藏玄机。我踩过的坑，按严重程度排序：

坑一：CUDA版本错配（最高危）
SGLang 0.3.5（当前最新版）要求CUDA 12.1，但Windows用户常装的是CUDA 12.2或12.3。pip install sglang会静默安装一个不兼容的二进制包，启动时报ImportError: DLL load failed while importing _core。解决方案：

# 先卸载 pip uninstall sglang -y # 强制指定CUDA版本安装 pip install sglang --no-deps pip install "nvidia-cublas-cu12==12.1.3.1" "nvidia-cuda-cupti-cu12==12.1.105" "nvidia-cuda-nvrtc-cu12==12.1.105" "nvidia-cuda-runtime-cu12==12.1.105" "nvidia-cudnn-cu12==8.9.2.26" "nvidia-cufft-cu12==10.9.0.58" "nvidia-curand-cu12==10.3.0.106" "nvidia-cusolver-cu12==11.4.5.107" "nvidia-cusparse-cu12==12.1.0.106" "nvidia-nccl-cu12==2.19.3" "nvidia-nvtx-cu12==12.1.105" # 最后装sglang（此时依赖已满足） pip install sglang

坑二：PyTorch版本冲突（最隐蔽）
SGLang 0.3.5要求PyTorch>=2.2.0，但很多用户环境是2.1.0（因其他项目依赖）。pip install sglang会升级PyTorch，导致原有项目崩溃。安全做法：

# 创建隔离环境（推荐） conda create -n mimo-env python=3.10 conda activate mimo-env pip install torch==2.2.0+cu121 torchvision==0.17.0+cu121 torchaudio==2.2.0+cu121 --extra-index-url https://download.pytorch.org/whl/cu121 pip install sglang

坑三：Windows路径分隔符（最烦人）
SGLang的配置文件路径在Windows下必须用正斜杠/或双反斜杠\\，单反斜杠\会被Python解释为转义字符。例如：

# 错误！会报错：SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes model_path = "C:\Users\me\mimo-7b-rl" # 正确（任选其一） model_path = "C:/Users/me/mimo-7b-rl" # 推荐，跨平台 model_path = "C:\\Users\\me\\mimo-7b-rl" # 也可

3.4 启动SGLang服务：一行命令背后的精密调优

启动命令看似简单，但每个参数都经过实测权衡：

python -m sglang.launch_server \ --model-path ./mimo-7b-rl \ --host 0.0.0.0 \ --port 30000 \ --tp 1 \ --mem-fraction-static 0.85 \ --enable-flashinfer \ --chat-template ./mimo-7b-rl/chat_template.json

参数详解：

--tp 1：Tensor Parallelism设为1。虽然RTX3060是单卡，但SGLang的TP=1会启用更激进的kernel fusion，比TP=0快12%（实测）。官方文档没写，但源码注释里有说明。
--mem-fraction-static 0.85：静态分配85%显存给模型。设太高（如0.95）会导致KV Cache溢出，出现CUDA out of memory；设太低（如0.7）则浪费显存，降低batch size上限。0.85是RTX3060的黄金值。
--enable-flashinfer：启用FlashInfer库。这是SGLang 0.3.5新增的优化，针对注意力计算做定制kernel，比原生PyTorch快23%。必须确保已pip install flashinfer（Windows需从预编译wheel安装）。
--chat-template：必须指定！MiMo-7B-RL的对话模板不是标准ChatML，而是小米定制的<|startofthought|><|endofthought|>包裹推理过程。不指定会导致模型乱码。

启动后，你会看到：

INFO:sglang:Starting SGLang runtime... INFO:sglang:Loading model from ./mimo-7b-rl... INFO:sglang:Model loaded successfully. Total VRAM used: 8.32 GB INFO:sglang:Server running on http://0.0.0.0:30000

此时，服务已就绪。用curl测试：

curl -X POST "http://localhost:30000/generate" \ -H "Content-Type: application/json" \ -d '{ "prompt": "What is the capital of France?", "max_new_tokens": 32 }'

如果返回{"text": "The capital of France is Paris."}，恭喜，基础链路打通。

3.5 构建小米IoT Agent：让模型真正“动手”

这才是本地部署的价值所在。我们写一个Python脚本，把SGLang的输出转化为真实的设备控制：

import requests import json import time from miio import Device # pip install python-miio # 1. 连接小米网关（需提前在米家APP获取token） GATEWAY_IP = "192.168.31.100" # 你的网关IP GATEWAY_TOKEN = "your_32_char_token_here" # 在米家APP抓包或用miio discover获取 # 2. SGLang API封装 def call_mimo(prompt: str, image_path: str = None) -> dict: url = "http://localhost:30000/generate" payload = { "prompt": prompt, "max_new_tokens": 256, "structured_output": { "type": "json_schema", "json_schema": { "type": "array", "items": { "type": "object", "properties": { "device": {"type": "string"}, "action": {"type": "string"}, "params": {"type": "object"}, "confidence": {"type": "number"} } } } } } if image_path: # SGLang支持base64图像，但需额外处理 import base64 with open(image_path, "rb") as f: img_b64 = base64.b64encode(f.read()).decode() payload["images"] = [img_b64] response = requests.post(url, json=payload) return response.json() # 3. 执行动作（简化版，仅演示逻辑） def execute_action(action: dict): device_id = action["device"] action_type = action["action"] params = action.get("params", {}) try: # 根据device_id映射到真实设备 if device_id == "roborock.vacuum.v1": vacuum = Device(GATEWAY_IP, GATEWAY_TOKEN) if action_type == "pause": vacuum.send("app_pause", []) elif action_type == "charge": vacuum.send("app_charge", []) elif device_id == "lumi.light.aqcn02": light = Device(GATEWAY_IP, GATEWAY_TOKEN) if action_type == "set_brightness": # params: {"brightness": 50} light.send("set_bright", [params["brightness"]]) print(f"✅ Executed {action_type} on {device_id}") return True except Exception as e: print(f"❌ Failed to execute {action_type} on {device_id}: {e}") return False # 4. 主流程 if __name__ == "__main__": # 场景：用户说“把客厅灯调暗” user_input = "把客厅灯调暗" result = call_mimo(user_input) # 解析SGLang输出（已保证是合法JSON） actions = json.loads(result["text"]) for action in actions: if action["confidence"] > 0.8: # 置信度阈值 execute_action(action) else: print(f"⚠️ Low confidence ({action['confidence']:.2f}) for {action['action']}, skipped")

注意：GATEWAY_TOKEN的获取是最大难点。小米官方已关闭token导出功能，但仍有合规途径：
用miio discover命令（需安装python-miio）扫描局域网，自动发现网关并显示token；
或在Android手机上，用Packet Capture APP抓取米家APP启动时的HTTP请求，过滤/v2/device/get_dev_info，响应体中含token。
这两种方法均不违反小米用户协议，且token仅用于本地局域网通信。

4. 实战问题排查：那些官方文档不会告诉你的“血泪教训”

4.1 图像输入失效：不是模型问题，是预处理的锅

现象：传入一张清晰的厨房照片，模型输出{"actions": []}，空数组。反复检查代码，确认images字段已传入base64，但SGLang日志显示INFO:sglang:No image tokens detected。

根源：SGLang对图像尺寸有硬性要求——必须是224x224像素，且为RGB模式。我的原始照片是4032x3024，PIL默认读取为RGBA（带alpha通道），SGLang的ViT编码器遇到alpha通道直接跳过。

解决方案（在调用前预处理）：

from PIL import Image import io def preprocess_image(image_path: str) -> str: """将任意图片转为SGLang兼容的224x224 RGB base64""" img = Image.open(image_path) # 移除alpha通道（如有） if img.mode in ('RGBA', 'LA'): background = Image.new('RGB', img.size, (255, 255, 255)) background.paste(img, mask=img.split()[-1] if img.mode == 'RGBA' else None) img = background # 转RGB（如有其他模式） if img.mode != 'RGB': img = img.convert('RGB') # 缩放至224x224（保持比例，填充黑边） img = img.resize((224, 224), Image.Resampling.LANCZOS) # 转base64 buffer = io.BytesIO() img.save(buffer, format='JPEG', quality=95) return base64.b64encode(buffer.getvalue()).decode() # 使用 img_b64 = preprocess_image("kitchen.jpg")

这个预处理函数我写了三版才稳定：第一版用cv2.resize，结果色彩偏黄（OpenCV默认BGR）；第二版没处理alpha通道，导致ViT输入全黑；第三版才搞定。现在它是我所有MiMo调用的标配前置。

4.2 动作执行失败：设备ID不匹配的“幽灵bug”

现象：模型输出{"device": "lumi.light.aqcn02", "action": "set_brightness"}，但执行时miio报错DeviceException: Unable to discover the device。

排查：用miio discover扫描，发现网关上报的设备ID是lumi.158d0001234567，而非模型输出的lumi.light.aqcn02。原来，MiMo-7B-RL的训练数据来自米家APP的UI层，APP显示的是产品型号（lumi.light.aqcn02），而miio SDK要求的是设备物理ID（lumi.158d0001234567）。

解决方案：建立型号到物理ID的映射表。在部署时，先用miio discover获取所有设备信息，保存为device_map.json：

{ "lumi.light.aqcn02": "lumi.158d0001234567", "roborock.vacuum.v1": "roborock.vacuum.s5", "lumi.aircondition.acn01": "lumi.158d0007890123" }

然后在execute_action中加入映射：

def execute_action(action: dict): # ... 前面代码 device_id = action["device"] # 映射型号到物理ID physical_id = DEVICE_MAP.get(device_id, device_id) # fallback to original # ... 后面代码

这个映射表必须每台机器单独生成，因为设备ID是唯一的。我把它做成部署脚本的一部分，每次启动Agent前自动更新。

4.3 显存泄漏：连续运行2小时后OOM

现象：服务启动正常，但连续处理100+次请求后，nvidia-smi显示显存占用从8.3GB涨到11.9GB，第101次请求直接OOM。

根源：SGLang的generate接口默认启用stream=True（流式输出），但我们的脚本是同步调用，未消费完所有stream chunk，导致GPU内存中的中间tensor未释放。

解决方案：强制禁用流式，改为同步模式：

# 在call_mimo函数中，修改payload payload = { # ... 其他字段 "stream": False, # 关键！必须显式设为False "temperature": 0.1, # 降低随机性，提升动作一致性 }

同时，在SGLang启动时加--disable-streaming参数：

python -m sglang.launch_server ... --disable-streaming

这个组合拳让显存占用稳定在8.3±0.1GB，连续运行24小时无泄漏。这是SGLang 0.3.5的已知问题，官方issue#422中确认，将在0.4.0修复。

4.4 低置信度动作：模型“不敢下手”的真相

现象：模型对“打开空调”输出confidence: 0.42，远低于阈值0.8，被脚本跳过。但用户明明说得很清楚。

分析：MiMo-7B-RL的置信度不是概率，而是策略网络输出的logits softmax后的最大值。0.42意味着模型在“打开空调”、“关闭空调”、“调节温度”等多个动作中，最大logit值对应的softmax概率仅0.42，说明它高度不确定。

根本原因：缺少上下文设备状态。模型只看到图像和文本，不知道空调当前是“关机”还是“待机”。解决方案是注入状态上下文：

# 在prompt中加入设备状态 device_status = "air_conditioner: off, light: on, vacuum: idle" prompt_with_status = f"Context: {device_status}\nUser: {user_input}" result = call_mimo(prompt_with_status)

我实测，加入状态上下文后，平均置信度从0.51提升到0.79，符合阈值的动作比例从38%升至82%。这才是真正的“感知-决策”闭环。

5. 进阶应用与扩展：不止于控制家电，还能做什么？

5.1 构建家庭健康管家：整合小米运动健康数据

MiMo-7B-RL的“RL”部分，不仅学设备控制，还学健康干预策略。小米在训练数据中加入了脱敏的用户健康日志（步数、心率、睡眠质量），模型学会了关联环境状态与健康建议。

例如，输入图像：卧室摄像头拍到用户躺在床上翻来覆去；文本：“睡不着”；设备状态：bed_light: on, air_conditioner: 28℃, window: closed。
模型输出：

{ "actions": [ {"device": "lumi.light.aqcn02", "action": "set_brightness", "params": {"brightness": 10}, "confidence": 0.95}, {"device": "lumi.aircondition.acn01", "action": "set_temperature", "params": {"temperature": 26}, "confidence": 0.88}, {"device": "lumi.sensor_motion.aq2", "action": "enable_sleep_mode", "params": {}, "confidence": 0.91} ] }

要实现这个，需接入小米运动健康API。虽然官方API需企业资质，但有一个合规途径：用小米运动健康APP的“数据导出”功能（设置→账号与安全→数据导出），生成CSV文件，本地解析后注入prompt：

def get_health_context() -> str: # 读取最近24小时导出的CSV df = pd.read_csv("~/Downloads/xiaomi_health_export.csv") latest_sleep = df[df['type']=='sleep'].sort_values('end_time').tail(1) if not latest_sleep.empty: sleep_quality = latest_sleep.iloc[0]['quality'] # 'good', 'fair', 'poor' return f"Latest sleep quality: {sleep_quality}. " return "" # 注入prompt context = get_health_context() + "Current room status: ..."