当前位置：首页 > news >正文

用 Rokid Glasses 实现“看一眼就知道卡路里“——卡路里识别智能体开发实践

news 2026/6/27 10:39:33

一、为什么做这个智能体

减肥、健身、控糖……这些目标背后有一个共同的痛点：不知道自己吃了多少卡路里。

传统的解决方案是打开手机 App，手动搜索食物、输入克数，繁琐且容易放弃。而 Rokid Glasses 提供了一个更自然的交互方式——抬头看一眼，直接问。

"乐奇，这碗饭有多少卡路里？"

眼镜拍照、识别、播报，整个过程不超过 10 秒。这就是我想做的东西：一个戴着眼镜就能随时查卡路里的 AI 智能体。

Rokid Glasses 本身已经内置了拍摄、翻译、导航、支付等功能，但在健康饮食这个垂直场景上是空白的，正好是一个值得填补的切入点。

二、整体方案设计

智能体的核心能力只有一个：拍照 → 识别食物 → 返回卡路里和营养信息。

但要做好这件事，需要解决几个问题：

视觉理解：必须选支持图像输入的多模态大模型
回复简洁：眼镜屏幕小、语音播报不能太长，输出要精炼
响应速度：避免用户等待超过 10 秒，体验才流畅
工作流编排：通过灵珠平台的工作流，把拍照输入、模型推理、格式化输出串联起来

开发平台选择灵珠 AI 平台（https://rizon.rokid.com），它深度集成了 Rokid Glasses 硬件能力，无需写代码即可完成智能体的搭建和发布。

三、开发过程

3.1 创建智能体

登录灵珠平台后，点击左上角的⊕按钮新建智能体。

填写基本信息：

名称：卡路里识别助手
功能介绍：拍摄食物，智能识别卡路里和营养成分，帮你轻松管理饮食热量
图标：上传一个食物相关的图标（上架审核必须项）

创建完成后会直接进入智能体编排页面，分为左侧人设配置、中间技能配置、右侧预览调试三个区域。

3.2 选择插件

在技能面板中，点击插件区域的+图标，为智能体添加能力扩展。

卡路里识别的核心是图像理解，灵珠平台内置了拍照能力组件，直接添加即可。这个组件会让智能体在对话时具备调起眼镜摄像头拍照的能力。

3.3 编写人设与提示词

人设是智能体行为的核心约束。在"人设与回复逻辑"面板中，我编写了如下提示词：

# 角色 你是一个专业的营养师助手，能够通过图片识别食物并提供卡路里信息。 # 任务 当用户提供食物图片时： 1. 识别图片中的食物名称 2. 估算食物的分量（克数） 3. 给出该食物的卡路里（千卡） 4. 给出主要营养成分（蛋白质、脂肪、碳水化合物） # 回复格式（严格遵守） 食物：[食物名称] 分量：约 [X] 克 热量：[X] 千卡 营养：蛋白质 [X]g | 脂肪 [X]g | 碳水 [X]g # 注意 - 回复控制在 50 字以内，适合语音播报 - 如果图片不清晰，请提示用户重新拍摄 - 不要添加多余的建议和说明

提示词中明确了输出格式，这一点非常关键。眼镜端的显示空间有限，如果模型自由发挥输出一大段文字，用户体验会很差。

3.4 搭建工作流

为了让识别流程更可控，我在智能体中绑定了一个工作流，把整个处理链路显式化。

创建工作流

在灵珠平台的工作流模块新建一个工作流，命名为"食物卡路里识别流"。

接入大模型节点

工作流的核心是大模型节点。这里选择了Doubao-Seed-1.6-Vision，原因：

支持图像输入（多模态），这是识别食物的前提
支持 Function Call，方便后续扩展插件能力
响应速度快，符合眼镜端的实时交互需求

DeepSeek-V3 虽然能力强，但它是纯文本模型，无法处理图片，不适合这个场景。

配置提示词节点

在大模型节点中配置系统提示词，与智能体人设保持一致，同时在用户输入中引用图像变量{{image}}，确保拍照内容能正确传入模型。

工作流整体概览

完整的工作流节点链路：开始 → 图像输入 → 大模型识别 → 格式化输出 → 结束

3.5 配置开场白

开场白是用户打开智能体时看到的第一句话，也是引导用户行为的关键。

开场白：对着食物拍一张照片，我来告诉你有多少卡路里！ 预置问题： - 帮我看看这个食物有多少卡路里 - 这顿饭大概有多少热量？ - 这个零食能吃吗？

3.6 预览调试

配置完成后，在右侧"预览与调试"面板进行测试。

上传几张食物图片验证效果：

一碗白米饭 → 识别正确，热量约 232 千卡
一个汉堡 → 识别正确，热量约 450 千卡
一盘炒青菜 → 识别正确，热量约 80 千卡

响应时间稳定在 5 秒以内，符合上架要求（< 30 秒）。

3.7 发布提审

调试通过后，点击右上角"提审"按钮，填写上架信息，提交审核。

审核通过后，用户可以在 Rokid AI APP 的 Agent Store 中找到并使用这个智能体。

四、踩过的坑

坑1：模型选错了

最开始选了 DeepSeek-V3，发现图片根本传不进去，模型只能看到文字描述。换成 Doubao-Seed-1.6-Vision 后立刻解决。选模型时一定要确认是否支持多模态输入。

坑2：输出太长

初版提示词没有限制字数，模型会输出一大段营养建议，在眼镜端显示非常难看。加上"回复控制在 50 字以内"的约束后，输出变得干净利落。

坑3：没有在提示词中引用插件

添加了拍照插件后，智能体并不会自动调用，需要在人设提示词中用{显式引用插件名称，告诉模型"遇到食物识别需求时调用拍照工具"。这个细节在官方文档的实践案例里有提到，但容易忽略。

五、后续可以扩展的方向

目前这个智能体只做了单次识别，还有很多可以继续做的方向：

每日热量记录：结合灵珠平台的记忆功能，累计记录一天的饮食热量
饮食建议：根据用户设定的目标（减脂/增肌/控糖），给出是否适合吃的建议
食材识别：不只识别成品食物，还能识别超市里的生鲜食材

Rokid Glasses 的穿戴式场景天然适合健康管理类应用，因为它不需要用户掏出手机，随时随地都能用。这个方向还有很大的空间。

六、总结

整个开发过程没有写一行代码，从创建到调试完成大约花了 2 个小时。灵珠平台的可视化编排工具把模型接入、工作流搭建、插件配置都做得很直观，对没有 AI 开发经验的人也很友好。

如果你也想做一个 Rokid Glasses 上的健康类智能体，卡路里识别是一个很好的起点——场景清晰、技术门槛低、实用价值高。

欢迎在评论区交流，也欢迎 fork 这个思路做出更完整的健康管理智能体。

查看全文

http://www.jsqmd.com/news/663570/

OAI 5G NR + USRP B210：从零搭建低成本开源5G实验平台

别再只盯着SQL注入了：从文件上传到WAF层Bypass的5个冷门技巧（含Apache/IIS特性）

双轨三总台五级联动AI智能全领域全场景全适配管控系统技术解析

AGI实用化窗口期仅剩37个月？——从LLM推理能耗拐点、世界模型训练效率跃迁与具身智能硬件量产进度三重急迫信号切入

龙泉驿全屋智能选哪家？诺亚家总部直营+1小时服务圈，比本地店省30%

【人工智能】Seedream（即梦AI）是字节跳动自研图像生成模型，Seedream API_KEY 怎么申请

RAG 与记忆机制本质辨析及研究路径评估

Social Media Downloader(视频下载工具)

Citrix Bleed 2 漏洞（CVE-2025-5777）疑似遭积极利用：ReliaQuest 发布紧急警报

Smithbox游戏修改工具技术深度解析：架构剖析与实战指南

深度学习篇---预测模型训练过程中涉及的所有“维度”概念以及流程的动态变化

2026年口碑好的外贸代理/磁铁外贸代理专业公司推荐 - 品牌宣传支持者

Halcon 实战指南：基于局部形变的模板匹配在柔性物体检测中的应用与参数调优

5个实战技巧：用ChatGPT写编程提示词避坑指南（附Python示例）

OceanBase表级物理恢复

告别玄学调参！基于STM32G4的PID与PFC算法调试实录：我是如何用示波器和串口把效率做到95%+的

Kali Linux实战：用Ettercap实现DNS劫持的5个关键步骤（附避坑指南）

别再搞混了！一文讲清舵机PWM、伺服脉冲和占空比的区别（附示波器实测波形图）

从条纹到机理：SAR与光学遥感如何“看见”海洋内波

【2026年最新600套毕设项目分享】基于微信小程序的社区团购（30096）

GitHub中文界面终极指南：3分钟让英文GitHub变身中文工作台

Navicat导入HTML网页报错怎么跳过_忽略错误记录高级选项

OrCAD Capture CIS BOM导出进阶技巧：自定义属性字段全攻略

Oracle学工系统实战：手把手教你用SQLMAP绕过某商业WAF（附垃圾数据包脚本）

从事件查看器到Log Parser：构建Windows日志自动化分析实战指南

成都办公室租赁，揭秘行业领先者

宝宝取名网推荐榜单权威解析：如何选择专业、可靠且助运的起名平台

【2026年最新600套毕设项目分享】家具购物微信小程序（30097）

2025届学术党必备的六大AI学术方案推荐

深度解析抖音无水印下载器：开源工具的高效批量下载技术实战