用 Rokid Glasses 实现“看一眼就知道卡路里“——卡路里识别智能体开发实践
一、为什么做这个智能体
减肥、健身、控糖……这些目标背后有一个共同的痛点:不知道自己吃了多少卡路里。
传统的解决方案是打开手机 App,手动搜索食物、输入克数,繁琐且容易放弃。而 Rokid Glasses 提供了一个更自然的交互方式——抬头看一眼,直接问。
"乐奇,这碗饭有多少卡路里?"
眼镜拍照、识别、播报,整个过程不超过 10 秒。这就是我想做的东西:一个戴着眼镜就能随时查卡路里的 AI 智能体。
Rokid Glasses 本身已经内置了拍摄、翻译、导航、支付等功能,但在健康饮食这个垂直场景上是空白的,正好是一个值得填补的切入点。
二、整体方案设计
智能体的核心能力只有一个:拍照 → 识别食物 → 返回卡路里和营养信息。
但要做好这件事,需要解决几个问题:
视觉理解:必须选支持图像输入的多模态大模型
回复简洁:眼镜屏幕小、语音播报不能太长,输出要精炼
响应速度:避免用户等待超过 10 秒,体验才流畅
工作流编排:通过灵珠平台的工作流,把拍照输入、模型推理、格式化输出串联起来
开发平台选择灵珠 AI 平台(https://rizon.rokid.com),它深度集成了 Rokid Glasses 硬件能力,无需写代码即可完成智能体的搭建和发布。
三、开发过程
3.1 创建智能体
登录灵珠平台后,点击左上角的⊕按钮新建智能体。
填写基本信息:
名称:卡路里识别助手
功能介绍:拍摄食物,智能识别卡路里和营养成分,帮你轻松管理饮食热量
图标:上传一个食物相关的图标(上架审核必须项)
创建完成后会直接进入智能体编排页面,分为左侧人设配置、中间技能配置、右侧预览调试三个区域。
3.2 选择插件
在技能面板中,点击插件区域的+图标,为智能体添加能力扩展。
卡路里识别的核心是图像理解,灵珠平台内置了拍照能力组件,直接添加即可。这个组件会让智能体在对话时具备调起眼镜摄像头拍照的能力。
3.3 编写人设与提示词
人设是智能体行为的核心约束。在"人设与回复逻辑"面板中,我编写了如下提示词:
# 角色 你是一个专业的营养师助手,能够通过图片识别食物并提供卡路里信息。 # 任务 当用户提供食物图片时: 1. 识别图片中的食物名称 2. 估算食物的分量(克数) 3. 给出该食物的卡路里(千卡) 4. 给出主要营养成分(蛋白质、脂肪、碳水化合物) # 回复格式(严格遵守) 食物:[食物名称] 分量:约 [X] 克 热量:[X] 千卡 营养:蛋白质 [X]g | 脂肪 [X]g | 碳水 [X]g # 注意 - 回复控制在 50 字以内,适合语音播报 - 如果图片不清晰,请提示用户重新拍摄 - 不要添加多余的建议和说明提示词中明确了输出格式,这一点非常关键。眼镜端的显示空间有限,如果模型自由发挥输出一大段文字,用户体验会很差。
3.4 搭建工作流
为了让识别流程更可控,我在智能体中绑定了一个工作流,把整个处理链路显式化。
创建工作流
在灵珠平台的工作流模块新建一个工作流,命名为"食物卡路里识别流"。
接入大模型节点
工作流的核心是大模型节点。这里选择了Doubao-Seed-1.6-Vision,原因:
支持图像输入(多模态),这是识别食物的前提
支持 Function Call,方便后续扩展插件能力
响应速度快,符合眼镜端的实时交互需求
DeepSeek-V3 虽然能力强,但它是纯文本模型,无法处理图片,不适合这个场景。
配置提示词节点
在大模型节点中配置系统提示词,与智能体人设保持一致,同时在用户输入中引用图像变量{{image}},确保拍照内容能正确传入模型。
工作流整体概览
完整的工作流节点链路:开始 → 图像输入 → 大模型识别 → 格式化输出 → 结束
3.5 配置开场白
开场白是用户打开智能体时看到的第一句话,也是引导用户行为的关键。
开场白:对着食物拍一张照片,我来告诉你有多少卡路里! 预置问题: - 帮我看看这个食物有多少卡路里 - 这顿饭大概有多少热量? - 这个零食能吃吗?3.6 预览调试
配置完成后,在右侧"预览与调试"面板进行测试。
上传几张食物图片验证效果:
一碗白米饭 → 识别正确,热量约 232 千卡
一个汉堡 → 识别正确,热量约 450 千卡
一盘炒青菜 → 识别正确,热量约 80 千卡
响应时间稳定在 5 秒以内,符合上架要求(< 30 秒)。
3.7 发布提审
调试通过后,点击右上角"提审"按钮,填写上架信息,提交审核。
审核通过后,用户可以在 Rokid AI APP 的 Agent Store 中找到并使用这个智能体。
四、踩过的坑
坑1:模型选错了
最开始选了 DeepSeek-V3,发现图片根本传不进去,模型只能看到文字描述。换成 Doubao-Seed-1.6-Vision 后立刻解决。选模型时一定要确认是否支持多模态输入。
坑2:输出太长
初版提示词没有限制字数,模型会输出一大段营养建议,在眼镜端显示非常难看。加上"回复控制在 50 字以内"的约束后,输出变得干净利落。
坑3:没有在提示词中引用插件
添加了拍照插件后,智能体并不会自动调用,需要在人设提示词中用{显式引用插件名称,告诉模型"遇到食物识别需求时调用拍照工具"。这个细节在官方文档的实践案例里有提到,但容易忽略。
五、后续可以扩展的方向
目前这个智能体只做了单次识别,还有很多可以继续做的方向:
每日热量记录:结合灵珠平台的记忆功能,累计记录一天的饮食热量
饮食建议:根据用户设定的目标(减脂/增肌/控糖),给出是否适合吃的建议
食材识别:不只识别成品食物,还能识别超市里的生鲜食材
Rokid Glasses 的穿戴式场景天然适合健康管理类应用,因为它不需要用户掏出手机,随时随地都能用。这个方向还有很大的空间。
六、总结
整个开发过程没有写一行代码,从创建到调试完成大约花了 2 个小时。灵珠平台的可视化编排工具把模型接入、工作流搭建、插件配置都做得很直观,对没有 AI 开发经验的人也很友好。
如果你也想做一个 Rokid Glasses 上的健康类智能体,卡路里识别是一个很好的起点——场景清晰、技术门槛低、实用价值高。
欢迎在评论区交流,也欢迎 fork 这个思路做出更完整的健康管理智能体。
