当前位置: 首页 > news >正文

用 Rokid Glasses 实现“看一眼就知道卡路里“——卡路里识别智能体开发实践

一、为什么做这个智能体

减肥、健身、控糖……这些目标背后有一个共同的痛点:不知道自己吃了多少卡路里

传统的解决方案是打开手机 App,手动搜索食物、输入克数,繁琐且容易放弃。而 Rokid Glasses 提供了一个更自然的交互方式——抬头看一眼,直接问。

"乐奇,这碗饭有多少卡路里?"

眼镜拍照、识别、播报,整个过程不超过 10 秒。这就是我想做的东西:一个戴着眼镜就能随时查卡路里的 AI 智能体

Rokid Glasses 本身已经内置了拍摄、翻译、导航、支付等功能,但在健康饮食这个垂直场景上是空白的,正好是一个值得填补的切入点。


二、整体方案设计

智能体的核心能力只有一个:拍照 → 识别食物 → 返回卡路里和营养信息

但要做好这件事,需要解决几个问题:

  1. 视觉理解:必须选支持图像输入的多模态大模型

  2. 回复简洁:眼镜屏幕小、语音播报不能太长,输出要精炼

  3. 响应速度:避免用户等待超过 10 秒,体验才流畅

  4. 工作流编排:通过灵珠平台的工作流,把拍照输入、模型推理、格式化输出串联起来

开发平台选择灵珠 AI 平台(https://rizon.rokid.com),它深度集成了 Rokid Glasses 硬件能力,无需写代码即可完成智能体的搭建和发布。


三、开发过程

3.1 创建智能体

登录灵珠平台后,点击左上角的按钮新建智能体。

填写基本信息:

  • 名称:卡路里识别助手

  • 功能介绍:拍摄食物,智能识别卡路里和营养成分,帮你轻松管理饮食热量

  • 图标:上传一个食物相关的图标(上架审核必须项)

创建完成后会直接进入智能体编排页面,分为左侧人设配置、中间技能配置、右侧预览调试三个区域。

3.2 选择插件

在技能面板中,点击插件区域的+图标,为智能体添加能力扩展。

卡路里识别的核心是图像理解,灵珠平台内置了拍照能力组件,直接添加即可。这个组件会让智能体在对话时具备调起眼镜摄像头拍照的能力。

3.3 编写人设与提示词

人设是智能体行为的核心约束。在"人设与回复逻辑"面板中,我编写了如下提示词:

# 角色 你是一个专业的营养师助手,能够通过图片识别食物并提供卡路里信息。 # 任务 当用户提供食物图片时: 1. 识别图片中的食物名称 2. 估算食物的分量(克数) 3. 给出该食物的卡路里(千卡) 4. 给出主要营养成分(蛋白质、脂肪、碳水化合物) # 回复格式(严格遵守) 食物:[食物名称] 分量:约 [X] 克 热量:[X] 千卡 营养:蛋白质 [X]g | 脂肪 [X]g | 碳水 [X]g # 注意 - 回复控制在 50 字以内,适合语音播报 - 如果图片不清晰,请提示用户重新拍摄 - 不要添加多余的建议和说明

提示词中明确了输出格式,这一点非常关键。眼镜端的显示空间有限,如果模型自由发挥输出一大段文字,用户体验会很差。

3.4 搭建工作流

为了让识别流程更可控,我在智能体中绑定了一个工作流,把整个处理链路显式化。

创建工作流

在灵珠平台的工作流模块新建一个工作流,命名为"食物卡路里识别流"。

接入大模型节点

工作流的核心是大模型节点。这里选择了Doubao-Seed-1.6-Vision,原因:

  • 支持图像输入(多模态),这是识别食物的前提

  • 支持 Function Call,方便后续扩展插件能力

  • 响应速度快,符合眼镜端的实时交互需求

DeepSeek-V3 虽然能力强,但它是纯文本模型,无法处理图片,不适合这个场景。

配置提示词节点

在大模型节点中配置系统提示词,与智能体人设保持一致,同时在用户输入中引用图像变量{{image}},确保拍照内容能正确传入模型。

工作流整体概览

完整的工作流节点链路:开始 → 图像输入 → 大模型识别 → 格式化输出 → 结束

3.5 配置开场白

开场白是用户打开智能体时看到的第一句话,也是引导用户行为的关键。

开场白:对着食物拍一张照片,我来告诉你有多少卡路里! 预置问题: - 帮我看看这个食物有多少卡路里 - 这顿饭大概有多少热量? - 这个零食能吃吗?

3.6 预览调试

配置完成后,在右侧"预览与调试"面板进行测试。

上传几张食物图片验证效果:

  • 一碗白米饭 → 识别正确,热量约 232 千卡

  • 一个汉堡 → 识别正确,热量约 450 千卡

  • 一盘炒青菜 → 识别正确,热量约 80 千卡

响应时间稳定在 5 秒以内,符合上架要求(< 30 秒)。

3.7 发布提审

调试通过后,点击右上角"提审"按钮,填写上架信息,提交审核。

审核通过后,用户可以在 Rokid AI APP 的 Agent Store 中找到并使用这个智能体。


四、踩过的坑

坑1:模型选错了

最开始选了 DeepSeek-V3,发现图片根本传不进去,模型只能看到文字描述。换成 Doubao-Seed-1.6-Vision 后立刻解决。选模型时一定要确认是否支持多模态输入。

坑2:输出太长

初版提示词没有限制字数,模型会输出一大段营养建议,在眼镜端显示非常难看。加上"回复控制在 50 字以内"的约束后,输出变得干净利落。

坑3:没有在提示词中引用插件

添加了拍照插件后,智能体并不会自动调用,需要在人设提示词中用{显式引用插件名称,告诉模型"遇到食物识别需求时调用拍照工具"。这个细节在官方文档的实践案例里有提到,但容易忽略。


五、后续可以扩展的方向

目前这个智能体只做了单次识别,还有很多可以继续做的方向:

  • 每日热量记录:结合灵珠平台的记忆功能,累计记录一天的饮食热量

  • 饮食建议:根据用户设定的目标(减脂/增肌/控糖),给出是否适合吃的建议

  • 食材识别:不只识别成品食物,还能识别超市里的生鲜食材

Rokid Glasses 的穿戴式场景天然适合健康管理类应用,因为它不需要用户掏出手机,随时随地都能用。这个方向还有很大的空间。


六、总结

整个开发过程没有写一行代码,从创建到调试完成大约花了 2 个小时。灵珠平台的可视化编排工具把模型接入、工作流搭建、插件配置都做得很直观,对没有 AI 开发经验的人也很友好。

如果你也想做一个 Rokid Glasses 上的健康类智能体,卡路里识别是一个很好的起点——场景清晰、技术门槛低、实用价值高。

欢迎在评论区交流,也欢迎 fork 这个思路做出更完整的健康管理智能体。

http://www.jsqmd.com/news/663570/

相关文章:

  • OAI 5G NR + USRP B210:从零搭建低成本开源5G实验平台
  • 别再只盯着SQL注入了:从文件上传到WAF层Bypass的5个冷门技巧(含Apache/IIS特性)
  • 双轨三总台五级联动AI智能全领域全场景全适配管控系统技术解析
  • AGI实用化窗口期仅剩37个月?——从LLM推理能耗拐点、世界模型训练效率跃迁与具身智能硬件量产进度三重急迫信号切入
  • 龙泉驿全屋智能选哪家?诺亚家总部直营+1小时服务圈,比本地店省30%
  • 【人工智能】Seedream(即梦AI) 是字节跳动自研图像生成模型,Seedream API_KEY 怎么申请
  • RAG 与记忆机制本质辨析及研究路径评估
  • Social Media Downloader(视频下载工具)
  • Citrix Bleed 2 漏洞(CVE-2025-5777)疑似遭积极利用:ReliaQuest 发布紧急警报
  • Smithbox游戏修改工具技术深度解析:架构剖析与实战指南
  • 深度学习篇---预测模型训练过程中涉及的所有“维度”概念以及流程的动态变化
  • 2026年口碑好的外贸代理/磁铁外贸代理专业公司推荐 - 品牌宣传支持者
  • Halcon 实战指南:基于局部形变的模板匹配在柔性物体检测中的应用与参数调优
  • 5个实战技巧:用ChatGPT写编程提示词避坑指南(附Python示例)
  • OceanBase表级物理恢复
  • 告别玄学调参!基于STM32G4的PID与PFC算法调试实录:我是如何用示波器和串口把效率做到95%+的
  • Kali Linux实战:用Ettercap实现DNS劫持的5个关键步骤(附避坑指南)
  • 别再搞混了!一文讲清舵机PWM、伺服脉冲和占空比的区别(附示波器实测波形图)
  • 从条纹到机理:SAR与光学遥感如何“看见”海洋内波
  • 【2026年最新600套毕设项目分享】基于微信小程序的社区团购(30096)
  • GitHub中文界面终极指南:3分钟让英文GitHub变身中文工作台
  • Navicat导入HTML网页报错怎么跳过_忽略错误记录高级选项
  • OrCAD Capture CIS BOM导出进阶技巧:自定义属性字段全攻略
  • Oracle学工系统实战:手把手教你用SQLMAP绕过某商业WAF(附垃圾数据包脚本)
  • 从事件查看器到Log Parser:构建Windows日志自动化分析实战指南
  • 成都办公室租赁,揭秘行业领先者
  • 宝宝取名网推荐榜单权威解析:如何选择专业、可靠且助运的起名平台
  • 【2026年最新600套毕设项目分享】家具购物微信小程序(30097)
  • 2025届学术党必备的六大AI学术方案推荐
  • 深度解析抖音无水印下载器:开源工具的高效批量下载技术实战