当前位置: 首页 > news >正文

【多模态Grounding】精准识别+定位 营业厅人员行为分析

背景

利用qwen-vl加提示词功能,精准识别营业厅工作人员行为,准确区分顾客与工作人员,并且能够识别工作人员行为、精准定位工作人员,帮助实现相关工作场所的监控管理。

如果只用qwen-vl而不进行提示词工程、流程筛分等工作的话,模型非常有可能把顾客识别成工作人员,我用两个小时才调试好。目前能实现工作人员的精准识别,对于玩手机等行为也能识别出来,但是具体行为分类还有待加强,柜台外的工作人员暂时无法识别。

使用网络图片,效果如下(真正的业务图片会更清楚一些),中间绿色的女工作人员,其实应该是使用手机:

这张图片,使用qwen3-vl-flash,能将左侧女工作人员判定为”正常工作”
使用手机:

整体流程

步骤1:

逐个分析图中的人员,结合衣着(是否是工作服)、位置(是否位于柜台内)来进行识别,重点是让模型理解什么是“柜台内”(我用名词解释实现了),让模型在长上下文推理中始终把握“柜台内是工作人员、柜台外是顾客”(我用复述技巧实现了)。完成了这两点,就可以精准识别工作人员了。

在这一步骤中,我的“复述”技巧,vl视觉模型不太能遵循,我本来是想让vl模型每识别一个人,就复述一遍,但是这会破坏vl模型的理解能力。类似的技巧在语言模型中就能完美适用,充分说明了语言模型与视觉模型的差异。

下面是我的提示词(假设工作人员都在柜台内):

逐个分析图中人员,找出工作人员和顾客。**逐个识别图中人员,每次分析人员身份前, 请复述【请注意,工作人员位于柜台内(图片下方),穿着工作服;顾客位于柜台外(其他位置),不穿工作服】**每位人员的详细描述:*位置(柜台内或柜台外,见名词解释)*衣着(是否穿工作服)*当前行为(使用电脑、使用手机等) 名词解释:-柜台内:位于屏幕下方,专属于工作人员,可以看到电脑、办公桌等办公设备,类似于办公室-柜台外:位于屏幕中央,顾客等待、接受服务的区域,类似于办事大厅

步骤2(可选)

生成环境描述,这一步可选可不选。提示词(模型生成的):

请详细描述这张营业厅场景图片的环境和氛围,需要包含以下内容: 【环境描述】1.营业厅的整体环境2.营业厅的设施设备3.人员活动情况

步骤3

在这一部中,需要结合第一步的结果,生成画框,框定工作人员及其行为。参考内容{reference_section}来自步骤1。

结合【参考信息】,识别图片中的所有**工作人员**,并输出坐标:{reference_section}**【识别字段】**1.bbox_2d:bbox_2d格式,坐标值范围0-9992.label:-"使用电脑":工作人员正在操作电脑-"使用手机":工作人员正在使用手机-"正常工作":工作人员在进行其他工作活动(如接待顾客、整理文件、站立服务等)**【输出格式】**请以JSON格式输出:[{{"bbox_2d":[x1,y1,x2,y2],"label":"工作人员-使用电脑"}}]

完整代码

见资源附件,或github

http://www.jsqmd.com/news/249649/

相关文章:

  • 如何用光耦来设计可靠的串口电平转换隔离电路
  • 硬件加密狗复制之通信协议
  • C++跨平台开发挑战的技术文章
  • Java性能优化实战技术文章
  • 大模型进阶:12种RAG黑科技全解析,小白也能玩转AI检索增强!
  • TCP/IP协议栈:从四层模型到未来网络
  • 8年Java老兵被裁:不学AI,你的代码终将被Copilot替代!彭靖田亲授大模型开发,10小时带你入门逆袭
  • Verilog/SystemVerilog 程序语句详解
  • 华为手机相册竟藏着这么多“黑科技”?这4个功能太实用了,不用真亏!
  • RAG检索“翻车“现场:文档切片让AI变成“近视眼“!这个黑科技让大模型“看清“全文
  • HIWIN滚珠丝杆安装关键步骤有哪些?怎样保证运行精度?
  • HIWIN滚珠丝杆安装后异响如何解决?日常维护要点?
  • 【开题答辩全过程】以 基于Springboot vue肢体残疾人就业服务网站的设计与实现为例,包含答辩的问题和答案
  • 唤醒大脑潜能:科学提升记忆力
  • 【开题答辩全过程】以 家庭教育资源网为例,包含答辩的问题和答案
  • 【开题答辩全过程】以 基于Java的智慧党建管理系统的设计与实现为例,包含答辩的问题和答案
  • 【开题答辩全过程】以 家政服务平台为例,包含答辩的问题和答案
  • 吐血推荐10个AI论文写作软件,专科生毕业论文必备!
  • 【收藏】AI编程革命:从“写代码“到“描述需求“,程序员如何不被淘汰?
  • Java 应用程序已被安全阻止 —— 原因分析与解决方案
  • AI三大黑科技:MCP、RAG、Agent,让AI从“工具“变“助手“
  • 【必藏】LangGraph实战教程:构建智能笑话生成评估工作流
  • “特种橡胶”高端领域的性能先锋,赋能极端环境与精密制造
  • 程序员警惕!AI已斩断成长路径,但真正的护城河在这里【深度收藏】
  • 瑞芯微(EASY EAI)RV1126B 安全帽检测
  • 反激式开关电源设计方案,12V6A输出,有完整原理图,PCB工程文件,BOM表,可直接使用
  • 钥匙启动车辆改装为一键启动或手机远程启动提升便利性
  • 收藏!一文读懂Agent思维链技术:从Claude到Gemini,为什么说这是Agent性能提升的关键?
  • kafka C++ 和 java端计算分区ID不一致排查
  • 收藏!2026年程序员必看:为什么‘只会写代码‘正在被AI淘汰