当前位置: 首页 > news >正文

工业视觉踩坑实录(二十二):做了SOP行为检测,我才发现detection是入场券,SOP才是定价权

做了SOP行为检测,我才发现detection是入场券,SOP才是定价权

摘要:5月份我接了一个无堂食外卖智能监管的项目,10项检查要点。我当时按detection思路做了检测模型方案,最近复盘才发现客户根本不是在买"看见"问题的能力。他买的是"判断"的能力。这篇文章就讲这个认知错位,看完你会明白工业视觉真正的价值不在detection,在SOP。

关于作者

我接触视觉整整10年。

机器视觉、烟草、煤矿等行业都有深度开发经验。从硬件选型、算法开发、模型训练,到上位机开发及部署,都在一线磨过。

之前是多家公司人工智能团队的技术负责人。现在自己创业了,还在继续做视觉落地这件事。


作者说

5月份有个项目找上我,不是工厂的,是无堂食外卖订餐单位的AI视觉智能监测。

需求方是市监局。市监局要求外卖店的后厨装摄像头做合规监管,列了10项检查要点。大概是这样的。

  1. 营业执照、食品经营许可证公示
  2. 菜品与许可项目一致,无超范围经营
  3. 后厨环境卫生
  4. 「三防」设施有效
  5. 从业人员持有效健康证
  6. 穿戴清洁工作衣帽、个人卫生
  7. 食品处理区配带盖垃圾桶
  8. 食品隔墙离地存放
  9. 食材来源可追溯
  10. 餐盒为食品用级

我按检测类项目做了一整套技术方案。10个检查点,每个点配一个独立的检测模型,工服、口罩、垃圾桶盖、食材落地、餐具标识,每个各管各的。模型识别到了就告警,识别不到就算合规。

方案做完了,报价出了。但做完这单之后我心里一直有点不舒服,总觉得哪里不对。


直到最近复盘那单的时候才反应过来。

我一直在优化"看得更准",但客户在买"怎么判断"。

detection能力强不强,决定了你能不能发现问题。但SOP能力强不强,决定了你能不能卖出一个系统。

这两个能力根本不在一个层级上。我之前按detection思路报价,等于卖的是"看见问题的能力"。但客户真正购买的是"判断问题的能力"。

说到底,5月份那单我低估的不是检测难度,是"客户真正购买的根本不是检测能力"这件事。


01 当时我跟客户确认需求,发现他们自己也没想清楚"怎么检测"

5月份那单我实际上做的是报价。

我跟客户反反复复确认需求。客户说「后厨环境卫生要合规」「食材要隔墙离地」「员工要按规范操作」。听上去都对,但继续追问就出问题了。

「合规」到底是什么状态?「隔墙离地」用什么指标判定?「按规范操作」具体是哪几步?

客户答不上来。

他们能列出一堆检查项(10项),但每项的「检测标准」是模糊的。「地面要干净」多干净算干净?「垃圾桶要加盖」怎么判断「盖了」?

这不是客户不专业。是这类需求天然就是「流程描述」,不是「指标描述」。

我当时怎么解决的呢。我按detection思路硬做。给每项配检测模型,「检测到就合规,检测不到就不合规」。比如「垃圾桶是否加盖」就用检测模型判断盖子状态,「地面是否干净」就用图像分类判断清洁度。

这个思路在detection能力上是通的。但它根本回答不了客户的真实问题

客户要的不是「检测到口罩」「检测到垃圾盖」,是「这个员工有没有按规范操作」。detection给的是「画面里有什么」,SOP给的是「流程对不对」。

我当时以为detection就能搞定客户的需求,所以按检测思路做的技术方案和报价。

这个选择的根是商业判断,不是技术能力。我当时选择「按检测清单报价」,是因为觉得这样能跟客户对上账。但事后看,客户提的不是「检测清单」这个事,是「流程合规判定」这个事。我用检测的范式去接一个本来应该用SOP范式去接的项目,报价逻辑就错了。

技术本身不是错的,错的是我没能识别出这个项目的核心是商业判断(卖什么能力),而不是技术选型(怎么实现检测)。


02 detection ≠ SOP能力,是两种不同的资产

detection和SOP的根本区别,不是技术能力的高低,是资产类型的不同。

detection是商品化能力。

在工业视觉的成熟场景里,口罩检测、健康证OCR、垃圾桶状态识别这些能力,市场上谁都能做。开源检测模型一大堆,数据标注服务一抓一大把,训练一个能用的检测模型,几天时间就够了。

成熟场景里的detection市场是成本竞争市场。你能做的,别人也能做。最终拼的是数据成本、训练成本、人力成本。毛利率低,护城河浅。

但别走极端。

detection本身不是贬义词。很多工业视觉项目就是纯detection需求,零件检测、缺陷检测、表面瑕疵检测,这些项目卖的全是detection能力,按件、按工位报价是合理的。这条路能走,只是越来越难。

SOP检测也一样需要训练模型。动作识别、OCR、检测都得重训,数据采集、标注、训练的成本一点都不低。SOP不是零成本的轻量货。

那为什么说SOP是护城河?因为同样的训练成本下,detection只能服务一个场景,而SOP的"判断结构"可以服务多个场景。这是复用效率的差别。

但要注意,这里复用的不是SOP规则本身,是判断框架。具体规则每个场景都不一样。「进入后厨→洗手→戴口罩」是后厨的SOP,「取零件→放夹具→拧螺丝」是工厂的SOP,两套规则不能混用。能复用的是背后那套事件流+状态机+规则引擎的结构。

SOP是业务逻辑资产。

把detection结果组织成"流程合规性判断",这需要事件流、规则引擎、状态机、时序判定,加上特定场景下的SOP规则库。这些东西没法靠开源模型堆出来。

每个行业的SOP规则都不一样。工厂装配SOP、后厨食安SOP、实验室操作SOP、化工流程SOP,每一套都是独立的业务逻辑资产。

SOP市场是溢价市场。能做detection的人很多,能做SOP的人很少。能跨场景复用SOP判断框架的,更少。

这就是为什么detection做得好不一定能卖出系统,但SOP能力强的厂商可以跨行业收费。

商业售卖维度二者是两类独立可变现资产;技术架构层面 detection 是 SOP 的前置输入层级

会有人反驳「没有detection哪来的SOP」。这话没错,但反驳的方向错了。

detection是"看见问题的能力",SOP是"解释问题的能力"。这两者不是上下层的关系,是上下游的依赖关系,detection是SOP的必要前置输入,SOP是detection结果之上的业务逻辑层。

detection在成熟场景里可以被采购、被外包、被开源替代。SOP很难被标准化替代,不是技术上不可行,是业务逻辑每个场景都不一样。

这就形成了两种明显不同的市场位置。

顺便说一句重话。

市面上现在很多公司,打着SOP行为检测的名号,实际上交付的就是detection能力。套个规则引擎的外壳,里面跑的是单帧识别+简单告警。

这种「伪SOP」项目很多。它们低化了市场对SOP的认知,让客户以为SOP就是「高级一点的检测」。

真SOP和伪SOP的差别在哪。简单分三个层。

  • 第一层,单帧检测。检测到口罩就告警,检测不到就合规。这是最基础的detection。
  • 第二层,多帧时序。检测到连续3秒手在洗手区域,就判定为洗手。这是有时序判定的,但只覆盖单步骤。
  • 第三层,完整SOP。多步骤连续判定,进入后厨→洗手→戴口罩→戴工帽,任一环节缺失或跳步都判定违规。这才是流程合规判定。

真SOP属于第三层。第一层和第二层严格说都是detection能力,不是SOP能力。

这个三层划分不是我拍脑袋的。我自己做SOP检测的技术演进路径恰好就是这三层的升级。

  • 第一层我一开始做的是目标检测加简单告警(检测到零件就告警)
  • 第二层是线性状态机加超时判定(YAML配每个步骤的状态流转)
  • 第三层是事件驱动加DTW序列匹配(事件流进入,时序对齐,跳步违规判定)

我从第一层走到第三层,这条路径里detection能力一直在变(每场景要重训),但判断逻辑的架构一直在沉淀。第一层到第三层的进化本身就是SOP判断框架复用的过程。

市面上很多「SOP项目」实际交付的是第一层或第二层,套个SOP名词卖钱。能稳定交付第三层能力的供应商在市场上是稀缺的。


03 商业本质:detection和SOP在不同问题上有不同定价权

我把这件事讲得更准确一点。

detection能力是不是能定价,取决于场景。

通用场景下的detection(口罩检测、健康证OCR、垃圾桶状态识别)确实不构成定价权。你能做到90%,别人也能做到90%。客户选择你,不是因为你的detection比同行强5%,是因为别的原因,价格、关系、服务、本地化、过往项目经验。

高精度特定场景下的detection,本身就是护城河。比如玻璃表面细微划痕、半导体晶圆缺陷、医疗影像异常区域识别,这些场景能做到95%准确率和90%准确率完全是两个物种。这种detection能力是构成定价权的。

后厨那种场景的口罩检测,光线变化、遮挡、口罩拉下巴上,detection本身就不容易做稳。如果SOP依赖的检测节点有一个准确率掉到80%,整个流程合规判定的可信度就崩了。客户不会为判断框架买单,如果判断的输入经常出错。

所以detection和SOP是协同关系,不是替代关系。没高精度的detection,SOP就是空中楼阁。SOP的溢价,是建立在detection已经做到足够好的基础上的。

SOP的定价权在哪,在流程合规类场景。

这种场景里,客户要的不是「画面里有没有什么」,是「操作流程对不对」。这才是detection解决不了、SOP才能解决的问题。

掌握了SOP判断框架的厂商,可以同时服务多个流程合规场景。detection能力每个场景都要重训,SOP判断框架可以一套架构跑多个行业。

这种跨场景能力,才是有定价权的部分。

这一套逻辑的适用范围是流程合规类场景。如果你是做PCB缺陷检测、半导体晶圆检测这些纯detection场景的,这篇文章跟你关系不大,你那个场景里detection就是全部,没有SOP什么事。

工业视觉的利润分配:通用detection是成本竞争,高精度detection和SOP是溢价竞争。


04 SOP的可复用,复用的是"判断框架"不是"规则本身"

讲清楚这件事很重要,不然会被一句话打穿。

很多人会反驳「你SOP换个行业不还是全要重做?规则不能复用,SOP的能力就是个笑话」。

这话前半句是对的。

工厂的「取零件→放夹具→拧螺丝」、后厨的「洗手→戴口罩→戴工帽」、实验室的「取试剂→反应→清理废弃物」,这三套规则本身完全不一样,跨场景不能复用。

SOP真正可复用的,是背后那套「事件流+状态机+规则引擎+超时跳步机制」的结构,以及「怎么把检测结果组织成时间序列、怎么编排规则、怎么做合规判定建模」的方法论。

这一点我自己踩过坑才看明白。我最初在工厂场景里用的是线性状态机,结果碰到并行操作、可选步骤、条件触发就装不下了,YAML配置从30行胀到200行还是控不住。后来重构为事件驱动架构,加动态时间规整(DTW)做事件序列匹配,才把这个表达力的坑填上。

这个架构升级跨场景是可以复用的。换个行业,状态机还是要拆成事件驱动,DTW那套序列匹配还是要用,编排规则的方法还是要重新设计。但具体的事件定义、超时阈值、序列模板,每个场景要重写。

复用的是架构能力,不是规则内容

换一个类比。detection像是训练一个识别猫狗的模型,场景变了(识别飞机)就得重训。SOP的判断框架像是「怎么搭建一个图像分类系统」的能力,你可以用它搭猫狗分类、飞机识别、零件缺陷检测,每搭一个都需要重训分类器,但「怎么搭」这件事不用重新想。

SOP的价值不在减少重训,在减少系统重构。

detection每换一个场景得重训模型。SOP判断框架每换一个场景,规则内容要重写,但系统架构不用重写

从0到1搭一套SOP系统的工作量不小,不比从0到1训一套detection模型少多少。但基于已有SOP架构扩展一个新场景的工作量,主要集中在内容重写和调试上,架构部分不用重新思考。

这里要诚实说一点,架构复用的价值是一次性封顶的。你搭好第一套SOP系统之后,后续场景的边际成本下降是真实的,但不会线性无限下降。架构复用提供的是「上限抬高」而不是「成本递减到零」。

但上限抬高本身是值钱的。它让「交付一个流程合规系统」从完全项目制变成「项目交付+产品复用」的混合模式。

但这一切成立有一个隐藏前提,detection层的输出必须标准化。比如「口罩检测」模型不管在工厂场景还是后厨场景训练,输出格式必须是统一的,bounding box + class + confidence + 时间戳。这样下游的SOP引擎才能消费。

如果detection层输出乱七八糟,SOP引擎再强也接不上。结构复用的前提是感知结果标准化。

这也是为什么成熟的SOP产品都强调「模型层可替换,判断框架统一」。模型层每个场景重训,判断框架一套跑所有场景。


05 后厨案例:我把"流程问题"当成了"检测清单"

回头看5月份那个项目的10项检查要点,说到底可以分成两类问题。

一类是流程问题(SOP问题)。

  • 「进入后厨 → 洗手 → 戴口罩 → 戴工帽」
  • 「操作食材时必须按规范穿戴防护」
  • 「食材入库 → 上架 → 不落地」

这类问题的核心不是"有没有某个东西",是步骤是否按顺序发生

另一类是静态检测问题(detection问题)。

  • 营业执照OCR
  • 健康证OCR
  • 餐具"食品用"标识识别
  • 工服、口罩检测
  • 垃圾桶是否加盖
  • 食材是否落地
  • 三防设施检测
  • 食材来源追溯OCR

这类问题的特点是,只判断状态,不关心顺序

这里要坦诚说一件事。按上一节真SOP的三层划分,后厨项目里只有「洗手→戴口罩→戴工帽」这一条勉强够得上第三层完整SOP,其余8项都是第一层单帧检测。

也就是说,后厨这个项目说到底是以detection为主、附带少量时序判定的混合场景。

那为什么这个项目还能作为案例来讨论。不在于它能完整论证"SOP才是定价权",在于它展示了两种能力的错位混用后果。

后厨项目的真实需求是「取证留痕+覆盖率达标」而不是「过程合规率」。这个跟工厂装配、制药GMP这类以过程合规为核心的场景不一样。后者的SOP需求才是本文讨论的核心场景。

后厨案例帮我看清的是技术能力和定价能力的错位。但论证SOP本身的护城河价值,需要看的是纯流程合规场景。下文会顺着这个错位讨论,然后补一段说明SOP定价权主要出现在哪类场景。

但我当时的做法是,把这10项全部按"检测清单"来处理。每一项都配一个模型,检测到了算合规,检测不到算不合规。然后在上面再硬套一层规则引擎,用一堆if-else去包装这些判断。

但说到底,这些if-else并不是SOP,它只是检测结果的再封装

detection回答的是"画面里有没有什么"。

SOP回答的是"这件事做得对不对"。

这两者根本不是一个层面的东西。

而我当时的报价方式,是按"检测清单"来算的。也就是说,我把可以商品化的detection能力、应该溢价的SOP判断能力,打包成了一个"按点位计价的检测项目"。

结果就是,我用商品的定价方式,卖了一个本来应该按系统能力定价的东西。

这个错位直接导致我用"项目报价逻辑"去定价一个"系统能力问题"。

这单我不是技术做错了,是定价逻辑错位了

事后还有一个验证。

这个项目最后被电信和中国移动截胡了。

这里要说一下,这个项目的截胡背后不只是报价竞争。运营商拿这类项目的优势是「云网渠道+资质背书+规模化交付」,不是技术领先。中国电信官方描述这类项目的卖点就是"依托千兆光网、AI视觉与天翼云",他们靠的是生态能力而不是算法能力。

即使我当时用的是SOP报价逻辑而不是detection清单报价,结果大概也一样。他们拿这个项目不是因为我的报价方式,是因为他们本来就在这个渠道里。

所以讲5月份这一单的根因,不只是"我卖错了范式",还有"对渠道型对手不能用正面报价的方式竞争"。明厨亮灶这个赛道里,中国移动这种渠道型对手是主力,正面报价值不大。

这一点上5月份那单给我的教训不是"我要换范式卖",是"我要选对赛道再下场"。

但范式选择上的教训仍然是成立的。

不同点在哪。

检测项目被集成商拿走,替换成本极低,换个模型、换套API就完事了。这类项目说到底不是资产交付,是一次性采购。

但一套与业务深度绑定的SOP合规系统,一旦跑通,替换意味着全流程规则重新梳理、告警阈值重新调试、和监管逻辑重新对齐。集成商要拿走的成本,远不止一套软件,还有几个月的现场实施和业务磨合。

这也是为什么后厨SOP这个场景难交付,但一旦交付进去也难替换。这是SOP作为「资产」的另一层含义,不仅是"可复用",还是"难替换"。

至于这个项目对客户来说是KPI还是真实需求,不展开了讨论。但有一条事实可以讲,运营商拿这类集成项目,优先级是中标和交付,不是精度优化。后续运维和精度调整不在他们的项目收益模型里。

愿意为精度付钱的客户才是真客户,这个判断后面还会验证。不愿意的客户给谁做都一样,交给能中标的那家。


06 真正的产品形态:SOP能力是产品,detection是输入接口

理解了上面这些,你应该能看出来工业视觉系统的正确产品形态应该是什么。

SOP能力 = 决策层产品(这是真正卖给客户的东西)

决策层产品解决的是"判断"问题。流程对不对、违规有没有、风险在哪里、合规率多少。这些是客户真正关心的。

detection = 输入层能力(这是工具,可以被替换)

输入层能力解决的是"看见"问题。detection能力强不强决定你能不能解决问题,但detection能力本身可以被采购、被开源、被外包。

但要注意,SOP的有效性依赖于输入层的标准化输出。没有稳定的detection结果,SOP引擎接不上。这不是上下层关系,是依赖关系。

卖产品不卖工具。

如果你只能卖detection能力,你就处于成本竞争市场。每接一个客户都要重训模型,每开一单都要重新议价。

如果你能卖SOP能力,你就处于溢价市场。每接一个客户增加的是SOP规则内容(场景重写)和调试工作量,但SOP判断框架复用,不需要重复设计架构。这部分内容上一节已经讲过,这里不重复。

理解了这一点,你就理解了为什么我说"detection决定你能不能看见问题,但SOP决定你能不能卖出一个系统"。

5月份那单我真正应该卖的,是SOP能力。

不是"我能检测10项",是"我能帮你判定后厨操作流程的合规率"。

这两个卖法的客单价、决策链、复购率、利润率,完全不一样。


写在最后

回头看5月份那单,我真正低估的不是检测难度,是客户买单逻辑本身。

我当时卖的是「看见问题的能力」,但客户要的是「判断问题的能力」。

这两者之间,不是优化空间,是定价模型的差异。

这一单对我自己的冲击在于,我以为自己在交付detection能力,客户其实是在评估我能不能交付流程合规能力。我没能在报价阶段把这个错位讲清楚,所以走了detection清单的路子。

现在我能理解到的教训是。model精度是入场券,它决定你能不能进场;SOP判断框架是定价权,它决定你能不能拿到溢价。这一条不一定适用于所有工业视觉场景,但对流程合规类场景是成立的。

我现在正在做的事,是重新设计SOP报价的逻辑。流程合规类项目按SOP报价,detection类是另一套报价逻辑。这个认知对我的创业是一个明显的分水岭。

如果你也是做工业视觉的,可以停下来想一秒,你卖的是「看见」的能力,还是「判断」的能力?这个差别,不一定是所有场景都适用的,但对流程合规类场景是估值上的差别。


如果你的企业也正在面临AI视觉落地的难题,或者装了摄像头却只能做简单的状态抓拍,欢迎后台交流。我们提供从流程梳理到合规判定的完整系统方案。

📎 SOP系列文章

  • 工业视觉踩坑实录(六):SOP行为检测,用AI替你盯着工厂流水线
  • 工业视觉踩坑实录(十三):SOP系列之二,「你们这是帮我们,还是监视我们?」
  • 工业视觉踩坑实录(十九):7个被问爆的SOP检测问题,我把坑都替你踩了

📌 标签:SOP行为检测、工业视觉、护城河、流程合规、detection、判断能力、跨场景复用

http://www.jsqmd.com/news/1082043/

相关文章:

  • [智能体-513]:Step4:让 Bot 工作、有章法、固化最佳实践|剪映 CapCut 关键词 + 关键技术术语完整详解
  • 黑龙江深山信号盲区怎么解决?专网中继通信方案详解
  • 二手萨姆肯 SAMCO RIE-300NR 反应离子刻蚀系统技术规格详解
  • 从缓存到知识库:用 RAG 给 OCR 系统加上“长期记忆”
  • Jmeter 压测保姆级入门教程
  • LinkSwift:五分钟搞定九大网盘直链下载,告别龟速烦恼
  • HDMI显示异常问题(MPO接口拔插问题)
  • LinkSwift深度解析:开源网盘直链提取工具的技术架构与实战指南
  • 浏览器控制台模拟请求
  • 【IDEA文件模板高阶实战指南】:20年JetBrains深度用户揭秘97%开发者不知道的5大模板黑科技
  • 重磅:chatgpt对低价、黑Pro进行大清算!正价用户也被殃及。
  • 玉虎装饰家装工装双轨并行,一站式承接全品类装修需求
  • 树莓派GPU内存分配误区解析:gpu_mem参数的正确使用指南
  • KMS智能激活脚本:3分钟免费激活Windows和Office的终极解决方案
  • 2026年,四川省成都市透明胶带厂商名声究竟如何?背后真相大揭秘!
  • VMware vSphere 8.0与Windows Server 2022 Hyper-V功能对齐全景图:18项关键能力逐行比对(含API/SDN/TPM支持)
  • 告别Windows激活烦恼:智能脚本让系统授权变得简单
  • 广州机电安装公司推荐?广州机电安装价格!
  • 063、MCP 协议基础:Model Context Protocol 的架构与 CodeX 的集成方式
  • Windows和Office激活终极指南:KMS智能激活脚本完整教程
  • 信安毕设最全选题怎么做
  • Chatbox终极指南:3步轻松搭建你的AI桌面助手
  • 宽压、精控、多调光:TP8525 大功率LED恒流驱动芯片应用场景深度解析
  • 如何快速将XAPK转换为APK:一站式解决Android应用安装兼容性问题
  • KMS_VL_ALL_AIO:3分钟搞定Windows和Office激活的终极方案
  • 一种另类的最小生成树(MST)算法:Boruvka算法
  • 【Netty源码解读和权威指南】第69篇:Netty与gRPC——高性能RPC框架的底层网络秘密
  • 【控制工程全栈】2026年自控阀门技术架构解析与源头工厂选型指南(附总线诊断Python源码)
  • okbiye AI 写作数据分析:甩掉 SPSS 与 Python,自动生成可直接复用的 docx 实证报告
  • Destiny 2 Solo Enabler:3步实现单人游戏,告别匹配烦恼