当前位置：首页 > news >正文

当AI工程进入第三层，我们把积累12年的数据「改造」了一遍

news 2026/6/11 11:51:54

最近一个已经接入我们数据服务的客户，发来了一条消息，大意是：

「我们用的是同一款大模型，为什么隔壁团队的AI Agent能输出一份完整的尽调报告，我们的只能输出一堆问号？」

这个问题，让我们内部重新把整套系统拆开来审了一遍。

最后的结论，不在模型，也不在提示词，更多的在于数据。

更准确地说，在于你给AI看了什么数据，以及数据是怎么送进去的。

这也是这篇文章想聊的事。

AI工程的三次发展

AI工程，正在发生第三次范式升级，如果你最近在关注AI工程这个话题，应该会感觉到：行业里的讨论重心已经悄悄变了。

2022年前后，大家都在研究怎么写提示词，让模型听懂你。这是Prompt Engineering（提示工程）时代——有用，但天花板来得很快。模型只能处理单次对话，没有外部感知能力。

更多的是基于提示词的你问我答。

2025年开始，Andrej Karpathy等人开始反复强调一件事：重要的不只是你问什么，更是你在提问时带上了什么数据。RAG检索、MCP工具接入、记忆管理相继成为热门话题。这是Context Engineering（上下文工程）时代。核心洞察只有一句话：AI幻觉不等于模型不聪明，而是上下文数据没给够。

但是！你无法光靠优化提示语来修复限制，本质上绕不过模型自身的短板，另外它无法调取你的私人文档，不知道昨天发生了什么，遇到答不上来的问题时甚至可能一本正经地胡说八道。

这就导致谁的Context工程做得扎实，谁的AI应用就比别人聪明一个量级。

而到了2026年初，又出现了新的概念。HashiCorp联合创始人Mitchell Hashimoto在今年2月正式命名了第三层——Harness Engineering（基座工程）。重点不再是提示词怎么写、给模型看什么，而是如何把这个不稳定、不确定的大模型，变成一台可以在真实业务场景里稳定运转的工业机器。

Harness Engineering的底层逻辑并不复杂，它的关键不在于继续优化提示词，也不在于单纯扩展上下文，而是在模型之外搭建一套能够支撑 Agent 持续执行的运行体系。

「模型是CPU，Harness才是真正的操作系统。」

当大多数团队还在卷提示词、频繁切换模型时，顶尖团队早已把重心转向了另外一件事，重构Harness——结构化的上下文管理、工具系统设计、执行编排引擎、状态与记忆管理，以及独立的评估与约束机制。

而现在大家所做的位置很清楚：为Context Engineering层提供高质量的实时中国企业数据，同时通过SKILL广场，帮助各行业快速搭建Harness层的落地能力。

做一件具体的事

过去一年，我们把传统数据服务全面改造成了AI Agent原生的数据服务。

听起来像是一句宣传语，但原生这两个字背后，有很多实际的工程决策，传统API返回的是原始JSON——AI收到数据，还要自己解析字段含义、判断空值的意思、再决定下一步怎么做。这是一套为人类开发者设计的接口，AI用起来像个临时工，每次都要从零开始理解返回的内容。

现在做的不是把API套上MCP的壳，而是重新思考了数据如何赋能AI，遵循的是另一套逻辑——ACI（AI认知接口）优先：工具的描述、返回值结构、错误处理方式，都针对大模型的理解和决策逻辑进行了专门设计。举三个细节：

一、实体强锚定，防止AI认错人

你跟AI说「帮我查一下万达集团的风险」，AI怎么知道你说的是哪家万达？全国工商注册里，光叫"万达"的企业有好几百家。

而MCP的每次查询，都会执行“二段式核验”协议：先用企业名称定位候选集，再强制用18位统一社会信用代码锁定唯一目标。认错对象这件事，在架构层面被消灭掉了。

二、上下文脱水，省Token也省时间

假设你要查一家企业的司法诉讼，系统底层可能有几千条记录。如果把所有内容全塞进上下文，Token消耗是灾难性的。

但是用参数下推和分页摘要的方式解决这个问题——AI按需索取，系统返回「总量3515条，已获最新30条」，并附带分页继续获取的工具接口。模型只看它当前需要看的，效率和成本同步优化。

三、强语义状态码，让没数据也有意义

这是个容易被忽视但很关键的设计细节，传统API查不到失信记录，返回的是

get_dishonest_info() → [ ]

AI怎么理解这个空数组？「没数据」「查询失败」「真的没风险」——三种可能，AI得靠猜。

经底层数据库全量核查，未发现严重违法记录。此项合规安全，允许进入下一步审计。

AI立刻读懂：绿灯，继续。这不是美化输出，而是把「歧义」这种幻觉风险，从架构层消灭掉。

SKILL广场，从能查到会用

工具层做好了，但还差最后一步。

不同行业的人面对同一批数据，需要的结论完全不同。银行合规团队要KYB开户审查和AML反洗钱流程；PE/VC投资人要股权穿透图、诉讼风险摘要、专利资产清单；法务同学要签合同前自动核验对方主体是否已注销；采购团队要批量扫描候选供应商，哪几家失信、哪几家资质过期。

SKILL广场做的就是这件事：32个经过真实业务场景验证的开箱即用行业解决方案，分成四个方向：

银行·合规风控：KYB核验、AML反洗钱、OFAC/OFSI/EU/UN四大制裁名单筛查、受益所有人穿透……10个SKILL
投资人·FA：IC Memo投委会备忘录、股权结构穿透、企业画像、高管背景核查……8个SKILL
律师·法务：合同核验、诉讼风险、破产预警、合规资质验证……10个SKILL
采购·供应链：供应商准入、风险扫描、年度体检……4个SKILL

用两个具体的例子说明差距：

IC Memo SKILL（PE/VC投委会备忘录）

投资机构出一份IC Memo，传统流程是分析师人工整理资料：工商信息、股权图、诉讼检索、专利清单、高管背景……分散在不同数据库和人工搜索里，快的3-4天，慢的可能更久，还免不了遗漏。

接入MCP之后，这套流程变成：输入目标企业名称，AI自动调用MCP，30秒左右输出完整的股权结构穿透图、历史诉讼败诉案件摘要、专利资产清单、法定代表人及高管背景核查结果。

KYB企业核验 SKILL（银行开户/贷款申请）

客户提交开户或贷款申请后，AI自动执行18类风险扫描——失信被执行、严重违法、经营异常、高消费限制、股权冻结、税务违规……任何一项触发，系统立即熔断，不需要人工逐条检索。整个流程约30秒，单户成本从人工的¥300-500降到¥5-10。

符合FATF Recommendation 10/12标准的AML流程、PEP政治关联人士的自动识别、50%所有权规则下的关联实体穿透——这些在银行合规里本来需要专门配置的流程，在SKILL广场里是直接开箱就有的能力。

04. 接入有多简单

MCP接入方式是SSE云端托管，不需要自建服务器，配置一段JSON，3分钟完成接入。

{ "mcpServers": { "qcc-company": { "type": "sse", "url": "https://mcp.qcc.com/sse/qcc-company?key=YOUR_API_KEY" } } }

目前已适配12个主流平台：OpenClaw、Cursor、阿里云百炼、Coze、飞书AI、Cherry Studio……

如果你的工作流是固定逻辑的（不需要AI推理判断，只是重复性数据验证），同时提供CLI命令行接口——零Token消耗，直接返回原始JSON，适合自动化脚本和批处理。MCP和CLI共用同一套API Key，额度不重复计费。

所有SKILL来自6个开源GitHub仓库，Apache 2.0协议，可以直接Fork修改，也可以一行命令装进Claude Code等工具。

回到开头那个客户的问题。

「为什么隔壁团队的AI能出完整尽调报告，我们的只能输出问号？」

答案不复杂：那个团队给AI配了高质量的数据底座，而这次的输出却没有。

Context Engineering是2025年以来真正的分水岭。模型谁都能用，数据质量和接入方式才是AI应用真正拉开差距的地方。

SKILL广场已开放，32个行业方案全部开源。如果你正在开发AI应用，或者在用AI处理中国企业数据，可以去看看。

查看全文

http://www.jsqmd.com/news/642418/

从0手把手教你写AI Skill（附规范目录+可运行代码）

与其他国际口罩品牌对比：回归工业颗粒物防护本质，3M为何更值得重点关注

bge-large-zh-v1.5开源模型实践：符合信创要求的国产AI基础设施部署

终极指南：FakeLocation Xposed模块如何实现应用级虚拟定位

MoveIt Servo 如何通过 FollowJointTrajectoryControllerHandle Action Server 通信

了解电爪分类与核心参数，靠谱电爪品牌挑选实用方法 - 品牌2026

2026年中高考将至！揭秘好用的提分技巧，这家权威机构不容错过！

ITensors——一个聪明的张量网络库（4）

【多模态大模型知识蒸馏实战指南】：3步压缩ViT+CLIP模型，推理速度提升4.7倍、参数量减少89%（附PyTorch可复现代码）

光伏MPPT专题（2）【讲解】基于改进扰动观察法的光伏MPPT最大功率跟踪算法(自适应步长、大步长、小步长对比)

ai coding到底选什么模型?claude,gpt,glm,gemin,KIMI K2.5,MiniMax-M2.7底怎么选,最全总结

Samhelper（Sam helper 下载）

ITensors——一个聪明的张量网络库（1）

ITensors——一个聪明的张量网络库（2）

解决PyTorch与TorchVision版本冲突：从依赖管理到环境隔离的实战指南

bootstrap怎么给图片添加滤镜效果

OWL ADVENTURE新手教程：像玩游戏一样轻松玩转图像识别AI

XSLT Apply: 实用技巧与深入解析

搜索效果提升300%的多模态实战方案（工业级部署白皮书首次公开）

Python爬虫实战：用Requests+正则搞定马蜂窝景点评论，数据直接存TXT

从零部署Orbbec Gemini2：ROS2 Humble环境下的驱动配置与多话题数据解析

RDP Wrapper终极指南：3步解锁Windows家庭版远程桌面完整功能

基于西门子HyperLynx与Flotherm联合进行PCB焦耳热仿真的技术解析与实战指南

apache-seatunnel使用手册

SP4523锂电池充放电 SOC

洞悉电爪性能特点与应用：2026年优质电爪品牌甄选实用指南 - 品牌2026

终极BT下载加速指南：免费提升下载速度的完整教程

多智能体五大协调模式入门到精通（非常详细），看这篇就够了！

AI工程的三次发展

做一件具体的事

SKILL广场，从能查到会用

相关文章：