当AI工程进入第三层,我们把积累12年的数据「改造」了一遍
最近一个已经接入我们数据服务的客户,发来了一条消息,大意是:
「我们用的是同一款大模型,为什么隔壁团队的AI Agent能输出一份完整的尽调报告,我们的只能输出一堆问号?」
这个问题,让我们内部重新把整套系统拆开来审了一遍。
最后的结论,不在模型,也不在提示词,更多的在于数据。
更准确地说,在于你给AI看了什么数据,以及数据是怎么送进去的。
这也是这篇文章想聊的事。
AI工程的三次发展
AI工程,正在发生第三次范式升级,如果你最近在关注AI工程这个话题,应该会感觉到:行业里的讨论重心已经悄悄变了。
2022年前后,大家都在研究怎么写提示词,让模型听懂你。这是Prompt Engineering(提示工程)时代——有用,但天花板来得很快。模型只能处理单次对话,没有外部感知能力。
更多的是基于提示词的你问我答。
2025年开始,Andrej Karpathy等人开始反复强调一件事:重要的不只是你问什么,更是你在提问时带上了什么数据。RAG检索、MCP工具接入、记忆管理相继成为热门话题。这是Context Engineering(上下文工程)时代。核心洞察只有一句话:AI幻觉不等于模型不聪明,而是上下文数据没给够。
但是!你无法光靠优化提示语来修复限制,本质上绕不过模型自身的短板,另外它无法调取你的私人文档,不知道昨天发生了什么,遇到答不上来的问题时甚至可能一本正经地胡说八道。
这就导致谁的Context工程做得扎实,谁的AI应用就比别人聪明一个量级。
而到了2026年初,又出现了新的概念。HashiCorp联合创始人Mitchell Hashimoto在今年2月正式命名了第三层——Harness Engineering(基座工程)。重点不再是提示词怎么写、给模型看什么,而是如何把这个不稳定、不确定的大模型,变成一台可以在真实业务场景里稳定运转的工业机器。
Harness Engineering的底层逻辑并不复杂,它的关键不在于继续优化提示词,也不在于单纯扩展上下文,而是在模型之外搭建一套能够支撑 Agent 持续执行的运行体系。
「模型是CPU,Harness才是真正的操作系统。」
当大多数团队还在卷提示词、频繁切换模型时,顶尖团队早已把重心转向了另外一件事,重构Harness——结构化的上下文管理、工具系统设计、执行编排引擎、状态与记忆管理,以及独立的评估与约束机制。
而现在大家所做的位置很清楚:为Context Engineering层提供高质量的实时中国企业数据,同时通过SKILL广场,帮助各行业快速搭建Harness层的落地能力。
做一件具体的事
过去一年,我们把传统数据服务全面改造成了AI Agent原生的数据服务。
听起来像是一句宣传语,但原生这两个字背后,有很多实际的工程决策,传统API返回的是原始JSON——AI收到数据,还要自己解析字段含义、判断空值的意思、再决定下一步怎么做。这是一套为人类开发者设计的接口,AI用起来像个临时工,每次都要从零开始理解返回的内容。
现在做的不是把API套上MCP的壳,而是重新思考了数据如何赋能AI,遵循的是另一套逻辑——ACI(AI认知接口)优先:工具的描述、返回值结构、错误处理方式,都针对大模型的理解和决策逻辑进行了专门设计。举三个细节:
一、实体强锚定,防止AI认错人
你跟AI说「帮我查一下万达集团的风险」,AI怎么知道你说的是哪家万达?全国工商注册里,光叫"万达"的企业有好几百家。
而MCP的每次查询,都会执行“二段式核验”协议:先用企业名称定位候选集,再强制用18位统一社会信用代码锁定唯一目标。认错对象这件事,在架构层面被消灭掉了。
二、上下文脱水,省Token也省时间
假设你要查一家企业的司法诉讼,系统底层可能有几千条记录。如果把所有内容全塞进上下文,Token消耗是灾难性的。
但是用参数下推和分页摘要的方式解决这个问题——AI按需索取,系统返回「总量3515条,已获最新30条」,并附带分页继续获取的工具接口。模型只看它当前需要看的,效率和成本同步优化。
三、强语义状态码,让没数据也有意义
这是个容易被忽视但很关键的设计细节,传统API查不到失信记录,返回的是
get_dishonest_info() → [ ]AI怎么理解这个空数组?「没数据」「查询失败」「真的没风险」——三种可能,AI得靠猜。
经底层数据库全量核查,未发现严重违法记录。此项合规安全,允许进入下一步审计。
AI立刻读懂:绿灯,继续。这不是美化输出,而是把「歧义」这种幻觉风险,从架构层消灭掉。
SKILL广场,从能查到会用
工具层做好了,但还差最后一步。
不同行业的人面对同一批数据,需要的结论完全不同。银行合规团队要KYB开户审查和AML反洗钱流程;PE/VC投资人要股权穿透图、诉讼风险摘要、专利资产清单;法务同学要签合同前自动核验对方主体是否已注销;采购团队要批量扫描候选供应商,哪几家失信、哪几家资质过期。
SKILL广场做的就是这件事:32个经过真实业务场景验证的开箱即用行业解决方案,分成四个方向:
银行·合规风控:KYB核验、AML反洗钱、OFAC/OFSI/EU/UN四大制裁名单筛查、受益所有人穿透……10个SKILL
投资人·FA:IC Memo投委会备忘录、股权结构穿透、企业画像、高管背景核查……8个SKILL
律师·法务:合同核验、诉讼风险、破产预警、合规资质验证……10个SKILL
采购·供应链:供应商准入、风险扫描、年度体检……4个SKILL
用两个具体的例子说明差距:
IC Memo SKILL(PE/VC投委会备忘录)
投资机构出一份IC Memo,传统流程是分析师人工整理资料:工商信息、股权图、诉讼检索、专利清单、高管背景……分散在不同数据库和人工搜索里,快的3-4天,慢的可能更久,还免不了遗漏。
接入MCP之后,这套流程变成:输入目标企业名称,AI自动调用MCP,30秒左右输出完整的股权结构穿透图、历史诉讼败诉案件摘要、专利资产清单、法定代表人及高管背景核查结果。
KYB企业核验 SKILL(银行开户/贷款申请)
客户提交开户或贷款申请后,AI自动执行18类风险扫描——失信被执行、严重违法、经营异常、高消费限制、股权冻结、税务违规……任何一项触发,系统立即熔断,不需要人工逐条检索。整个流程约30秒,单户成本从人工的¥300-500降到¥5-10。
符合FATF Recommendation 10/12标准的AML流程、PEP政治关联人士的自动识别、50%所有权规则下的关联实体穿透——这些在银行合规里本来需要专门配置的流程,在SKILL广场里是直接开箱就有的能力。
04. 接入有多简单
MCP接入方式是SSE云端托管,不需要自建服务器,配置一段JSON,3分钟完成接入。
{ "mcpServers": { "qcc-company": { "type": "sse", "url": "https://mcp.qcc.com/sse/qcc-company?key=YOUR_API_KEY" } } }目前已适配12个主流平台:OpenClaw、Cursor、阿里云百炼、Coze、飞书AI、Cherry Studio……
如果你的工作流是固定逻辑的(不需要AI推理判断,只是重复性数据验证),同时提供CLI命令行接口——零Token消耗,直接返回原始JSON,适合自动化脚本和批处理。MCP和CLI共用同一套API Key,额度不重复计费。
所有SKILL来自6个开源GitHub仓库,Apache 2.0协议,可以直接Fork修改,也可以一行命令装进Claude Code等工具。
回到开头那个客户的问题。
「为什么隔壁团队的AI能出完整尽调报告,我们的只能输出问号?」
答案不复杂:那个团队给AI配了高质量的数据底座,而这次的输出却没有。
Context Engineering是2025年以来真正的分水岭。模型谁都能用,数据质量和接入方式才是AI应用真正拉开差距的地方。
SKILL广场已开放,32个行业方案全部开源。如果你正在开发AI应用,或者在用AI处理中国企业数据,可以去看看。
