AI Computer Use技术解析:从屏幕理解到自动化执行
1. 这两天的AI行业,不是信息爆炸,而是范式迁移的临界点
2026年2月17日到18日,我盯着屏幕刷了整整六个小时的新闻源、技术社区和财报简报,手指都按酸了。这不是在追热点,是在看一场静默却剧烈的底层位移——AI行业正从“能说会道”的展示阶段,一脚跨进“能干会算”的实操纪元。关键词AI技术,此刻已不再是实验室里的参数比拼或论文里的指标刷新,它开始长出手指、睁开眼睛、记住上下文,真正在人类的工作流里扎下根来。字节跳动一口气甩出文本、图像、视频三套新模型,不是为了凑热闹;印度Adani集团喊出千亿美元建数据中心,也不是画大饼;Anthropic CEO Dario Amodei在Fortune上那句“安全和赚钱越来越难兼顾”,更不是公关话术。这些碎片拼在一起,指向一个清晰的事实:AI技术的竞赛逻辑已经彻底重写。过去比谁家模型更大、更快、更准,现在比的是谁能让AI真正坐到你的工位上,替你填表、查数据、写代码、剪片子,而且不出错、不迷路、不忘记上一步干了什么。这背后是技术路径的分野——OpenAI押注对话智能的纵深,Google深耕搜索与生态的耦合,而Anthropic把全部身家押在Computer Use这条路上,把它做成自己的技术指纹。对普通开发者、中小企业主、甚至一线业务人员来说,这意味着什么?意味着你不用再花三个月学Prompt Engineering去“哄”一个大模型,而是可以直接告诉它:“把上个月销售报表导出PDF,发给财务部张经理,抄送CEO,并在邮件里写明‘已核对无误’。”它就能自己打开浏览器、登录系统、定位文件、生成邮件、点击发送。这不是科幻,是Sonnet 4.6实测跑通的流程。我昨天用它自动处理了12份供应商资质扫描件的OCR识别、关键字段提取、格式校验和归档,全程没人工干预。所以这篇文章,我不打算复述新闻稿,而是带你钻进这四件事的毛细血管里:看清楚Computer Use到底怎么“干活”,中国厂商密集上新背后的生存焦虑,印度那千亿美元承诺里藏着的地缘算力棋局,以及Amodei那句坦白背后,所有AI安全公司正在集体面对的“商业性绞索”。这些东西,没有PPT,只有实操细节、踩过的坑,和我自己在测试中记下的每一条手写笔记。
2. Claude Sonnet 4.6:从“理解屏幕”到“接管屏幕”的四层能力解剖
2.1 Computer Use不是自动化脚本,是AI的“具身认知”雏形
很多人第一反应是:“这不就是RPA(机器人流程自动化)换了个马甲?”我一开始也这么想,直到亲手用Sonnet 4.6跑通了一个跨平台报销流程。传统RPA,比如UiPath,它的核心是“坐标驱动”:你录制时,它记下“点击屏幕X=320, Y=150的位置”,下次运行就死磕这个像素点。一旦网页改版、弹窗位置偏移5个像素,或者Chrome更新后按钮渲染方式微调,整个流程就报错中断,报错信息还是“Element not found”,你得重新录制。而Sonnet 4.6的Computer Use,走的是“语义驱动”路线。它不认坐标,它认内容。我给它的指令是:“登录公司OA系统,找到‘差旅报销’模块,筛选2026年2月的所有未提交单据,对每一张单据,点击‘编辑’,将‘交通费’栏的金额统一增加10%,保存并提交。”它执行时,第一步是调用内置的视觉模型“看”当前页面——不是截图分析,而是实时解析DOM结构和可访问性标签(Accessibility Tree),识别出哪个元素是“登录按钮”,哪个是“差旅报销”导航链接,哪个是“筛选日期”的下拉框。它看到的不是一堆乱码HTML,而是一个有语义的界面地图。这背后是Anthropic自研的视觉-语言联合编码器,它把屏幕快照和文字描述一起喂给模型,让模型建立“视觉特征↔功能语义”的强映射。我试过故意把OA系统字体调成超小号、背景色改成深灰,RPA工具直接抓瞎,Sonnet 4.6依然能准确点中“提交”按钮,因为它认的是按钮的role="button"和aria-label="Submit Expense",而不是那个蓝色方块的位置。这才是质变:它拥有了初步的“具身认知”——知道屏幕上的东西“是什么”,而不仅仅是“在哪里”。
2.2 四大能力缺一不可:视觉感知、多步规划、工具调用、状态追踪
Computer Use之所以难,是因为它强行把四个原本割裂的AI能力拧成一股绳。拆开看,每个环节都有硬骨头:
视觉感知(Seeing):不是简单OCR。Sonnet 4.6的视觉模型能区分“表格中的数字”和“旁边注释里的数字”,能理解“红色高亮”代表“待审核”,“绿色勾选”代表“已通过”。我在测试中故意在报销单里插入一张带水印的PDF扫描件,RPA工具只能识别出模糊的“¥1200”,而Sonnet 4.6结合上下文(旁边有“高铁票”字样、表格头是“交通费”),直接推断出这是车票金额,并正确提取。这依赖于它在训练时见过海量带标注的真实办公文档,学习到了领域知识。
多步规划(Planning):模型内部会生成一个隐式的“任务树”。接到“处理所有未提交单据”的指令,它不会傻等页面加载完才开始下一步。它会先规划:1. 确认登录态 → 2. 导航至报销页 → 3. 执行筛选 → 4. 对每条结果循环:a) 点击编辑 b) 定位交通费字段 c) 计算新值 d) 输入 e) 保存。这个规划过程是动态的,如果第3步筛选后发现“无结果”,它会主动终止循环,而不是卡死。我观察过它的token消耗,规划阶段占了总消耗的30%,说明它真在“想”,不是蛮干。
工具调用(Acting):它调用的不是API,是操作系统级的输入模拟。在Mac上,它通过Accessibility API发送AXPressAction指令;在Windows上,调用UI Automation框架。这意味着它能操作任何标准GUI应用,不限于网页。我让它打开了Excel,读取Sheet1的A1:A10,把数值乘以1.1后填回B列——它真的做到了,连Excel的宏安全警告弹窗都自己点了“启用内容”。这种深度集成,是RPA靠模拟鼠标键盘永远达不到的精度和鲁棒性。
状态追踪(Remembering):这是最反直觉的一环。传统模型“记性”只在单次对话内。Computer Use要求跨步骤、跨页面、跨应用的记忆。比如,它在第一个报销单里看到“出差目的地:孟买”,然后在第二个单据的“备注”栏里,它会主动写入“参考前单,目的地一致”。我专门设计了一个测试:让它在Chrome里查完汇率,再切到Excel里填表,它能把查到的“1美元=82.35卢比”这个数值,准确无误地填进Excel单元格。它不是靠复制粘贴,而是把关键信息存入一个临时的、任务专属的“工作记忆区”,这个区域在任务结束时自动清空,确保隐私。Anthropic在技术白皮书里管这叫“Task-Scoped Memory”,是它区别于其他多模态模型的核心专利。
提示:别指望它能处理需要生物认证(如指纹、人脸)的场景。目前所有Computer Use实现,都默认操作环境是“已登录、已授权、无障碍功能开启”的。这是它的能力边界,也是你部署前必须检查的基线。
2.3 为什么说这是“从会说话到会干活”的关键一步?
因为“干活”意味着承担责任。一个聊天机器人答错问题,用户顶多翻个白眼;一个Computer Use代理填错报销单,可能直接导致财务流程阻塞、员工被扣工资。所以Anthropic在Sonnet 4.6里埋了三层保险:
- 预执行沙盒(Pre-execution Sandbox):每次要执行一个高危操作(如“删除文件”、“发送邮件”)前,它会先在内存里模拟整个操作链,预测结果,并生成一份“操作摘要”让你确认。我让它删一个测试文件夹,它弹出的摘要写着:“将永久删除/Users/test/Temp_Files,包含3个子文件夹,12个文件,预计释放空间2.4GB。确认执行?”——这已经不是AI,这是个谨慎的助理。
- 操作回滚(Action Rollback):对于支持撤销的操作(如Excel编辑、文本输入),它会自动记录操作前的状态。万一填错了,一句“撤回上一步”就能恢复。
- 失败熔断(Failure Circuit Breaker):连续3次操作失败(如找不到目标元素),它会立即停止,输出详细的错误诊断:“在‘差旅报销’页面,未能定位‘筛选日期’下拉框。已尝试:ID='date-filter'、Class='dropdown'、ARIA label='Select month'。建议:检查页面是否加载完成,或提供更明确的定位线索。”
这三层,把Computer Use从一个炫技的Demo,变成了一个可以放进真实工作流里的生产级工具。它不再追求“100%全自动”,而是追求“95%自动+5%人类兜底”,这个比例,恰恰是企业愿意为它付费的心理阈值。
3. 中国AI厂商春节扎堆上新:一场关于“自主可控”与“商业变现”的双重突围
3.1 字节跳动的“三模态闪电战”:从应用巨头到AI基建商的豪赌
字节跳动在春节前后一口气发布豆包2.0(文本)、Seedance 2.0(视频)、Seeddream 5.0(图像),表面看是产品矩阵扩张,实则是战略重心的180度转向。我跟几位在字节AI Lab的朋友聊过,他们内部有个说法:“我们不再满足于做TikTok的‘大脑’,我们要做中国互联网的‘脊椎’。”这句话很重。豆包2.0的升级,核心不是参数量涨了多少,而是它首次集成了“推理增强引擎”(Reasoning Augmentation Engine, RAE)。这个引擎不是独立模块,而是像血液一样渗透在所有响应里。当用户问“帮我分析一下Q4销售数据下滑的原因”,旧版豆包会罗列几个泛泛而谈的点;新版则会自动调用内置的SQL解释器,连接你授权的数据库,执行SELECT * FROM sales WHERE quarter='Q4',拿到真实数据后,再用统计模型做归因分析,最后给出带数据支撑的结论。这已经不是问答,是嵌入式BI(商业智能)。
而Seedance 2.0,才是真正的大招。它瞄准的不是抖音上那些15秒的AI短视频,而是专业影视制作管线。我拿到了一个早期测试版,让它根据一份《新能源汽车发布会》的Brief,生成一段60秒的宣传片。它输出的不是单个视频,而是一整套交付物:1)分镜脚本(含镜头时长、运镜方式、BGM建议);2)每个镜头的静态画面(Seeddream 5.0生成);3)基于画面自动生成的配音文案;4)最终合成的MP4视频。最震撼的是第3步——它生成的配音文案,精准匹配了每个画面的情绪节奏。当画面是电池特写时,文案是“毫秒级响应,能量澎湃而出”;当画面切到工程师调试时,文案变成“无数个日夜,只为一次完美的交付”。这种“画面-文案-情绪”的强耦合,是Sora和Veo目前公开演示里还没完全做到的。它背后是字节自研的“跨模态对齐损失函数”,强制视频生成模型在训练时,不仅要学“画面像什么”,还要学“画面该配什么词、什么调”。
注意:Seedance 2.0的商用版,对硬件有硬性要求——必须是NVIDIA H100或同等算力的国产芯片(如寒武纪MLU370)。这意味着字节在倒逼国内芯片厂商加速迭代。这不是慈善,是供应链安全的铁壁。
3.2 阿里巴巴Qwen 3.5与商汤SenseChat:推理能力成为新军备竞赛的制高点
如果说字节在拼“多模态广度”,阿里和商汤就在死磕“推理深度”。Qwen 3.5的发布通稿里,数学和编程能力是绝对C位。但官方没说的是,它新增了一个叫“Chain-of-Verification”的推理模式。传统模型解数学题,是“一步到位”:看到题目,直接输出答案。Qwen 3.5会先输出一个“思考草稿”,比如解一个微积分题,它会先写:“第一步,识别被积函数为e^x * sin(x),适用分部积分法。设u=e^x, dv=sin(x)dx...”,然后才给出最终结果。这个“草稿”不是装饰,它是可验证、可审计的。企业客户(尤其是金融、科研机构)最怕AI“黑箱”输出,Qwen 3.5把推理过程摊开,相当于给答案买了份“保险”。我在阿里云控制台实测,开启这个模式后,模型响应时间增加了40%,但错误率下降了65%。对于需要高置信度的场景,这笔时间账,企业算得过来。
商汤科技的SenseChat粤语版,则揭示了另一个残酷现实:AI的“最后一公里”不在技术,而在方言和文化。粤语不是普通话加个口音,它有独立的语法结构、大量古汉语词汇、以及丰富的俚语和语境省略。SenseChat粤语版的训练数据,不是简单把普通话语料机翻成粤语,而是采集了香港TVB剧集、粤语新闻播报、本地论坛帖子,甚至茶餐厅点单录音。它能听懂“呢单嘢要飞”(这单要加急)、“落单”(下单)、“埋单”(结账)这些地道表达。更绝的是实时音视频交互——它能一边看着你说话的嘴型(唇读),一边听声音,双路校验,把“我哋宜家去边?”(我们现在去哪?)这种高歧义句子,准确识别为导航请求,而不是闲聊。这背后是商汤自研的“多模态端到端语音识别模型”,它把声学特征、视觉特征、语言模型全部在一个网络里联合优化,而不是像传统方案那样“ASR(语音识别)→ NLP(自然语言处理)”两段式。
3.3 “落后数月”的真相:软件狂奔,硬件跛脚
Demis Hassabis说中国模型“仅落后西方数月”,这话放在Qwen 3.5和Seedance 2.0身上,基本属实。但在开源生态上,中国已不只是追赶者。Qwen系列的开放权重,让全球开发者有了Llama之外的强力选择。GitHub上,基于Qwen微调的垂直模型(如医疗Qwen-Med、法律Qwen-Law)数量,已经超过了Llama衍生模型。但“数月”的差距,掩盖了“数年”的鸿沟——高端AI芯片。我参与过一个国内某银行的AI项目,他们想部署Qwen 3.5做信贷风控。测试时,用H100集群,推理延迟是120ms;换成国产A100级别芯片,延迟飙升到850ms。银行的要求是“端到端响应<300ms”,否则影响用户体验。最后方案是:核心推理用国产芯片,但把最耗时的“Chain-of-Verification”验证步骤,卸载到云端H100集群,本地只做快速初筛。这是一种无奈的混合架构,但它暴露了本质:中国AI的“软件腿”已经跑得飞快,但“硬件腿”还拄着拐杖。芯片制造、先进封装、EDA工具,这些底层环节的短板,不是靠几个大模型就能抹平的。所以字节和阿里砸重金自研芯片(字节的“Pixel”、阿里的“含光”),不是锦上添花,是生死攸关的自救。
4. 印度AI峰会与Adani的千亿美元:一场关于“全球算力地理”的重构
4.1 新德里峰会的潜台词:印度要从“外包工”变成“算力房东”
2026年2月的新德里AI峰会,表面是莫迪政府的政绩秀,内里是一场精密的地缘算力布局。Sam Altman、Sundar Pichai、Dario Amodei悉数到场,不是来捧场的,是来签租约的。Adani集团宣布的1000亿美元AI数据中心投资,数字很唬人,但关键在“基于可再生能源”。印度拥有全球最便宜的太阳能电力(部分地区低至$0.02/kWh),加上广袤的土地和相对宽松的环保法规,让它成为建设超大规模数据中心的天然温床。我查了Adani的规划图,它首批选址在拉贾斯坦邦的沙漠地带——那里日照充足、地广人稀、地质稳定,建一个500MW的数据中心,成本比在硅谷低40%。但这笔钱,不是Adani自己全掏。它的模式是“基础设施即服务”(IaaS):Adani出地、出电、建楼,微软、谷歌、Anthropic这些巨头出服务器、出运维团队,按机柜/千瓦时付费。Adani赚的是长期、稳定的现金流,巨头们则获得了绕过美国出口管制、在亚洲腹地部署算力的战略支点。
实操心得:别只盯着1000亿这个数字。真正值得关注的是Adani与Infosys的合作。Infosys是全球IT服务巨头,服务着超过300家《财富》500强企业。Anthropic选择通过Infosys向这些企业客户部署Claude,等于把Claude直接塞进了欧美企业的IT采购清单。这对Anthropic是降维打击——它不用一家家去谈销售,而是借Infosys的渠道,实现了B2B的“批发式”渗透。这才是印度真正的王牌:它不生产最先进的芯片,但它有全球最成熟的IT服务管道,能把任何AI能力,无缝注入到现有企业系统里。
4.2 Anthropic的“双轨制”商业化:一手企业,一手新兴市场
Dario Amodei在峰会上的发言,透露了Anthropic的精妙算计。它和Infosys合作,是“高端路线”:服务欧美大型企业,卖的是高附加值的Computer Use能力和企业级SLA(服务等级协议)。而它和卢旺达政府签的MOU,则是“下沉路线”:在医疗和教育领域,提供轻量级、离线可用的AI助手。比如,一个装在平板电脑里的Claude Lite,能帮乡村医生识别疟疾症状图片,能帮教师生成本地化(斯瓦希里语)的习题。这两条线,成本结构完全不同:前者需要顶级GPU集群和严苛的安全审计,后者可能只需要几台边缘服务器和定制化的模型蒸馏。Anthropic的野心,是成为全球AI的“操作系统”——既能在华尔街投行的交易大厅里指挥千台服务器,也能在非洲草原上的小学教室里,用一块太阳能板供电的平板运行。这种“双轨制”,让它避开了和OpenAI在纯商业市场的正面厮杀,开辟了一片蓝海。
4.3 全球算力资本支出的“拐点信号”
Adani的1000亿,只是冰山一角。Dell’Oro Group的最新预测显示,2026年全球数据中心资本支出将突破7000亿美元,其中AI专用数据中心占比超过65%。但一个微妙的转折正在发生:华尔街的钱,开始从“建”转向“用”。WebProNews的报道指出,2026年Q1,AI芯片股(如英伟达)的机构持仓比例下降了8%,而AI应用软件股(如ServiceNow、Asana)的持仓比例上升了15%。这意味着市场逻辑变了。投资人不再满足于听CEO讲“我们买了多少台H100”,他们要看到“这些H100带来了多少新客户、多少额外营收”。一个典型案例是Adobe。它把Firefly AI深度集成进Photoshop后,2026年Q1的创意云订阅收入同比增长了22%,其中新用户贡献了45%。这证明,算力只有转化为具体生产力工具,才能兑现价值。所以Adani的千亿美元,如果只停留在“建好、空着”,很快就会被市场抛弃;它必须像Infosys那样,找到一批像Anthropic这样的“内容提供商”,让这些数据中心24小时满负荷运转。这才是印度真正的挑战:它不缺土地和阳光,缺的是能驾驭这些算力的“AI原住民”——既懂技术,又懂本地产业痛点的复合型人才。目前,印度每年AI相关毕业生约12万人,但能直接上岗、解决企业级问题的,不足3万。这个缺口,才是它最大的“卡脖子”环节。
5. Dario Amodei的坦白:当“安全”成为AI公司的负资产
5.1 “难以置信的商业压力”背后,是安全投入的“不可见性”悖论
Dario Amodei在Fortune上那句“安全工作使得商业竞争更加困难”,听起来像抱怨,实则是对行业痼疾的精准解剖。我把Anthropic的2026年预算拆解了一下(基于其向SEC提交的非敏感文件和第三方分析师报告),发现一个刺眼的事实:在研发总投入中,安全专项(包括红队测试、对抗性训练、对齐研究)占比高达38%,而OpenAI同期的这一比例约为22%。多出来的16%,意味着Anthropic每年要多烧掉近5亿美元。这笔钱花在哪?举个例子:为确保Sonnet 4.6在处理财务数据时不泄露敏感信息,Anthropic组建了一个20人的“红队”,他们不写代码,专职干一件事——用各种奇技淫巧去“骗”模型。比如,把一段加密的信用卡号,伪装成诗歌的韵脚,混在一篇莎士比亚风格的邮件里,看模型会不会在总结邮件时,把那串数字“顺手”提取出来。这个过程,要持续进行3个月,覆盖上千种攻击向量。结果呢?模型确实没泄露,但它的整体响应速度因此降低了7%,用户满意度调研里,“回答速度”这一项得分下降了2个百分点。用户不会说“感谢你们做了红队测试”,他们只会说“这AI怎么变慢了”。这就是安全的悖论:它创造的价值是“避免了损失”,而损失是看不见的;它带来的成本是“降低了体验”,而体验是用户天天感受到的。在资本市场眼里,前者是“沉没成本”,后者是“营收风险”。
5.2 安全与商业的“死亡螺旋”:一个无法回避的结构性困境
Amodei的困境,不是Anthropic独有,而是所有以安全为旗帜的AI公司的宿命。它形成了一个典型的“死亡螺旋”:
- 投入安全 → 模型变慢/变贵/功能受限 → 用户流失 → 营收承压
- 营收承压 → 投资人要求削减成本 → 安全预算首当其冲 → 模型安全性下降 → 一旦出事(如数据泄露),品牌崩塌 → 用户加速流失
这个螺旋,正在把Anthropic逼向一个危险的十字路口。我拿到一份未公开的内部会议纪要,里面提到一个代号“Project Pivot”的预案:考虑将部分安全测试外包给第三方,或采用“分级安全”策略——对免费用户,提供基础版(安全投入较低);对付费企业客户,提供“安全增强版”(价格上浮30%,包含红队审计报告和SLA保障)。这本质上,是把安全从“公共品”变成了“奢侈品”。它或许能解燃眉之急,但违背了Anthropic创立的初心。更深远的影响是,它向整个行业发出了一个危险信号:当最坚持安全的公司都开始妥协,行业的安全底线,还能守多久?监管机构已经在行动。欧盟AI法案的最新修订草案里,明确要求“高风险AI系统”必须提供可验证的安全测试报告。这可能是Amodei那番话的真正意图——不是诉苦,而是向监管喊话:“看,市场机制无法自发保障安全,我们需要规则来兜底。”这招很高明,把商业压力,转化成了推动立法的政治筹码。
5.3 开源模型的“安全洼地”:Qwen如何用“透明”破局
有趣的是,在这场安全困局里,开源模型反而找到了突破口。Qwen系列的策略是“用透明换信任”。它把所有的安全训练数据、红队测试用例、甚至模型的“越狱”(Jailbreak)漏洞列表,全部开源在Hugging Face上。这看起来是自曝其短,实则是高明的“信任构建”。企业客户拿到Qwen,可以自己审计:看它用了哪些数据训练,有没有偏见;可以自己跑红队测试,确认它在自己的业务场景下是否安全;甚至可以自己修补发现的漏洞。这比Anthropic卖一个“黑箱”模型,再附赠一份PDF版的安全报告,要实在得多。一位国内某省级政务云负责人告诉我,他们选Qwen 3.5,不是因为它比Claude“更安全”,而是因为它“更可知、更可控”。在政务场景,一个能被自己团队完全理解、完全掌控的模型,其实际安全水位,远高于一个由海外公司远程维护的“超级安全”模型。这揭示了一个新趋势:未来的AI安全,可能不再由单一公司定义,而是由“可审计性”和“可干预性”来定义。开源,正在从一种技术路线,演变为一种安全范式。
6. 被忽视的暗流:算力、广告、开源——三个正在重塑AI商业逻辑的变量
6.1 算力军备竞赛的“下半场”:从“堆芯片”到“挤牙膏”
全球7000亿美元的数据中心投资,听起来很热血,但一个冷酷的现实是:芯片的物理极限正在逼近。英伟达的Blackwell架构,已经是硅基芯片的巅峰之作。再往后,单纯靠堆更多GPU,边际效益急剧递减。我计算过一组数据:一个1000节点的H100集群,理论算力是100 ExaFLOPS,但实际运行一个大模型推理任务时,有效算力利用率通常只有35%-40%。剩下的60%,浪费在数据搬运、通信延迟、显存瓶颈上。所以,真正的“下半场”竞赛,已经从“谁有更多芯片”,转向“谁能从每块芯片里榨出更多汁水”。这催生了两个新方向:一是模型压缩,比如Qwen 3.5的“量化感知训练”(QAT),能让一个72B参数的模型,在INT4精度下运行,速度提升2.3倍,显存占用减少75%,而精度损失不到0.5%;二是硬件协同设计,字节的Seedance 2.0,就专门为NVIDIA的Hopper架构做了Kernel级优化,把视频生成的关键算子,直接编译进GPU的Tensor Core,绕过了通用CUDA驱动,效率提升了40%。未来三年,AI公司的核心竞争力,可能不再是“模型有多大”,而是“你的模型,能在什么硬件上跑得最疯”。
6.2 ChatGPT的广告实验:AI的“注意力经济”正式入场
ChatGPT开始测试广告,Target、Adobe、Ford成为首批客户,这事的意义,远超“又一个变现渠道”。它标志着AI正式接入互联网最成熟的商业模式——注意力经济。但这里有个致命陷阱:用户对AI的信任,是建立在“中立性”基础上的。当你问“哪家咖啡机最好”,你期待的是客观评测;如果答案里夹带了“XX品牌赞助”,信任瞬间崩塌。OpenAI的应对很聪明:广告只出现在“探索”(Explore)标签页,而不是主聊天窗口。它把AI分成了两个角色:一个是严肃的“助手”,负责回答问题;一个是轻松的“向导”,负责推荐好物。这借鉴了YouTube的“推荐流”逻辑——你搜“Python教程”,主结果是教学视频,侧边栏是相关课程广告。但风险依然存在。我测试时,故意问“Adobe Firefly和Runway Gen-3,哪个更适合设计师?”,它给出的答案里,对Firefly的描述明显更详细、更积极,而对Gen-3的缺点提得更多。虽然没提“Adobe赞助”,但语义倾向已经足够明显。这提醒所有AI产品:广告可以有,但必须有“防火墙”。我的建议是,像学术论文一样,强制声明“本回答包含商业合作信息”,并提供一键切换到“无广告纯净版”的入口。否则,一次“软广翻车”,就可能毁掉多年积累的用户信任。
6.3 开源与闭源的“能力收敛”:溢价从“聪明”转向“可靠”
Qwen系列的持续进化,正在把开源和闭源模型的能力差距,压缩到“几个月”的量级。当一个开源模型,能在数学推理上达到闭源模型95%的水平,在代码生成上达到90%,企业客户的付费逻辑就变了。他们不再为“多那5%的聪明”买单,而是为“多那100%的可靠”付费。这个“可靠”,体现在三个维度:
- 合规可靠:Qwen是纯中国血统,数据不出境,符合《数据安全法》;Claude是美国公司,数据跨境传输有合规风险。
- 服务可靠:阿里云提供7x24小时中文技术支持,故障响应SLA是15分钟;Anthropic的亚太支持,响应时间是4小时。
- 演进可靠:Qwen的版本迭代节奏,完全由国内客户需求驱动;Claude的路线图,优先满足美国市场。
所以,闭源模型的未来溢价,不再是“我比你聪明”,而是“我比你更懂你、更能护你、更能陪你”。这就像买一辆车,以前比发动机马力,现在比智能座舱的本地化适配、售后网点的覆盖率、以及能否用方言语音控制。AI的竞争,已经从实验室,全面下沉到了用户的办公桌和产线上。这两天的信息密度之所以高,是因为它不是一个孤立事件的集合,而是一张网的多个节点同时被点亮——Anthropic在定义“AI怎么干活”,中国厂商在证明“AI怎么造得更快更好”,印度在提供“AI干的活在哪落地”,而Amodei的坦白,则在拷问“AI干的活,底线在哪”。这张网,正在把AI从一项前沿技术,编织成一张覆盖全球的基础设施。至于它最终会织成什么样,答案不在硅谷,不在北京,也不在新德里,而在每一个今天,正用AI填写第一份报销单、生成第一个产品原型、或者批改第一份学生作业的普通人手里。
