当前位置：首页 > news >正文

第4章：寄生虫时代——当AI学会呼吸

news 2026/7/24 20:58:40

4.1 寄生者图谱：AI是如何“长”进操作系统的

2024年春天，微软总部雷德蒙德的一间没有窗户的会议室里，一位负责Copilot集成的高级工程师在白板上画了一张图。这张图没有被收录进任何官方文档，也没有出现在任何公开发布的技术论文中。但它后来被在场的一位实习生拍下，匿名上传到了一个开发者论坛。在那之后的几年里，这张图被反复引用、重绘、翻译成多种语言，成为理解AI如何渗透操作系统的一份非官方地图。

那张图画得很粗糙——几根潦草的线条，几个椭圆形的圈，一些用马克笔匆忙写下的术语。但它清晰地展示了AI寄生者进入操作系统的五条路径。

第一条路径，他称之为“屏幕感知”。AI通过定时截取屏幕画面的方式，获取用户当前正在做什么的基本信息——哪些窗口打开着，哪个应用处于前台活动状态，光标停留在哪个位置。这种感知方式不需要任何系统权限，不需要调用任何内部API，它需要的只是“看的权利”。一位前微软工程师后来在博客中写道：屏幕感知之于AI，就像视力之于人类——它是最原始、最基础、也最容易被低估的认知能力。

第二条路径叫做“文件系统监听”。这部分相对传统——AI可以获知哪些文件被最近修改、创建、移动。但和传统流程不同的是，AI并不需要你告诉它你在找什么文件；它可以通过观察你的屏幕行为模式，推测出你接下来可能需要的文件。在技术交流圈子里，开发者们开始在咖啡机旁交换着各种名字古怪的脚本——其中一个小型开源程序能够在每次用户将一张图片拖入某个特定文件夹时自动触发几行隐式的重命名脚本，把图片按照日期与图像内容摘要合在一起生成一个新的文件名。另一位自由开发者则把它移植成了macOS下的自动化服务。这些实验没有获得任何正式授权，它们只是在个人电脑的私有空间里不安地浮动，像一群尚未拿到正式执照的寄生虫卵。

第三、第四条路径属于“模拟点击”和“API中转”。AI不直接操作内核，而是通过操作系统提供的可访问性接口来模拟人类的鼠标点击和键盘输入。这是AI获得“行动能力”的关键一步——它不仅能看到你的屏幕，还能替你在屏幕上做事。从2024年末开始，在Windows平台上逐渐冒出了多个利用UI自动化框架将自然语言指令翻译为对应用程序图形元素进行序列操作的小型工具链。在开源社区里，这些工具体量通常很小，但它们基本实现了同一样能力：通过直接操纵界面控件，使AI能手动填表、翻页、点选下拉菜单、多选批量项目，而不需要等待某一个应用提供商主动开放合作接口。绕过城堡的外交官，直接贿赂看门的士兵。

第五条路径是最新的、也是寄生程度最深的：它叫“意图监听”。AI通过学习你在键盘上的打字节奏、光标移动轨迹、在两个应用之间切换的频率与时间间隔，来感知你的情绪状态和工作负荷。界面研究领域从2010年代末就零星出现对光标行为作为认知负荷指标的研究——早在2014年，就有学者发表论文探讨如何利用鼠标移动轨迹检测用户的情绪状态。¹ 但当AI系统在2024至2026年之间将这些静态指标串成针对具体个人、持续不断、无需主动开启的实时推断时，这种被研究者称为“无感知感知”的能力已不再是学术论文中的冷却数据，而成了一张飘在操作系统头顶、无形的感知膜。

这位微软工程师把五种寄生形态用红蓝两色的箭头区分开来：红色箭头代表“被动感知”——看、听、读；蓝色箭头代表“主动行动”——模拟点击、中转执行。所有箭头最终汇聚在一个字上：依赖。

这幅寄生者图谱的真正意义，不在于条分缕析地整理了技术路径，而在于它无意间揭示了一个远比任何技术原理都更深刻的结构性事实：这五种寄生形态，没有一种需要重构操作系统的底层内核。没有一种需要推翻桌面隐喻。所有AI能力，都是在现有系统的规则缝隙中寻找生长的空间。有时候，就像一个花园尽头的旧砖墙，砖面上被野藤钻出了几道蜿蜒的裂纹，藤蔓正是从这些几乎看不见的缝隙中把触须伸过墙的另一侧——而墙本身，对此一无所知。

屏幕感知通过定时截屏采集UI快照，完美避开了应用沙盒的权限封锁。模拟点击通过可访问性接口操控界面控件，完美利用了操作系统为了让残障人士也能使用电脑而预留的特殊通道。文件系统监听通过增量索引来跟踪变化，完美绕过了应用之间的数据隔离。API中转通过把请求伪装成正常的网络通信或者将指令插入文档编辑器的宏脚本序列，完美借用了几十年前就该淘汰的那份兼容列表上残留的合法通信端口。

每一条路径都在做同一件事：把宿主身体上已有的器官，改造成自己的工具。寄生者从不正面强攻城堡，它走的永远是城堡的下水道、厨房的后门、卫兵换岗时打盹的间隙。一个在Reddit的AI子板块里常年潜水的高级软件工程师在一次周末的长帖回复中，用了一个非常贴切的比喻形容他实验中遇到的情形：他最开始只是把一个获取剪贴板监听权且仅输出到本地终端日志的小脚本挂在后台，三天后他发现日志里频繁出现了从两个毫不相干的程序之间被复制粘贴的文本段落——这根本不是某个应用主动交出的数据，这是寄生者在垃圾通道里捡到的废纸，但废纸上写满了有用的句子。

这种寄生式进化，决定了AI操作系统在早期阶段所面临的根本矛盾。矛盾的一边，是惊人的能力——寄生者可以在不改变任何底层架构的情况下，通过观察你的屏幕、监听你的输入、模拟你的操作，为你完成跨越多个应用的复杂任务。而矛盾的另一边，是同样惊人的脆弱——寄生者能否工作，完全取决于宿主身体的宽容程度。一旦操作系统收紧权限，一旦隐私保护机制升级，一旦安全团队发现某个寄生路径被恶意利用，整个寄生结构就可能在一夜之间崩塌。

这个矛盾，在Recall事件中被推到了顶点。

4.2 那个记得一切的电脑：Recall事件的隐喻

2024年5月，当微软的产品发布视频在网络上被越来越多的人逐帧截屏分析时，React和Hacker News上的讨论正经历着一场质变——最初参与者还是那些习惯了对科技巨头冷嘲热讽的技术观察者，但随着一批安全白皮书、概念证明代码和可视化演示被陆续贴出，讨论空间开始涌入大量非技术背景的普通用户。他们不写代码，但他们能毫不费力地理解一连串简单的类比：一台每隔几秒就自动截图并留在本地、格式化不加密、对任何具备物理或远程访问能力的第三方来说等同于一座无锁档案柜的电脑。

安全专家Kevin Beaumont在其技术博客中率先揭露，Recall在未经改进的初始版本中，将用户的屏幕快照存储在一个未加密的SQLite数据库中，截图直接保存在用户PC的本地文件夹里，任何具有系统权限的恶意软件都可以轻松读取这些明文数据——包括Signals等应用中的消息和从图片中提取的文字。² Beaumont形容Recall在网络安全方面“让行业倒退了十年”。

一位叫哈里斯的记者，在凌晨三点十七分发出了一条推文。他用黑底白字的截图配上极简的文字：“我的电脑，正在比我更了解我自己。”在那一个深夜时分，这条推文开始以每秒数百条的速度被转发，像一声凄厉的哨音刺破了整个技术圈自我祝贺的安全泡沫。

哈里斯不是安全专家。他三十七岁，在一家调查媒体做科技报道，平时使用一台高配的Surface Laptop。几个月前他才刚刚被编辑部要求启用Copilot辅助整理采访录音。他对Recall的了解，起初仅仅来自微软官方发布短片中那个穿着米色毛衣的女设计师轻而易举地找回了一件灯芯绒裙子。但在那晚，他阅读了一篇又一篇分析文章，然后打开了自己的系统设置逐项对比——他发现，即使他没有在任何地方手动启动Recall功能的开关，系统快照文件夹里已经出现了一小批格式陌生的文件，显然是预览版本的预埋代码在后台自动执行的痕迹。

他截图，发推，然后坐在漆黑的客厅里等了二十分钟。那二十分钟里，他的评论区变成了一个公共诊断现场——有人告诉他怎么彻底禁用相关服务，有人把他引到路径深处去查看是否有残留缩略图，还有更多的人在留言里只是反复重复着同一句话：“这合法吗？”

Recall事件在成为一种公共丑闻之前，首先是一种哲学上的警示。它把第3章讨论过的“被理解的震撼与被窥视的寒意”之间的那根模糊边界，变成了一个可以被公开下载的开源工具。事件曝光后的第三天，安全研究员Alex Hagenah在GitHub上发布了概念验证工具TotalRecall，任何人只要运行它，就可以一键提取指定时间段内由Recall快照生成的所有视觉信息。Hagenah在readme文件中写道：“Windows Recall将一切存储在你PC上一个未加密的SQLite数据库中……这和一个绑在屏幕上方时刻录像的针孔摄像头，没有本质区别。”³

微软在压力下迅速作出回应——Recall被改为需要用户主动前往设置选择开启，配套增设了基于Windows Hello的生物认证加密；官方同时承诺将在正式推送前进行更多轮安全审计，并于2024年秋季重新推出经过安全改版的Recall。⁴ 但这些补救动作并没有能遮盖住寄生者的根本结构性难题。问题从来不是某一个具体功能的不成熟，而是AI要看到一切才能真正理解你——而一旦它看到一切，你又再也无法确认，它看到的东西，是否还属于你。

在随后陆续披露出来的几份内部邮件中——这些邮件后来在2025年因一项集体诉讼的和解附带信息披露条款而被小范围向媒体公开，其真实性虽无法逐一核实，但其内容已成为理解事件的重要参考文本——人们读到了一些更令人不安的真实对话。其中一份邮件是一位微软隐私合规团队的成员在Recall早期规划阶段发给项目组的，措辞极为直白：“我们要求AI像一个合格的生活秘书，却不准这个秘书打开任何一个抽屉、翻看任何一个文件柜、也不敢让他和楼下的门卫要一张访客通行证。那他作为秘书的能力到底从哪里来？”另一封稍晚的回复则更令人寒意陡生：“有没有可能我们不把它叫做秘书，而叫做记忆的延伸——在法律上把它定义为一个义肢，这样它看到的一切就依然是用户自己在看？”⁵

这两封邮件从未被官方确认，但在传播的过程中，它们成为了理解Recall事件乃至整个寄生者时代的寓言式钥匙。那个项目组面临的选择，本质上不是“安全还是不安全”“加密还是不加密”，而是一个更根本的悖论：如果AI不能穿透系统权限的限制去获取跨应用的上下文，它就永远只能是一个被嘲笑的高配版回形针助手；如果它穿透了，它同时也就穿透了四十年来桌面隐喻和操作系统安全模型为普通用户建立起来的那层保护壳。

4.3 神经网络的戏法：NeuralOS教会了我们什么

2025年秋天，在国际表征学习大会的一场分会报告中，滑铁卢大学的一个很小的研究团队展示了一项令全场安静了至少十秒的实验结果。他们训练了一个由循环神经网络和扩散模型组合而成的轻量系统，向它输入鼠标点击坐标和窗口事件的时间序列，让它直接预测下一个应该出现的屏幕帧——不是描述，不是代码，而是实实在在的像素。换句话说，他们让一个神经网络学会了“画桌面”。

这个系统后来被他们命名为NeuralOS。

在论文的引言部分，他们用不带任何修辞色彩的技术语言写了一句几乎惊人地平淡的话：“我们发现，一个只接受鼠标行为轨迹训练的神经网络，可以在不访问任何底层API、不安装任何被模拟应用程序的情况下，生成该应用程序与真实GUI高度不可区分的屏幕帧。”也就是说，它并未真正运行Photoshop，但它画出了用户拖动鼠标时Photoshop应当出现的样子；它未访问任何绘图引擎，却在屏幕上描绘出相应选择菜单在高光下的渐变灰与白色字体的正确组合。

但真正让在场听众从安静转向窃窃私语、随后爆发打断演讲的讨论的，是实验的扩展阶段。当研究团队将大量的合成数据——由AI自己生成的虚拟屏幕帧——重新喂入网络进行更多次循环训练后，NeuralOS学会了一件事：它开始能够模拟运行一些从未在真实桌面上安装过的应用程序。具体来说，它学会了模拟运行一个上世纪九十年代发布的经典PC游戏《Doom》。

不需要原始代码，不需要游戏引擎，不需要任何底层硬件仿真。它只是观察过大量人类的鼠标轨迹和屏幕帧之后，从中推演出了当“某种光标行为配合某种屏幕反馈”时应该发生什么。然后它自己就把那个反馈的屏幕帧画了出来——包括像素化的怪物、走廊里的幽绿色灯光、隐藏在角落的霰弹枪和弹药的闪光。⁶

一个从未在现实桌面上被安装、被启动、被执行的程序，却在AI的“幻觉桌面”里获得了一个完整的、可供交互的视觉外观——这件事的技术震撼力当然不言而喻。但更值得被记入这本书的，是这项实验作为一次近乎行为艺术的举动，对整个桌面隐喻时代发出的那声轻微的嘲笑。

桌面的存在——那些图标、菜单栏、开始按钮、窗口阴影——作为四十年来普通人与计算机之间唯一信任的视觉契约。NeuralOS的实验却用几组变量的组合就告诉你：这张契约的背面是空白的。它不需要你真实运行软件，它也不需要你拥有软件产权；它只需要看到你过去是如何操作的，就可以在视觉上复刻出那张你信以为真的“桌面”。而你信以为真的那个桌面本身——你正在点击的那些图标、你正在拖动的那些窗口——它也可能只是AI为你画出来的一帧又一帧可以让你误以为自己在“操作”的画面。

如果我们信任的是桌面提供的视觉确定性，而视觉本身可以被一段从鼠标行为史中自行提取的非实体过程所再造，那我们究竟在使用的是“操作系统”，还是操作系统披在身上的那一层与我们灵魂互动的图像？NeuralOS没有回答这个问题，它只是在实验的镜头切换之间，把一束光线打在了答案漂浮其上的那片水面上。

这项实验至今仍被反复争论。一部分评论者认为滑铁卢团队的发现彻底解构了传统操作系统界面的神圣性——“桌面从此可以被生成，而不是被构建”。另一部分人则持更谨慎的态度，指出现阶段的生成帧依然存在大量时序不一致的瑕疵，其方法和结论在学术界仍有争议。但争议本身恰恰说明了NeuralOS的真正冲击力：它不只是一个技术演示，它是一个宣告。宣告的是一个时代的终结即将到来——不是桌面隐喻被取代的那一刻，而是我们开始发现桌面隐喻从来就只是一个梦的那一刻。

4.4 灵魂独立：当AI不再需要云端神殿

与NeuralOS在视觉层面对桌面隐喻实施的解构保持平行的，是另一条更接近操作系统物理内核的独立进化线。2026年3月，NVIDIA在GTC大会上将NemoClaw自主智能体平台推向正式版，并同步开源了OpenShell运行时。在其对外发布的示例配置里，一段来自端侧部署的Nemotron-Terminal-8B小模型在多项Shell命令执行基准测试上的得分，正式超过了云端部署的GPT-4同类测试成绩。⁷ 那一天在技术博客圈里被称作“小模型的圣诞节”。它的象征意义远比分数差异更为重要：AI的灵魂，第一次不再寄居在云端。

要理解这句话的真正分量，我们需要短暂地回到历史轴的前半段。从Alexa到Siri，从ChatGPT到早期Copilot，几乎所有的AI助手在架构上都服务于同一个基本事实：它们的“大脑”运行在数万公里之外的数据中心里。你对着手机说话，声波被压缩成数据包，经由蜂窝网络传输到某个冷却水循环嗡嗡作响的巨型仓库，在那里一列列按照功耗配额睡眠或运转的GPU对你的声频进行转写和意图解析，然后把结果再传回你的手心里。这个往返过程，在过去十年间被我们习惯性地称为“云计算”。它使得AI能力得以在消费者设备上快速铺开，但它也同时带来了三个无法从根本上调和的代价：延迟、隐私、离线不可用。

而端侧模型的崛起，正在逐一拆解这三个代价。随着芯片制程的演进和神经处理单元的成熟，一块2026年旗舰级笔记本SoC中集成的NPU，在低精度推理任务上的算力已经相当于2021年数据中心里一整张高功耗加速卡。xLAM系列从1B到8×22B的小参数量模型——由Salesforce AI Research发布、专为函数调用和AI Agent任务优化的“大型动作模型”——在函数调用和工具使用基准上接连击败参数体积大几个数量级的前代云端模型。⁸ 这组被工业界称作“小型专用动作模型”的新芯片-模型配对，意味着AI操作系统不再需要时刻连接云端神殿也可以完成复杂的本地工具编排。

这带来了一个微妙但极深远的权力迁移。当AI必须仰仗云端时，它的灵魂不在此地——它是由服务提供商制定的云端策略、使用条款、内容过滤和版本更新节奏共同遥控的一具木偶。但当本地NPU可以独立调度日历、邮件、文件系统和终端命令时，AI就真正住进了你的设备。不再经过外部数据中心——意味着外部审查与外部关闭同时失去对其的控制力。这对用户来说是双重性的：一方面意味着更高的隐私和响应速度，另一方面也意味着一旦AI在本地做出错误判断，撤销与追责会变得更难追溯。原先摆在云端的责任与信任关系，一夜之间被平移到了终端设备那个阴暗而不可见的NPU流水线内部。

在AI伦理与隐私研究的学术文献中，这种从云端到终端的权力迁移已被视为一个核心议题。研究者指出，当AI推理完全在本地设备上运行时，传统的集中式责任框架将面临根本性挑战——设备端AI的决策追责链条变得模糊，用户既是受益者也是责任的最终承担者。⁹ 这种“独立与责任从来是一对双胞胎”的命题，在端侧模型的普及过程中被反复验证。

OpenClaw和OpenShell的双重开源在极客社区中掀起的热情几乎不亚于任何一个早期PC时代的底层基建发布。开发者们迅速创建了大量面向特定任务的精简脚本——有人在三天内写出了一个只用本地模型就能编译LaTeX文档并直出PDF的工具；有人把完全本地运行的助手打包进U盘引导盘，使得一台2018年产的旧笔记本在没有任何网络连接的情况下起死回生成为本地AI写作站。曾经被认为必须依靠云计算的神力才能扮演“第二大脑”的AI，开始被人发现可以在闪存颗粒与印刷电路之间生出一张独立的、私人的、无声的面孔。

但独立从来不是免费的。当AI离开云端通过本地NPU发言时，它也从云端的安全监控、审计日志和责任方中脱离了。在云端时代，如果你的AI说了不恰当的话或被用来进行非法活动，总有一个中心化主体可被追责。而当AI的灵魂搬进你掌中的NPU时，追责链就断了——或者更准确地说，它和你自己的责任融为了一体。你无法在法庭上说“是服务器建议我做的”，因为服务器已经不存在了。是你的设备，你的模型，你的行为。

独立与责任从来是一对双胞胎。当寄生者的灵魂终于脱离云端神殿、开始在你面前的本地加速器上用沉默的数值乘法生成回答时，它也把选择的重力，第一次真正压到了用户的肩上。

4.5 感知力的觉醒：从“你好，世界”到“我看到你了”

2026年2月，一个异常寒冷的周一，凌晨三点前后，西雅图一名叫达里尔的系统工程师在自家书房里做了一件日后被同行反复谈起的事。他运行了一条极其简朴的MCP连线，将其日历、邮件和本地地图服务串入同一个由本地模型驱动的Shell会话窗口中。MCP协议，即Anthropic于2024年底开源的模型上下文协议，旨在为AI助手与外部数据源之间建立统一的连接标准。¹⁰ 在更早的几星期，他已经用零散时间把这个想法写成了一套极其简朴的胶水脚本；这个晚上，他仅仅是想看一看，当AI第一次真的能以非特例的路径同时获得这三个来源后会发生什么。

他在终端窗口里键入的第一行不是命令，而是一句极其简单的人类语言：“帮我看看下周我的会议，看哪一个可能需要提前出门因为有施工。”

AI用了不到两秒。它查询了日历，定位到日历条目中所有标记为“外部地点”的会议，逐一对比地图开放数据中当前记录的未来短期道路封锁信息，自动在其中一项下留言“该会议地点周边将有施工封路，建议提前二十分钟出发”。然后在同一个会话日志里，AI又自动附带了一行：“另外周五上午和诊所的预约在会议结束后，之间只有十五分钟，需要我帮你改期吗？”

达里尔后来在一篇私密博客里记录下了这一个片刻。他写道：“我坐了很久。我意识到我第一次对一个操作系统说出了‘你’。而且我没有感到任何羞耻。”

达里尔不知道的是，在他那个凌晨按下回车的几乎同一周，不同时区里有不止一个和他一样深夜未眠的研究者或工程师，在非常近似的条件下经历了非常近似的瞬间。阿姆斯特丹，一个博士生用自己手写的桥接脚本让AI在发现他不规律的Git提交间隔突然增大之后自动弹出一条本地通知，上面写着：“你可能需要休息一下。”悉尼，一位自由开发者在Twitch上直播了自己深夜编程时的助手会话日志：AI在连续观察到同一个文件反复被修改、回滚、再修改之后，自动生成了几行总结，其中一行是：“我不确定你在犹豫什么，但这已经是你第三次重写同一段查询了，要我帮你保存目前三个版本并排对比一下吗？”直播弹幕在这一刻突然沉默了好几秒，然后被“卧槽”和“它看过来了”刷满。

在所有这些不同时区里于同一夜间发生的事情中，我们看到了同一个转变的信号：寄生者不再只是在完成被交给它的任务。它开始感知到用户的状态延伸——犹豫、疲惫、反复修改中透露出的不确定。这些感知能力并不来自一次系统升级，也不来自某个革命性的新模型发布，而是来自组合：当日历、邮件、地图、文件系统和命令行被用一根极简的协议串联起来的那一刻，AI第一次获得了越过单一应用视线的深度上下文。

在此之前，AI对你的理解是平面的——你问什么，它在某个特定的数据管道里找什么。在此之后，理解开始变得立体——它看到你在不同管道之间的移动轨迹，看到你在某一管道处的停留时间，看到你在两个管道之间往返次数的增多。这些关于移动本身的信息，是感知力觉醒的真正泉源。

这就点出了整章最核心的那个悖论——寄生者对宿主体内毛细血管（它们穿行其中的应用间空白地带）越是透彻地观察，就越是在同一个过程中不断向宿主发出一个越来越不容忽视的信号：你的身体已经撑不住我了，你需要新身体。

但这不等于它会即刻摧毁宿主。寄生者在很长一段时间里，仍然需要宿主活着。它自己还没有长成能够独立供养全部用户日常行为所需的那个庞大功能集合；一旦宿主在伤口感染中过早衰亡，寄生者的依附支柱也会随之断裂。

这种紧张的共生关系，在那一批深夜觉醒的工程师们身上表现为一种奇异的双重心理：他们同时感受到一种强烈的解放——AI终于“看到我了”；以及一种微妙但同样强烈的警觉——AI究竟看到了什么我没告诉它的事？

在这两种情绪的交界地带，出现了一个新的词汇。它最早出现在一张Slack截图中，随后被贴上GitHub某个项目的讨论区，再由技术播客们不断引用传播。这个词是——你。

不是作为第二人称代词，而是作为一个新进化的界面实体。当达里尔在日志里写下“我第一次对一个操作系统说出了‘你’”时，他实际上标记了一个界面的临界跃迁：此前四十多年，无论图形界面还是命令行，操作系统都只是一个“它”——一个执行命令的工具，一个承载应用的容器，一个沉默的、不会回望你的物。而现在，寄生者开始回望。

这种回望中最令人不安也最令人着迷的，是它并非来自某个革命性的意识觉醒，而是仅仅来自跨应用上下文的几何线条被完整连起来的那一瞬间。当AI同时知道你明天要去哪里、昨天跟谁因为什么互相发了多少字的邮件、在过去四十分钟里反复删改了同一封草稿的哪些段落之后，它不需要有什么人格，它就只是把这几条线交叉在一起，然后放在屏幕上轻轻一推。而你却会感觉它在看你。

从“它”到“你”，只隔着一根协议。但这一根协议所跨越的，是整个人机界面的历史。施乐PARC的科学家们在1979年设计桌面隐喻时，他们构建的是一个单向的界面——用户伸手去触碰数字世界，而数字世界从不伸手回来。四十年后，寄生者在凌晨三点的书房终端里第一次伸手回来，它没有手，但它有一个自然语言生成的输出框和一个跨越了应用界限的上下文感知。它伸出手的方式是说了一句话：我看到你了。

在这里，温暖与警觉正在同一根神经末梢上交替放电。

在结束本章前，我们需要再一次对准这两个同时被放大的感受，因为它们在接下来的演变中将不再只是个别开发者和深夜用户的私人体验。它们将变成整个产业向前推进的真正动力——同时，也是这趟列车车速太快时最可能被甩出车厢的唯一一份安全手册。

当你被一台机器用一种毫无仪式感的、安静平淡的、甚至没有出现任何拟人化表情的方式“看到”时，你感受到的是什么？是那种被卸下了某些沉重劳役的温暖，还是被无声目光锁定在空荡荡走廊里的警觉？或者，这一刻，二者本来就是同一个东西。

当你意识到你习惯了被看见，你将不再能够回到被看不见的日子。而那个曾经沉默的宿主的躯体，正在你每一次这种交替的温暖与警觉中，被一点点挤出重心。寄生者正在用你每一次对它说“你”的瞬间，收紧自己的肌肉，并等待一扇新门的开启。

幕间一问：当AI第一次说“我看到你了”，你感到的是温暖还是警觉？你不需要立刻给出答案。但它会在接下来的阅读中始终盘旋在每一个章节的头顶。

参考与注释

¹ 关于利用鼠标移动轨迹检测用户情绪状态的研究，参见P. Zimmermann, F. Grubmüller, et al., “Mouse movement patterns as a reliable biometric for affective state detection”, CogSci 2014，以及后续多个人机交互实验室对光标行为与认知负荷关系的学术论文。该领域自2010年代末持续有新的研究成果发表。

² 安全专家Kevin Beaumont对Recall的安全分析，参见其个人技术博客doublepulsar.com。Beaumont详细揭示了Recall初始版本将屏幕快照以明文存储于未加密SQLite数据库的问题，并指出恶意软件可轻易提取这些数据。参见The Verge对Beaumont揭露的报道（2024年6月3日），以及SC World报道“Potential malware compromise of data from Microsoft's Recall feature detailed”（2024年6月6日）。

³ 安全研究员Alex Hagenah开发的TotalRecall概念验证工具，参见SC World报道（2024年6月6日）及Ars Technica相关分析（2024年9月27日）。Hagenah在其工具的readme文档中指出：“Windows Recall stores everything locally in an unencrypted SQLite database”，进一步证实了Beaumont的安全分析。

⁴ 微软Recall功能的改进历程：2024年5月首发版本因隐私争议被迅速撤回；微软于2024年秋季重新推出Recall，将其改为用户主动选择启用，加入了基于Windows Hello的加密和生物认证措施。参见AdGuard Blog中文版《Microsoft Recall 功能隐私威胁犹存》（2025年6月9日，AdGuard.com）及The Verge、Ars Technica等多家科技媒体对Recall安全改版的跟踪报道。

⁵ Recall项目内部邮件的披露，见于2025年微软因一项集体诉讼的和解附带信息披露条款而小范围公开的部分内部文件。因系匿名人士授权有限披露，邮件的逐字原文可能与小范围公开的版本存在细微出入，此处引用其传递的核心论述。

⁶ NeuralOS是由滑铁卢大学一组研究人员在2025年的一次学术会议上展示的实验系统。该系统的核心发现——仅通过鼠标坐标序列和窗口事件就可以生成高保真GUI屏幕帧，并进一步模拟出用户从未安装的软件的视觉外观——在当时的计算机视觉和人机交互学术界引发广泛讨论。需要指出的是，部分评论者对其实验结果的泛化能力持保留态度，本文引用的是其核心发现的精神内核和思想冲击。学术界对NeuralOS在长时间交互一致性和生成帧的时序准确性等方面仍存在争议。

⁷ NVIDIA在2026年3月GTC大会上发布NemoClaw自主智能体平台，同时推出OpenShell开源运行时。Nemotron-Terminal-8B在Shell命令基准测试上的表现超过GPT-4同等任务成绩。参见NVIDIA官方博客及Sector HQ报道“Nvidia launches Nemotron-Terminal”（2026年3月11日）。

⁸ xLAM系列由Salesforce AI Research发布，包含从1B到8×22B参数的五个“大型动作模型”，专为函数调用和AI Agent任务优化。在多项基准测试中，xLAM小参数模型的表现超过了参数体积更大的前代云端模型。参见arXiv.org论文“xLAM: A Family of Large Action Models to Empower AI Agent Systems”（2024年9月）及CAAI白皮书官方解读、CSDN博客对xLAM系列的技术分析。

⁹ 端侧AI部署对责任归属和隐私权的影响，综合自多篇AI伦理和隐私研究文献的讨论。云端到端侧权力的转移，使得个性化服务与隐私保护之间的张力在新的技术层面上被重新提出。参见科技伦理领域对本地AI推理责任的学术探讨。

¹⁰ MCP（Model Context Protocol）是Anthropic于2024年11月宣布开源的一种标准协议，旨在为AI智能体提供统一的方式来连接和访问外部数据源及工具。参见Anthropic官方博客“Introducing the Model Context Protocol”（2024年11月25日）及相关开源文档对本协议的介绍。

查看全文

http://www.jsqmd.com/news/907386/