当前位置：首页 > news >正文

五层能力架构全景

news 2026/7/23 10:37:08

五层能力架构全景

┌─────────────────────────────────────────────────────────────┐ │ Layer 5 · Adaptive Skill Stack · 元调度与自演化层 │ │ ───────────────────────────────────────────────────────── │ │ 能力注册表 / 叠加协议 / 构建模式 / 知识沉淀 / 跨域融合 │ │ 职责：调度下面4层，记录经验，越用越强 │ ├─────────────────────────────┬───────────────────────────────┤ │ Layer 3 · Omniscient │ Layer 2 · Cogniexec │ │ ────────────────────────── │ ─────────────────────────── │ │ 第三层：系统控制 │ 第二层：预置脚本库 │ │ 18大硬件/设备操控模块 │ 17+ 高频标准化执行脚本 │ ├─────────────────────────────┤ │ │ Layer 1 (共享) │ │ │ ────────────────────────── │ │ │ 认知套件(4模式) + 执行框架 │ │ │ + 编排引擎 │ │ ├─────────────────────────────┴───────────────────────────────┤ │ Layer 0 · WorkBuddy 宿主层 │ │ ───────────────────────────────────────────────────────── │ │ 文件系统 | 命令执行 | 网络 | 图像生成 | 多智能体 | 自动化 │ │ 技能插件 | 云服务RAG | 结果交付 | Agent Loop │ ├─────────────────────────────────────────────────────────────┤ │ Layer -1 · LLM 原生层 │ │ ───────────────────────────────────────────────────────── │ │ 推理 | 知识 | 语言生成 | 代码理解 | 创意 | 数学 | 角色扮演 │ └─────────────────────────────────────────────────────────────┘

Layer -1：LLM 原生层 — 大脑内核

一切能力的源头。没有这一层，上面所有层都是空壳。

能力域	具体能做什么	做不到什么
语言	翻译/摘要/改写/润色/校对/多风格写作	无法操作真实文件
推理	逻辑推导/因果分析/论证评估/矛盾识别	无法获取实时信息
知识	百科/技术原理/历史/科学/行业知识	训练截止后的事不知道
代码	任意语言编写/调试/重构/架构设计	无法运行验证
创意	文案/故事/诗歌/营销/方案构思	无法生成图片视频
数学	算术/统计估算/公式推导/单位换算	不保证100%精确

定位：纯信息处理黑盒，输入文本→输出文本，无副作用。

Layer 0：WorkBuddy 宿主层 — 手脚感官

LLM 与物理世界的桥梁。让大脑能读文件、跑命令、上网、看图。

工具	名称	能力
`read_file`	读	读取任意格式文件内容，支持图像预览
`write_to_file`	写	创建/覆盖文件到磁盘任意位置
`replace_in_file`	改	精确字符串替换编辑已有文件
`delete_file`	删	删除文件
`list_dir`	列	浏览目录结构
`search_file`	搜文件	通配符模式搜索文件
`execute_command`	执行	跑Shell/PowerShell/Python/任意CLI
`web_search`	搜索	实时搜索引擎查询
`web_fetch`	抓取	抓取网页内容转Markdown
`image_gen`	生图	AI文生图，多尺寸多风格
`Task`	子代理	启动code-explore等专用子agent
`team_create`	组队	创建多agent并行团队
`automation_update`	定时	RRule周期/一次性自动化任务
`use_skill`	加载技能	动态加载PDF/Excel/PPT等专项技能
`RAG_search`	知识库	查询腾讯云/微信小程序等领域知识库
`open_result_view`	展示	向用户展示最终成果
`deliver_attachments`	投递	打包文件附件交付
`search_content`	全文搜	ripgrep正则跨文件内容搜索
`read_lints`	诊断	IDE级代码质量检查

定位：LLM 的"手"（文件/命令）、“眼”（网络/搜索）、“嘴”（展示/投递）、“耳朵”（RAG/知识库）。

LLM + WorkBuddy 已经能完成80%的任务。但还有缺口：

❌ 无法精细控制窗口/进程/GUI
❌ 无法操控硬件（音量/GPU/串口/蓝牙/IoT）
❌ 每次写数据处理脚本从零生成，浪费token
❌ 无能力积累机制，每次从空白开始

Layer 1：共享基础层（Omniscient ∩ Cogniexec）

两个技能共有的核心架构，也是它们区别于裸 LLM+WorkBuddy 的增量起点。

┌──────────────┬──────────────────────────────────┐ │ 认知套件 │ 编排引擎 │ │ │ │ │ 直用 → 精确 │ 拆解 → 规划 → 执行 → 修复 → 汇总 │ │ 改进 → 优化 │ 条件分支 / 循环迭代 / 并行编排 │ │ 迁移 → 搬移 │ 智能插桩 / 断点恢复 │ │ 构建 → 创新 │ 安全规则贯穿 │ └──────────────┴──────────────────────────────────┘

认知套件— 在裸 LLM 的原生能力上加了四种思维模式的提示词框架：

模式	裸LLM能做到的	加框架后的增量
直用	回答问题	结构化基元链执行协议
改进	给出建议	10种创新方法论约束（第一性原理/逆向思维/游戏化…）
迁移	类比回答	强制"抽象模式→具体方案"两步转换器
构建	头脑风暴	维度矩阵强制连接+反常识输出机制

编排引擎— 把 WorkBuddy 的工具调用升级为有结构的流水线：

对比	裸 WorkBuddy	加编排引擎后
任务执行	顺序调工具	基元序列化，依赖关系管理
出错处理	手动重试	自动分析错误→替换/调整/终止
中间判断	靠LLM直觉	显式插入认知判断节点
复杂度上限	约5-10步	理论无限（断点恢复+循环）

定位：给 LLM+WorkBuddy 这套组合穿上思维框架和执行纪律。

Layer 2：Cogniexec 独占层 — 预置脚本库

解决"重复造轮子"问题。同样的数据处理/格式转换/网络操作不需要每次都让 LLM 从零生成代码。

┌──────────────────────────────────────────────────────────┐ │ Cogniexec scripts/ │ │ │ │ A类（LLM做不到的） B类（LLM能做但费token的） │ │ ───────────────── ───────────────────────── │ │ A1 剪贴板·终端UI B1 格式转换 JSON/YAML/TOML/CSV... │ │ A2 HTTP·诊断·邮件 B2 数据处理 过滤排序分组聚合透视 │ │ A3 SQLite·Git·归档 B3 JSONPath 查询过滤变换 │ │ A4 加密·图像·二维码 B4 文本 Diff正则词频Markdown │ │ B5 文件 归类重命名去重扫描同步 │ │ B6 代码 语法TODO API行数搜索 │ └──────────────────────────────────────────────────────────┘

核心价值公式：

没有Cogniexec: 每次任务 = [LLM生成代码] → [写入文件] → [执行] 成本 = O(token) × N次 × 用法次数 有Cogniexec: 首次 = [LLM生成代码] → 写入scripts/ （一次性） 后续 = [直接调用现成脚本] （零成本） 成本 = O(token) × N + O(0) × 用法次数

17个脚本的具体覆盖：

脚本	替代什么	每次省多少
`http_client.py`	LLM写urllib请求代码	~50行代码/次
`net_diag.py`	LLM写socket Ping DNS代码	~80行代码/次
`email_sender.py`	LLM写smtplib邮件代码	~40行代码/次
`db_tool.py`	LLM写sqlite3操作	~60行代码/次
`git_advanced.py`	LLM写subprocess git命令串	~70行代码/次
`crypto_utils.py`	LLM写hashlib/hmac代码	~30行代码/次
`image_batch.py`	LLM写pillow批量处理	~90行代码/次
`format_converter.py`	LLM手动做JSON↔YAML转换	~200行代码
`data_processor.py`	LLM手写pandas-free数据处理	~150行代码
`jq_tool.py`	LLM手写json路径提取	~60行代码/次
`text_utils.py`	LLM手做Diff/正则/词频	~80行代码/次
`file_manager.py`	LLM写os/shutil批量操作	~100行代码/次
`code_tools.py`	LLM手写ast/re解析代码	~120行代码/次
…	…	…

定位：Layer 1 的效率放大器——不增加新能力边界，但大幅降低已有能力的使用成本。

Layer 3：Omniscient 独占层 — 系统控制

补齐了 LLM + WorkBuddy + Cogniexec 全部加起来都不覆盖的能力疆域：物理世界操控。

┌──────────────────────────────────────────────────────────────┐ │ Omniscient scripts/ 18大模块 │ │ │ │ ┌──────────┬──────────┬──────────┬──────────┬──────────┐ │ │ │ 桌面操控 │ 硬件控制 │ 通信控制 │ 外设管理 │ 智能设备 │ │ │ ├──────────┼──────────┼──────────┼──────────┼──────────┤ │ │ │窗口管理 │音量亮度 │网络WiFi │打印机 │IoT联动 │ │ │ │进程管理 │GPU监控 │串口通信 │扫描仪 │HomeAsst │ │ │ │GUI自动 │存储磁盘 │蓝牙控制 │摄像头 │音频设备 │ │ │ │截图OCR │电池电源 │ │输入设备 │ │ │ │ │鼠标键盘 │显示器 │ │ │ │ │ │ │ │温度风扇 │ │ │ │ │ │ └──────────┴──────────┴──────────┴──────────┴──────────┘ │ └──────────────────────────────────────────────────────────────┘

逐层对比 —— Omniscient 到底补了什么：

能力	LLM能？	WB能？	Cogniexec？	✅ Omnisicient
关掉某个窗口	❌	❌	❌	`window_manager.py close`
把音量调到50%	❌	❌	❌	`hardware_controller.py volume set`
GPU实时监控	❌	❌	❌	`gpu_controller.py monitor`
连接WiFi	❌	⚠️需手写命令行	❌	`network_controller.py wifi connect`
给Arduino发指令	❌	❌	❌	`serial_comm.py send`
扫描BLE设备	❌	❌	❌	`bluetooth_controller.py list`
开客厅灯(IoT)	❌	❌	❌	`iot_controller.py homeassistant on`
截图+OCR识别	⚠️LLM无法截图	⚠️需装额外库	❌	`gui_controller.py screenshot + visual ocr`
点击屏幕坐标	❌	❌	❌	`gui_controller.py mouse click`
打印机队列查看	❌	❌	❌	`printer_controller.py list`
拍一张照	❌	⚠️需装opencv	❌	`camera_controller.py capture`
CPU温度监控	❌	⚠️需装psutil	❌	`thermal_controller.py status`

18个模块 = 18个全新的能力维度，不是效率提升，是从0到1的突破。

Layer 5：Adaptive Skill Stack — 元调度与自演化

不是再加一层功能，而是给整个栈加上"记忆"和"进化"。

┌─────────────────────┐ │ Adaptive Skill Stack │ ← 元调度层 │ ─────────────────── │ │ │ │ 用户需求进来 │ │ ↓ │ │ 语义解析 + 四维定位 │ │ ↓ │ │ ┌─────────────────┐ │ │ │ 注册表已覆盖? │ │ │ │ 是→叠加模式 │ │ │ │ 否→构建模式 │ │ │ └─────────────────┘ │ │ ↓ │ │ 调度 Layer -1~3 │ │ ↓ │ │ 执行 + 结果沉淀 │ │ （注册表增长） │ └─────────────────────┘ ↕ 调度 ┌─────────┬─────────┬─────────┬─────────┬─────────┐ │ Layer -1│ Layer 0 │ Layer 1 │ Layer 2 │ Layer 3 │ │ LLM │ WorkBuddy│ 共享基础 │ Cogniex │ Omnisci │ └─────────┴─────────┴─────────┴─────────┴─────────┘

Adaptive Stack 不是和下面4层并列的第5层能力，而是站在上面的"调度+演化层"：

机制	作用对象	效果
能力注册表	所有层	记录每次用了什么能力，形成索引
叠加模式	Layer 1~3	已知领域需求直接匹配能力组合，秒级响应
构建模式	Layer -1	新领域首次走LLM原生解决→沉淀为可复用能力
跨域融合	跨层	强制连接不相干领域产生创新解法
知识沉淀	自身	领域知识文件持续积累，不依赖LLM上下文窗口
模板积累	Layer 0~2	可复用的代码骨架/文档结构/分析框架存档

没有 Adaptive Stack 的完整栈：

每次 = 白板开始 → LLM凭上下文回忆 → 可能遗忘之前做过的事

有 Adaptive Stack 的完整栈：

每次 = 查注册表 → 匹配历史能力 → 叠加组合 → 执行完 → 注册表更丰富

📊 五层汇总对照表

层级	组件	一句话本质	核心贡献	没它会怎样
L-1	LLM	大脑	推理+知识+语言+代码+创意的原生智能	其他层全部失能，变成废铁
L0	WorkBuddy	手脚	文件/命令/网络/图像/多智能体/自动化/技能/RAG/交付	LLM变成纯聊天机器人，无法触碰任何外部资源
L1	共享架构	思维框架+执行纪律	4种认知模式 + 编排引擎（基元链式编排）	任务执行靠直觉，复杂任务容易乱序出错
L2	Cogniexec	工具箱	17+预置高频脚本（A类不可替代+B类效率替代）	每次都从零生成代码，浪费token和时间
L3	Omniscient	外骨骼	18个系统控制模块（硬件/设备/通信/IoT/GUI）	只能在软件世界里打转，无法触达物理设备和桌面GUI
L5	Adap. Stack	记忆基因	能力注册表+叠加协议+自演化+跨域融合	永远从零开始，无法积累经验，不会越用越强

🎯 最终收束

五层关系可以用一个类比理解：

LLM = 大脑神经元（思考能力） WorkBuddy = 身体器官（手脚耳目口鼻） Layer 1架构 = 思维方法和行动纪律（训练有素 vs 乱打乱撞） Cogniexec = 随身工具箱（不用临时找材料造锤子） Omniscient = 外骨骼装甲（伸手够到身体本身达不到的地方） Adap.Stack = 经验记忆系统（越做越熟练，还能举一反三） 合在一起 = 一个会思考、能动手、有纪律、带工具、穿装甲、 有记忆、能自我进化的通用智能执行体。

查看全文

http://www.jsqmd.com/news/621982/