AI时代的信息平权
一、大语言模型为什么"大"是必要的
1.1 薛定谔之问
薛定谔在《什么是生命?》一书中提出了一个深刻的问题:为什么我们这么大,原子这么小?
- 在经典原子理论中,每个原子携带的信息量非常少
- 一个极小的原子系统不应该具有生命这样复杂的行为
- 大是应对整个世界宏观复杂性的必要条件
类比到大语言模型:面对复杂的世界任务,模型必须足够大才能捕捉和表达这种复杂性。
二、为什么选择了语言
2.1 语言是人类几千年的世界模型
大语言模型之前,深度学习成功的案例是 AlphaGo(2016年)和 AlexNet 的图像分类。但质变发生在大语言模型领域。
语言是人类沉淀了几千年的世界模型,是可以在人和人之间对齐物理世界的工具
2.2 语言的抽象性
用"美女"这个例子说明语言的力量:
"我今天来上课的路上,看到一个美女"这句话背后隐含的信息:
- 几十年的生活经历
- 对"美"的个人理解
- 每个人有不同的理解,但有结构上的相似性
语言的本质:
- 它是一个
抽象,丢失了很多信息 - 但保留了人类可以传承的结构性知识
- 人类共享物理世界、相同的学习环境,使得语言对齐成为可能
大语言模型之所以有效,是因为
语言本身就编码了人类对世界的理解。如果想要与外星人对齐,可能需要其他方法。
三、大语言模型的工作原理
3.1 两个训练阶段
GPT = Generative Pretrained Transformer
预训练阶段(
Pretraining)- 使用海量文本数据训练
- 学习"说正常的人类语言"
后训练阶段(
Post-training)- 微调成对话助手
- 使用特殊符号标记人机对话格式
3.2 Next Token Prediction
大语言模型本质上是一个**概率分布**:
基于过去所有看到的文字,计算下一个token的概率:
- “好的” → 0.01
- “大的” → 0.00001
- Unicode字符(😊😂)→ 各自有概率
输出时选择概率最高的继续
3.3 为什么它能"理解"代码
写算法题写多了有的可以做到在纸上写完整的三页 A4 代码,看一遍修改小错,然后直接输入计算机编译运行且正确。
原理:
- 在某个领域(如编程)经过过度训练后
- 可以在
短期记忆中容纳大量解题步骤 - 写代码变成了"机器翻译"——从伪代码翻译成实际代码
这与BERT系列模型在机器翻译上的表现是类似的。当人类能做到这件事,模型没有道理做不到
3.4 Self-Attention
大语言模型工作时:
- 根据上下文(
context)注意到重要的词 - 预测下一个词时,后面的词其实已经"想得差不多了"
- 这与人类解题时的"注意力"非常相似
人类解题:注意到某个关键条件,题就解出来了
模型预测:注意到相关上下文,下一个token就确定了
四、Scaling Law
4.1 The Bitter Lesson
作者:Richard Sutton(强化学习领域图灵奖得主)
从苦涩的教训中学到的是**通用方法的巨大力量**
4.2 历史案例:算力即智能
案例一:1980年代的存储技术
发现:网页增长速度 < 存储系统容量增长速度
→ 结论:终有一天,一台计算机可以存储世界上所有网页
→ Google 是必然的
→ 量变引起质变
案例二:1997年深蓝击败卡斯帕罗夫
- 象棋搜索每增加一层深度,分数稳定提升
- 人类智能的本质是算力
- 他们选择的优化路径:造加速器
- 超级计算机 + 专用下棋电路
- 为什么?因为算法复杂度是指数级的,加速硬件更有效
案例三:2016年 AlphaGo
- 同样的规律再次发生
- 用类似图像识别的卷积神经网络处理棋盘
蒙特卡罗搜索替代 Alpha-Beta 剪枝
案例四:大语言模型
- GPT-3 训练 175B 参数的模型时,没人知道能否成功
- 只是相信小规模实验可以外推
- 人类在"试着试着"中造出了智能机器
4.3 Scaling Law 论文的核心
右图:每一条曲线 = 固定算力(如 6×10^18 到 3×10^19)
横轴:数据集大小
纵轴:Training Loss(智能程度)
结论:
算力越多 → 可用更多数据 → 更大参数 → 更好模型- “人类的智能不过是算力”
五、Agentic AI 时代
5.1 给 AI 一个"草稿纸"
如果你把所有东西都放在脑子里,你就是一个**
有限状态机。如果你有了 paper 和 pencil,你就是一个图灵机**。
类比到 AI:
workspace= AI 的草稿纸- 目录= 工作区
- 目录里的 README、docs、源代码、测试文件 =
记忆组织
5.2 Git:给 AI 量身定制的版本控制
Git 的本质:
- 管理目录的快照(snapshots)
- 类似于 Persistent Data Structure
- 任意修改后都可以退回过去的快照
Git 给了 AI 一个"平行宇宙":
- 可以
Cherry-pick任意版本的内容 - 可以
开多条世界线并行尝试 - 解决了"死亡循环"问题
5.3 死亡循环(Death Loop)
大模型启动时的状态:
- 只有训练好的参数
- 可能有一个 system prompt
- 没有记忆(没有 short-term memory)
游戏比喻:
每天从同一个地方醒来,丢掉所有记忆
重新探索世界,可能被打死,第二天重来
AI 的情况:
每次打开项目,看起来都是全新的
它根据当前任务再改,再改,再改…
解决方案:用文件系统记录进度(plan.md、进度标记等)
5.4 AI 完成任务的流程
1. 接收任务 ↓ 2. 提出规划(粗粒度 plan) ↓ 3. 推理细化(逐步拆解) ↓ 4. 写计划文件(plan.md) ↓ 5. 执行:写代码、测试、调试 ↓ 6. 出错 → 修复 → 重试5.5 工具加持
| 工具类型 | 作用 |
|---|---|
| 计算器 | 123×456 不再需要心算 |
| 代码检查器 | 检查低级错误 |
| 单元测试 | 验证实现是否符合预期 |
| Debug 工具 | 定位问题 |
CoNtinue/Cline 等 coding agent 的工作方式:
- 理解任务
- 调用工具执行命令
- 检查结果
- 出错则修复
5.6 为什么 Cursor/AI Coding 工具火爆
人类程序员习以为常的工作方式(工作区、版本控制、测试),恰好给 AI 搭建了一个完美的舞台。
这种工作方式并非程序员专属:
扩展到学习场景:
- lecture notes → 目录
- 作业完成情况 → README
- 错题本 → 记录错误
- 复习计划 → plan.md
实际应用:
- 问 AI:下一步应该做什么?
- 让 AI:根据我的薄弱点出模拟题
- 定时任务:每天早上爬取天气预报
六、人类智慧的核心:分解问题
6.1 Prompt Engineering 的本质
Prompt Engineering 本质上是
attention engineering——你希望 AI 注意到什么。
6.2 分解问题 = 构建合适的抽象
为什么分解问题很重要?
如果直接让 AI 做一个大项目,它会给你一个平庸的平均解
但如果你能用独特的视角分解问题
- 可以直接得到产品级的成果
- 可以在设计空间里探索更好的方案
6.3 操作系统中的经典抽象
System Call Interface
用户应用(原神、Steam)→ 系统调用接口 → Linux 内核(千万行代码)
特点:
接口层非常小时- 你只需要用的那部分更少
- 这是经典的抽象
Instruction Set Architecture
应用程序 → 指令集 → 硬件
RISC-V 就是这样的抽象
函数/模块边界
register_user() 被多处调用
↓
如果参数变了,所有调用都要改
↓
这就是系统设计的有趣之处
6.4 反常规设计案例
传统的课堂系统:
- 前端网页 + 后端服务 → 函数调用耦合
- 导出 lecture notes 需要额外处理
设计:
点击按钮 → 写文件到目录
前端只负责写文件,不管谁来读
接口变成:
- 一个目录存放日志
- 日志格式是约定的协议
- 任何遵循协议的程序都可以读取
好处:
前端和后端彻底解耦- 可以并行让 AI 实现多个工具
- 不会污染其他系统
6.5 人类 vs AI
| 方面 | 人类 | AI |
|---|---|---|
| 规划方式 | 先做基础设施和抽象 | 直接开干,出了问题再修 |
| 日志处理 | 边打印边看,及时终止 | 打印满屏后才看(浪费上下文) |
| 抽象能力 | 主动设计协议和边界 | 依赖指令 |
| 工具意识 | 主动写 test framework | 需要明确告知 |
- LLM=
Next Token Prediction+Self-Attention - Scaling Law=算力即智能,量变引起质变
- Agentic AI = workspace + tool + memory management
- 人类的核心竞争力:
分解问题的能力 +设计抽象的能力 - 做 sys 核心的点在于
设计 Protocol 和系统边界,提前想好设计可以帮助确定后续系统不会失控
提示词 :
Think step by stepKeep design tiny and explicitStructure help around short planNext code change, minimum testPrefer debugging mindset
避免:
- 不要一下子写完所有代码
- 不要跳过抽象层
七、用 AI 实现 RISC-V 操作系统
用AI实现一个最小的 RISC-V 操作系统内核record
分解任务
GPT 5.5 给出的分解:
- 创建必要的文件结构
- 初始化 QEMU 环境
- 实现最小内核入口
- 创建多个内核线程
- 实现线程切换
- 展示调度
AI 的工作过程
- 创建目录结构:
source/,include/ - 写 linker script 和 Makefile
- 实现头文件(kernel.h 等)
- 写线程管理和上下文切换代码
- 写汇编代码处理上下文切换
- Make 编译
- 遇到错误(Casting pointer from integer)→ 修复
- success
人类智慧的体现
- 给 AI 分解任务
- 观察 AI 的执行过程
- 当日志太长时主动终止
- 如果 AI 不主动写 test framework,则显示告知需要
附录
"Content-as-Code"时代:内容即代码,我们甚至没有完全准备好。
“人类的智能不过是算力”:从象棋到围棋再到大语言模型,这条规律反复验证。
量变引起质变的条件:只有找到那个能引起质变的事情,量变才有意义。否则是在原地踏步。
古法编程的时代已经过去了:现在 AI 时代,智能变得很便宜。
你需要的是
驾驭 AI的能力:不是学如何超过 AI,而是学会如何用好 AI,找到一条能走的路
"无限恐怖"时代的到来:当你把
AI 和scalable 的基础设施结合起来,可能性是无限的。
信息平权的时代: 后续自学能力强的同学真的是起飞的时代
