当前位置：首页 > news >正文

AI时代的信息平权

news 2026/6/12 3:59:40

一、大语言模型为什么"大"是必要的

1.1 薛定谔之问

薛定谔在《什么是生命？》一书中提出了一个深刻的问题：为什么我们这么大，原子这么小？

在经典原子理论中，每个原子携带的信息量非常少
一个极小的原子系统不应该具有生命这样复杂的行为
大是应对整个世界宏观复杂性的必要条件

类比到大语言模型：面对复杂的世界任务，模型必须足够大才能捕捉和表达这种复杂性。

二、为什么选择了语言

2.1 语言是人类几千年的世界模型

大语言模型之前，深度学习成功的案例是 AlphaGo（2016年）和 AlexNet 的图像分类。但质变发生在大语言模型领域。

语言是人类沉淀了几千年的世界模型，是可以在人和人之间对齐物理世界的工具

2.2 语言的抽象性

用"美女"这个例子说明语言的力量：

"我今天来上课的路上，看到一个美女"

这句话背后隐含的信息：

几十年的生活经历
对"美"的个人理解
每个人有不同的理解，但有结构上的相似性

语言的本质：

它是一个抽象，丢失了很多信息
但保留了人类可以传承的结构性知识
人类共享物理世界、相同的学习环境，使得语言对齐成为可能

大语言模型之所以有效，是因为语言本身就编码了人类对世界的理解。如果想要与外星人对齐，可能需要其他方法。

三、大语言模型的工作原理

3.1 两个训练阶段

GPT = Generative Pretrained Transformer

预训练阶段（Pretraining）
- 使用海量文本数据训练
- 学习"说正常的人类语言"
后训练阶段（Post-training）
- 微调成对话助手
- 使用特殊符号标记人机对话格式

3.2 Next Token Prediction

大语言模型本质上是一个**概率分布**：

基于过去所有看到的文字，计算下一个token的概率：

“好的” → 0.01
“大的” → 0.00001
Unicode字符（😊😂）→ 各自有概率
输出时选择概率最高的继续

3.3 为什么它能"理解"代码

写算法题写多了有的可以做到在纸上写完整的三页 A4 代码，看一遍修改小错，然后直接输入计算机编译运行且正确。

原理：

在某个领域（如编程）经过过度训练后
可以在短期记忆中容纳大量解题步骤
写代码变成了"机器翻译"——从伪代码翻译成实际代码

这与BERT系列模型在机器翻译上的表现是类似的。当人类能做到这件事，模型没有道理做不到

3.4 Self-`Attention`

大语言模型工作时：

根据上下文（context）注意到重要的词
预测下一个词时，后面的词其实已经"想得差不多了"
这与人类解题时的"注意力"非常相似

人类解题：注意到某个关键条件，题就解出来了
模型预测：注意到相关上下文，下一个token就确定了

四、Scaling Law

4.1 The Bitter Lesson

作者：Richard Sutton（强化学习领域图灵奖得主）

从苦涩的教训中学到的是**通用方法的巨大力量**

4.2 历史案例：`算力即智能`

案例一：1980年代的存储技术

发现：网页增长速度 < 存储系统容量增长速度
→ 结论：终有一天，一台计算机可以存储世界上所有网页
→ Google 是必然的
→ 量变引起质变

案例二：1997年深蓝击败卡斯帕罗夫

象棋搜索每增加一层深度，分数稳定提升
人类智能的本质是算力
他们选择的优化路径：造加速器
- 超级计算机 + 专用下棋电路
- 为什么？因为算法复杂度是指数级的，加速硬件更有效

案例三：2016年 AlphaGo

同样的规律再次发生
用类似图像识别的卷积神经网络处理棋盘
蒙特卡罗搜索替代 Alpha-Beta 剪枝

案例四：大语言模型

GPT-3 训练 175B 参数的模型时，没人知道能否成功
只是相信小规模实验可以外推
人类在"试着试着"中造出了智能机器

4.3 Scaling Law 论文的核心

右图：每一条曲线 = 固定算力（如 6×10^18 到 3×10^19）
横轴：数据集大小
纵轴：Training Loss（智能程度）

结论：

算力越多 → 可用更多数据 → 更大参数 → 更好模型
“人类的智能不过是算力”

五、Agentic AI 时代

5.1 给 AI 一个"草稿纸"

如果你把所有东西都放在脑子里，你就是一个**有限状态机。如果你有了 paper 和 pencil，你就是一个图灵机**。

类比到 AI：

workspace= AI 的草稿纸
目录= 工作区
目录里的 README、docs、源代码、测试文件 =记忆组织

5.2 Git：给 AI 量身定制的版本控制

Git 的本质：

管理目录的快照（snapshots）
类似于 Persistent Data Structure
任意修改后都可以退回过去的快照

Git 给了 AI 一个"平行宇宙"：

可以Cherry-pick任意版本的内容
可以开多条世界线并行尝试
解决了"死亡循环"问题

5.3 死亡循环（Death Loop）

大模型启动时的状态：

只有训练好的参数
可能有一个 system prompt
没有记忆（没有 short-term memory）

游戏比喻：
每天从同一个地方醒来，丢掉所有记忆
重新探索世界，可能被打死，第二天重来

AI 的情况：
每次打开项目，看起来都是全新的
它根据当前任务再改，再改，再改…

解决方案：用文件系统记录进度（plan.md、进度标记等）

5.4 AI 完成任务的流程

1. 接收任务 ↓ 2. 提出规划（粗粒度 plan） ↓ 3. 推理细化（逐步拆解） ↓ 4. 写计划文件（plan.md） ↓ 5. 执行：写代码、测试、调试 ↓ 6. 出错 → 修复 → 重试

5.5 工具加持

工具类型	作用
计算器	123×456 不再需要心算
代码检查器	检查低级错误
单元测试	验证实现是否符合预期
Debug 工具	定位问题

CoNtinue/Cline 等 coding agent 的工作方式：

理解任务
调用工具执行命令
检查结果
出错则修复

5.6 为什么 Cursor/AI Coding 工具火爆

人类程序员习以为常的工作方式（工作区、版本控制、测试），恰好给 AI 搭建了一个完美的舞台。

这种工作方式并非程序员专属：

扩展到学习场景：

lecture notes → 目录
作业完成情况 → README
错题本 → 记录错误
复习计划 → plan.md

实际应用：

问 AI：下一步应该做什么？
让 AI：根据我的薄弱点出模拟题
定时任务：每天早上爬取天气预报

六、人类智慧的核心：分解问题

6.1 Prompt Engineering 的本质

Prompt Engineering 本质上是attention engineering——你希望 AI 注意到什么。

6.2 分解问题 = 构建合适的抽象

为什么分解问题很重要？

如果直接让 AI 做一个大项目，它会给你一个平庸的平均解

但如果你能用独特的视角分解问题

可以直接得到产品级的成果
可以在设计空间里探索更好的方案

6.3 操作系统中的经典抽象

System Call Interface

用户应用（原神、Steam）→ 系统调用接口 → Linux 内核（千万行代码）

特点：

接口层非常小时
你只需要用的那部分更少
这是经典的抽象

Instruction Set Architecture

应用程序 → 指令集 → 硬件

RISC-V 就是这样的抽象

函数/模块边界

register_user() 被多处调用
↓
如果参数变了，所有调用都要改
↓
这就是系统设计的有趣之处

6.4 反常规设计案例

传统的课堂系统：

前端网页 + 后端服务 → 函数调用耦合
导出 lecture notes 需要额外处理

设计:
点击按钮 → 写文件到目录
前端只负责写文件，不管谁来读

接口变成：

一个目录存放日志
日志格式是约定的协议
任何遵循协议的程序都可以读取

好处：

前端和后端彻底解耦
可以并行让 AI 实现多个工具
不会污染其他系统

6.5 人类 vs AI

方面	人类	AI
规划方式	先做基础设施和抽象	直接开干，出了问题再修
日志处理	边打印边看，及时终止	打印满屏后才看（浪费上下文）
抽象能力	主动设计协议和边界	依赖指令
工具意识	主动写 test framework	需要明确告知