当前位置: 首页 > news >正文

AI时代的信息平权

一、大语言模型为什么"大"是必要的

1.1 薛定谔之问

薛定谔在《什么是生命?》一书中提出了一个深刻的问题:为什么我们这么大,原子这么小?

  • 在经典原子理论中,每个原子携带的信息量非常少
  • 一个极小的原子系统不应该具有生命这样复杂的行为
  • 大是应对整个世界宏观复杂性的必要条件

类比到大语言模型:面对复杂的世界任务,模型必须足够大才能捕捉和表达这种复杂性。


二、为什么选择了语言

2.1 语言是人类几千年的世界模型

大语言模型之前,深度学习成功的案例是 AlphaGo(2016年)和 AlexNet 的图像分类。但质变发生在大语言模型领域。

语言是人类沉淀了几千年的世界模型,是可以在人和人之间对齐物理世界的工具

2.2 语言的抽象性

用"美女"这个例子说明语言的力量:

"我今天来上课的路上,看到一个美女"

这句话背后隐含的信息:

  • 几十年的生活经历
  • 对"美"的个人理解
  • 每个人有不同的理解,但有结构上的相似性

语言的本质

  • 它是一个抽象,丢失了很多信息
  • 但保留了人类可以传承的结构性知识
  • 人类共享物理世界、相同的学习环境,使得语言对齐成为可能

大语言模型之所以有效,是因为语言本身就编码了人类对世界的理解。如果想要与外星人对齐,可能需要其他方法。


三、大语言模型的工作原理

3.1 两个训练阶段

GPT = Generative Pretrained Transformer

  1. 预训练阶段(Pretraining

    • 使用海量文本数据训练
    • 学习"说正常的人类语言"
  2. 后训练阶段(Post-training

    • 微调成对话助手
    • 使用特殊符号标记人机对话格式

3.2 Next Token Prediction

大语言模型本质上是一个**概率分布**:

基于过去所有看到的文字,计算下一个token的概率:

  • “好的” → 0.01
  • “大的” → 0.00001
  • Unicode字符(😊😂)→ 各自有概率
  • 输出时选择概率最高的继续

3.3 为什么它能"理解"代码

写算法题写多了有的可以做到在纸上写完整的三页 A4 代码,看一遍修改小错,然后直接输入计算机编译运行且正确。

原理

  1. 在某个领域(如编程)经过过度训练后
  2. 可以在短期记忆中容纳大量解题步骤
  3. 写代码变成了"机器翻译"——从伪代码翻译成实际代码

这与BERT系列模型在机器翻译上的表现是类似的。当人类能做到这件事,模型没有道理做不到

3.4 Self-Attention

大语言模型工作时:

  • 根据上下文(context)注意到重要的词
  • 预测下一个词时,后面的词其实已经"想得差不多了"
  • 这与人类解题时的"注意力"非常相似

人类解题:注意到某个关键条件,题就解出来了
模型预测:注意到相关上下文,下一个token就确定了


四、Scaling Law

4.1 The Bitter Lesson

作者:Richard Sutton(强化学习领域图灵奖得主)

从苦涩的教训中学到的是**通用方法的巨大力量**

4.2 历史案例:算力即智能

案例一:1980年代的存储技术

发现:网页增长速度 < 存储系统容量增长速度
→ 结论:终有一天,一台计算机可以存储世界上所有网页
→ Google 是必然的
→ 量变引起质变

案例二:1997年深蓝击败卡斯帕罗夫
  • 象棋搜索每增加一层深度,分数稳定提升
  • 人类智能的本质是算力
  • 他们选择的优化路径:造加速器
    • 超级计算机 + 专用下棋电路
    • 为什么?因为算法复杂度是指数级的,加速硬件更有效
案例三:2016年 AlphaGo
  • 同样的规律再次发生
  • 用类似图像识别的卷积神经网络处理棋盘
  • 蒙特卡罗搜索替代 Alpha-Beta 剪枝
案例四:大语言模型
  • GPT-3 训练 175B 参数的模型时,没人知道能否成功
  • 只是相信小规模实验可以外推
  • 人类在"试着试着"中造出了智能机器

4.3 Scaling Law 论文的核心

右图:每一条曲线 = 固定算力(如 6×10^18 到 3×10^19)
横轴:数据集大小
纵轴:Training Loss(智能程度)

结论:

  • 算力越多 → 可用更多数据 → 更大参数 → 更好模型
  • “人类的智能不过是算力”

五、Agentic AI 时代

5.1 给 AI 一个"草稿纸"

如果你把所有东西都放在脑子里,你就是一个**有限状态机。如果你有了 paper 和 pencil,你就是一个图灵机**。

类比到 AI:

  • workspace= AI 的草稿纸
  • 目录= 工作区
  • 目录里的 README、docs、源代码、测试文件 =记忆组织

5.2 Git:给 AI 量身定制的版本控制

Git 的本质:

  • 管理目录的快照(snapshots)
  • 类似于 Persistent Data Structure
  • 任意修改后都可以退回过去的快照

Git 给了 AI 一个"平行宇宙"

  • 可以Cherry-pick任意版本的内容
  • 可以开多条世界线并行尝试
  • 解决了"死亡循环"问题

5.3 死亡循环(Death Loop)

大模型启动时的状态:

  • 只有训练好的参数
  • 可能有一个 system prompt
  • 没有记忆(没有 short-term memory)

游戏比喻:
每天从同一个地方醒来,丢掉所有记忆
重新探索世界,可能被打死,第二天重来

AI 的情况:
每次打开项目,看起来都是全新的
它根据当前任务再改,再改,再改…

解决方案:用文件系统记录进度(plan.md、进度标记等)

5.4 AI 完成任务的流程

1. 接收任务 ↓ 2. 提出规划(粗粒度 plan) ↓ 3. 推理细化(逐步拆解) ↓ 4. 写计划文件(plan.md) ↓ 5. 执行:写代码、测试、调试 ↓ 6. 出错 → 修复 → 重试

5.5 工具加持

工具类型作用
计算器123×456 不再需要心算
代码检查器检查低级错误
单元测试验证实现是否符合预期
Debug 工具定位问题

CoNtinue/Cline 等 coding agent 的工作方式:

  1. 理解任务
  2. 调用工具执行命令
  3. 检查结果
  4. 出错则修复

5.6 为什么 Cursor/AI Coding 工具火爆

人类程序员习以为常的工作方式(工作区、版本控制、测试),恰好给 AI 搭建了一个完美的舞台。

这种工作方式并非程序员专属

扩展到学习场景:

  • lecture notes → 目录
  • 作业完成情况 → README
  • 错题本 → 记录错误
  • 复习计划 → plan.md

实际应用:

  • 问 AI:下一步应该做什么?
  • 让 AI:根据我的薄弱点出模拟题
  • 定时任务:每天早上爬取天气预报

六、人类智慧的核心:分解问题

6.1 Prompt Engineering 的本质

Prompt Engineering 本质上是attention engineering——你希望 AI 注意到什么。

6.2 分解问题 = 构建合适的抽象

为什么分解问题很重要?

如果直接让 AI 做一个大项目,它会给你一个平庸的平均解

但如果你能用独特的视角分解问题

  • 可以直接得到产品级的成果
  • 可以在设计空间里探索更好的方案

6.3 操作系统中的经典抽象

System Call Interface

用户应用(原神、Steam)→ 系统调用接口 → Linux 内核(千万行代码)

特点:

  • 接口层非常小时
  • 你只需要用的那部分更少
  • 这是经典的抽象
Instruction Set Architecture

应用程序 → 指令集 → 硬件

RISC-V 就是这样的抽象

函数/模块边界

register_user() 被多处调用

如果参数变了,所有调用都要改

这就是系统设计的有趣之处

6.4 反常规设计案例

传统的课堂系统:

  • 前端网页 + 后端服务 → 函数调用耦合
  • 导出 lecture notes 需要额外处理

设计:
点击按钮 → 写文件到目录
前端只负责写文件,不管谁来读

接口变成:

  • 一个目录存放日志
  • 日志格式是约定的协议
  • 任何遵循协议的程序都可以读取

好处

  • 前端和后端彻底解耦
  • 可以并行让 AI 实现多个工具
  • 不会污染其他系统

6.5 人类 vs AI

方面人类AI
规划方式先做基础设施和抽象直接开干,出了问题再修
日志处理边打印边看,及时终止打印满屏后才看(浪费上下文)
抽象能力主动设计协议和边界依赖指令
工具意识主动写 test framework需要明确告知
  • LLM=Next Token Prediction+Self-Attention
  • Scaling Law=算力即智能,量变引起质变
  • Agentic AI = workspace + tool + memory management
  • 人类的核心竞争力分解问题的能力 +设计抽象的能力
  • 做 sys 核心的点在于设计 Protocol 和系统边界,提前想好设计可以帮助确定后续系统不会失控

提示词 :

  1. Think step by step
  2. Keep design tiny and explicit
  3. Structure help around short plan
  4. Next code change, minimum test
  5. Prefer debugging mindset

避免:

  • 不要一下子写完所有代码
  • 不要跳过抽象层

七、用 AI 实现 RISC-V 操作系统

用AI实现一个最小的 RISC-V 操作系统内核record

分解任务

GPT 5.5 给出的分解:

  1. 创建必要的文件结构
  2. 初始化 QEMU 环境
  3. 实现最小内核入口
  4. 创建多个内核线程
  5. 实现线程切换
  6. 展示调度

AI 的工作过程

  1. 创建目录结构:source/,include/
  2. 写 linker script 和 Makefile
  3. 实现头文件(kernel.h 等)
  4. 写线程管理和上下文切换代码
  5. 写汇编代码处理上下文切换
  6. Make 编译
  7. 遇到错误(Casting pointer from integer)→ 修复
  8. success

人类智慧的体现

  1. 给 AI 分解任务
  2. 观察 AI 的执行过程
  3. 当日志太长时主动终止
  4. 如果 AI 不主动写 test framework,则显示告知需要

附录

"Content-as-Code"时代:内容即代码,我们甚至没有完全准备好。

“人类的智能不过是算力”:从象棋到围棋再到大语言模型,这条规律反复验证。

量变引起质变的条件:只有找到那个能引起质变的事情,量变才有意义。否则是在原地踏步。

古法编程的时代已经过去了:现在 AI 时代,智能变得很便宜。

你需要的是驾驭 AI的能力:不是学如何超过 AI,而是学会如何用好 AI,找到一条能走的路

"无限恐怖"时代的到来:当你把AI 和scalable 的基础设施结合起来,可能性是无限的。


信息平权的时代: 后续自学能力强的同学真的是起飞的时代

http://www.jsqmd.com/news/996387/

相关文章:

  • 告别棋盘效应!用PGGAN(ProGAN)从4x4到1024x4高清人脸生成保姆级教程(附PyTorch代码)
  • 从手机拍照到AI算力:混合键合(Hybrid Bonding)技术是如何悄悄改变我们生活的?
  • Kafka 入门指南 —— 从消息队列到核心概念
  • 全志H6平台Linux网络驱动适配完全手册:从硬件指纹到系统交响乐
  • PCB Layout实战避坑指南:从原理到布线的关键检查点
  • 终极免费解锁WeMod Pro会员:Wand-Enhancer完整使用指南
  • 产品经理开需求评审会怎么转写?2026年实测5款语音生成器,帮你快速整理会议纪要
  • 告别边缘模糊:用DLNR的‘解耦LSTM’与‘视差归一化’策略,提升你的双目视觉应用效果
  • 深入理解F28335 XINTF的‘写后读’保护:为什么你的外部设备数据会出错?
  • 6秒音频分离革命:htdemucs_6s模型让音乐分解变得简单高效
  • 工业机房供电隐患解析:市电波动与瞬断对精密设备的损伤解决方案
  • 别再只盯着光刻机了!聊聊台积电、英特尔都在用的混合键合(Hybrid Bonding)工艺到底难在哪
  • 基于微信小程序的高校校园社交平台的设计与实现
  • WandEnhancer终极指南:3步免费解锁WeMod高级功能
  • 【JAVA毕设源码分享】基于springboot博物馆综合服务管理系统的设计与实现(程序+文档+代码讲解+一条龙定制)
  • 制造业部门主管选Agent,不是比功能多少,而是比流程适配度
  • 基于SpringBoot+Vue的高校专业实习管理系统管理系统设计与实现【Java+MySQL+MyBatis完整源码】
  • 从‘旋转椅子’到3D视觉:一文搞懂神经网络中的等变性(Equivariance)为什么这么火
  • Flink概述:是什么、特点与应用场景
  • 1688商品图片批量下载技术解析:SKU图自动分类与登录态处理
  • 2026年AI安全与治理:从幻觉到系统性欺骗的攻防之战
  • 别再烧芯片了!手把手教你用AMS1117-3.3计算LDO最大安全电流(附SOT-89/SOT-223/TO-252封装对比)
  • 手把手教你配置F28335的XINTF时序:从SRAM读写实战到DMA搬运避坑
  • 从日志到瓶颈:深入剖析 jbd2 如何成为 ext4 文件系统的 IO 隐形杀手
  • MAX6675实战指南:从冷端补偿到SPI通信的温度采集方案
  • 告别‘鸡同鸭讲’:用SECS/GEM统一你的半导体设备通信(含E30/E37标准解析)
  • 从“直通”到稳定:一个负压驱动电路是如何拯救我的SiC MOSFET半桥的
  • 深度解析:国内使用 Claude Code/OpenCode/Codex/Gemini CLI 为什么首选 Token173 中转?底层逻辑 + 接入核心思路全解
  • 2026年深圳附近维修一体机口碑大揭秘,谁能进入TOP排名?
  • STM32CubeMX实战:RTC入侵检测与时间戳在数据安全存储中的应用