当前位置：首页 > news >正文

《Born》第2章：Born 的设计哲学与架构全景

news 2026/6/14 1:08:38

在写第一行代码之前，我们先回答一个问题：一个从零开始的深度学习框架，应该长什么样？

这个问题没有标准答案。PyTorch 选择了「Pythonic 的动态图」，TensorFlow 选择了「静态计算图 + XLA」，JAX 选择了「函数式变换」。Born 的选择是：Go 风格的生产优先架构。

核心设计哲学

1. 纯 Go，零 CGO

Born 的每一个算子、每一层反向传播、每一次 GPU 调度，都是纯 Go 代码。没有#cgo LDFLAGS，没有import "C"。

这意味着什么？

go build就是全部——不需要 CMake、不需要 conda、不需要 Docker
交叉编译 trivial：GOOS=linux GOARCH=arm64 go build
静态链接——部署时只需要一个二进制文件

2. 泛型张量：Tensor[T, B]

Born 的核心数据结构是一个泛型张量：

typeTensor[T DType,B Backend]struct{shape Shape dtype DType data[]T backend B}

T是数据类型（f32、f64、i32），B是后端（CPU、WebGPU）。编译期就能捕获f32张量和f64张量混用的错误。

3. 装饰器模式 Backend 抽象

typeBackendinterface{Add(a,b Tensor)TensorMatMul(a,b Tensor)TensorReLU(x Tensor)Tensor// ...}

CPU 后端和 WebGPU 后端实现同一接口。你的模型代码写一次，backend := cpu.New()或backend := webgpu.New()就能切换。

4. 延迟求值（Lazy Evaluation）

WebGPU 后端不立即执行每个算子，而是将操作加入命令队列，在需要读取结果时批量提交。这隐藏了 CPU↔GPU 的通信延迟。

架构分层

Born 的代码库分为五个层次：

┌─────────────────────────────────────┐ │ Layer 5: 应用层 (examples/, cmd/) │ MNIST, LLaMA 聊天机器人 ├─────────────────────────────────────┤ │ Layer 4: 模型层 (models/, tokenizer/)│ LLaMA, Mistral, GGUF 加载 ├─────────────────────────────────────┤ │ Layer 3: 神经网络 (nn/) │ Linear, Conv2D, Transformer ├─────────────────────────────────────┤ │ Layer 2: 张量引擎 (tensor/) │ 张量分配、算子调度、内存管理 ├─────────────────────────────────────┤ │ Layer 1: 后端实现 (backend/) │ CPU (AVX2 SIMD) / WebGPU (WGSL) └─────────────────────────────────────┘

每一层只依赖下一层，没有跨层调用。

关键架构决策（ADR）

Born 用 ADR（Architecture Decision Record）记录每一个关键设计决策：

ADR-001：选择纯 Go 而非 CGO — 为了单二进制部署
ADR-002：选择 WebGPU 而非 CUDA — 为了零依赖跨平台 GPU 加速
ADR-003：泛型张量Tensor[T, B]— 编译期类型安全
ADR-004：装饰器模式 Backend — 同一模型跑在不同硬件上
ADR-005：延迟求值 — 隐藏 GPU 通信延迟
ADR-006：梯度 Tape 自动微分 — 反向传播 = 正向算子组合

与 Burn（Rust）的对照

维度	Burn (Rust)	Born (Go)
语言	Rust	Go
后端抽象	装饰器模式	装饰器模式（借鉴 Burn）
GPU 后端	WGPU (Rust)	WebGPU (Go)
类型系统	泛型 + Trait	泛型 + Interface
并发模型	async/await	goroutine
部署形态	静态二进制	静态二进制
核心差异	科研+生产兼顾	生产优先