当前位置：首页 > news >正文

【AI面试临阵磨枪】什么是 Tokenization？子词分词（Subword）的优缺点？

news 2026/6/18 9:55:55

一、面试题目

请详细解释什么是大模型中的Tokenization（分词）？目前主流的子词分词（Subword Tokenization）技术（如 BPE, WordPiece）解决了什么问题？它的优缺点分别是什么？

二、知识储备

1. 核心背景：什么是 Tokenization？

Tokenization 是将自然语言文本转换为模型可处理的离散数字序列的过程。

直观理解：模型不认识“苹果”或“Apple”，它只认识数字。Tokenization 就是把句子切成一块块（Tokens），并查表映射为索引（Index）。
切分粒度：从粗到细分为：词（Word）、子词（Subword）、字符（Character）。

2. 子词分词（Subword Tokenization）详解

目前主流模型（如 GPT、BERT）均采用子词分词（如 BPE 算法）。它通过将高频词保留为完整词、将低频词拆分为多个常用片段来平衡性能。

子词分词解决的核心痛点：

词表爆炸：如果按词（Word）分词，词表会大到显存塞不下（英语有百万级词汇）。
OOV（Out of Vocabulary）问题：如果按词分词，模型遇到没见过的生僻词（如新造词）就直接“抓瞎”报错。
语义损失：如果按字符（Character）分词，粒度太细，模型很难学习到字母组合背后的完整语义。

3. 子词分词的优缺点对比

维度	优点	缺点
词表大小	适中。通常在 3w-10w 之间，兼顾性能与效率。	需要在分词速度与复杂度之间做权衡。
处理新词	极强。遇到生僻词会拆解成熟悉的子词（如`unhappy`->`un`+`happy`）。	某些拆分可能导致原始词根语义被切割（如`undesirable`拆得太碎）。
信息密度	高效。高频词占一个 Token，低频词占多个，压缩率高。	对非英语不友好。同样的句子，中文可能比英文消耗更多 Token（分词粒度差异）。
字符还原	无损。可以通过子词序列 100% 还原原始字符串。	数字、公式或生僻字符容易被拆分成极其零碎的 Token。

三、代码实现

1. Python 实现：模拟 BPE 子词切分逻辑

在 Python 中，我们常用tiktoken或transformers库来观察子词切分。

import tiktoken # 1. 加载 GPT-4 的分词器 enc = tiktoken.get_encoding("cl100k_base") # 2. 观察子词切分：生僻词会被拆解 text = "Tokenization is amazing!" tokens = enc.encode(text) # 3. 打印结果：你会发现 Token ID 和切分后的片段 print(f"Token IDs: {tokens}") # 解码查看具体的子词切分 print(f"Subwords: {[enc.decode([t]) for t in tokens]}")

2. Node.js 实现：统计 Token 消耗（Web 业务常用）

在 Node.js 业务中，我们通常需要通过分词来计算成本（Token 计费）。

const { encoding_for_model } = require("tiktoken"); function countTokens(text, model = "gpt-4") { const enc = encoding_for_model(model); const tokens = enc.encode(text); // 释放内存 enc.free(); return tokens.length; } // 示例：中文的分词密度通常比英文大 console.log(countTokens("你好，AI时代！"));

四、破局之道

在回答完流程后，通过这段话展现你对底层语言建模的思考：

回答 Tokenization 问题，核心要理解它是在“寻找语言表达的最优信息熵”。

你可以告诉面试官：

词分词（Word）输在了灵活性，解决不了新词问题；
字符分词（Char）输在了效率，序列太长导致模型“计算疲劳”；
子词分词（Subword）则是通过统计学手段，在词表规模与语义完整性之间找到了工程上的平衡点。

在实际落地中，我非常关注Token 效率。比如在中英混合场景下，我会关注分词器对中文的压缩比，因为这直接决定了上下文窗口的使用率和 Token 成本。一个优秀的开发者不应只把 Token 看作数字，而应理解它是模型与现实世界沟通的“翻译官”，分词算法的优劣直接决定了模型理解语义的颗粒度和推理的性价比。

查看全文

http://www.jsqmd.com/news/668158/