什么是 Token?
什么是 Token?
在计算机科学和自然语言处理(NLP)领域,Token(令牌/词元)是文本处理的基本单位。它通常指通过特定规则(如空格、标点)将一段连续文本分割后得到的最小语义片段。
例如,句子 “I love AI.” 可以被切分为三个 Token:["I", "love", "AI"]。在大语言模型(如 GPT)中,Token 化是理解与生成文本的第一步,模型并不直接认识单词,而是处理这些 Token 序列。
Token 的长度不固定,可能是一个单词、一个子词(如 “unhappiness” 被拆为 “un”, “happiness”),甚至是一个字符。中文等无空格语言的分词也是 Token 化的一种形式。理解 Token 是理解现代 AI 如何“阅读”和“写作”的关键。
