Token
Token是人工智能大模型处理文本的最小计量单位,中文标准译名为"词元",用于衡量模型输入输出量及计费。
Token 是大语言模型(LLM)理解与生成文本时的基础处理单元,其核心特征如下:
- 本质定义:Token 并非人类语言中的"字"或"词",而是模型内部将文本切分后的最小信息单元,可以是一个字符、一个完整单词、词的一部分甚至标点符号 。
- 技术作用:
- 信息转换:文本需先被切分为 Token,再转换为数字序列供神经网络计算,是连接人类语言与机器数字世界的桥梁 。
- 上下文限制:模型的上下文长度以 Token 为单位计量(如 128k Token),超出限制会导致模型"遗忘"早期内容 。
- 中文定名:2026 年起,"词元"成为 Token 的官方中文标准译名,标志着该术语从技术圈走向产业标准化,成为 AI 时代的基础计量单位。

LLM将经常一起出现的高频字词组合打包成一个个Token,存储在一个庞大的词汇表中,这样模型在处理文字时就不用逐字分析了。把文字拆成Token后,模型处理的数据量变小了
Token数越多,模型消耗的计算资源就越多
Tiktokenizer:输入一段话,它能告诉你有几个token

了解Token的概念后,就会明白看似强大的大模型,有时连简单的问题都处理不好,比如让它生成20字的文案。
Token 与字数的换算关系
Token 数量与字数无固定换算公式,受语言类型、模型分词策略影响较大:
- 中文文本估算:
- 比例范围:1 Token 约等于1-1.5 个汉字,1000 个汉字约对应 600-700 Token。
- 影响因素:标点、数字、英文缩写、代码等特殊内容会单独计入 Token,实际消耗可能高于纯文本估算 。
- 英文文本估算:
- 比例范围:1 Token 约等于0.75 个英文单词,1000 个英文单词约对应 1300 Token。
- 切分逻辑:长单词可能被拆分为多个 Token(如"unbelievable"拆为"un"+"bel"+"ievable")。
- 模型差异:不同模型的分词算法(如 BPE、BBPE)不同,同样内容在不同模型中的 Token 数可能相差30%-50%。
Token 计费模式与成本优化
当前主流 AI 服务按 Token 数量计费,输入与输出 Token 分别计价:
- 计费结构:
- 输入 Token:用户发送的提示词、上下文历史等。
- 输出 Token:模型生成的回复内容,通常单价高于输入 Token。
- 价格参考(2026 年 3 月数据):
- 国际模型:GPT 系列输入约 2.5 美元/百万 Token,输出约 15 美元/百万 Token。
- 国内模型:DeepSeek、通义千问等多在几厘到几分钱每 1000 Token,成本显著低于国际模型 。
- 价格趋势:推理成本持续下降,2026 年 1 月高性能模型推理 100 万 Token 成本已降至约 0.1 美元 。
- 节省技巧:
- 精简表达:去除"你好""感谢"等礼貌用语,可减少 10-15% 的 Token 消耗 。
- 语言选择:英文提问通常比中文更省 Token(因英文单词 Token 密度更高)。
- 缓存复用:开启 Prompt 缓存功能,重复上下文只计费一次 。
大语言模型(LLM)
