当前位置: 首页 > news >正文

4. Token(词元),5分钟彻底搞懂

Token(词元)是 AI 处理信息的最小单位。它既不是字,也不是词,而是由模型自行切分出来的 “文字碎片”。通常来说,1 个 Token 约等于 4 个字母,或 1~2 个汉字。

如果你习惯看视频,就看《4. Token(词元),看会动画敲下代码,就彻底搞懂了》,喜欢看文章就接着往下看。

image

 Token的优化过程如下

image

 大模型单次调用的总消耗 Token 由两部分组成:总消耗 Token = 输入 Token + 输出 Token。其中,输入 Token 的构成更为细致,包括当前用户提问 Token、系统提示词 Token、历史对话上下文 Token,以及消息格式开销 Token。

image

需要注意的是,Token 的实际切分由各模型厂商自研的 Tokenizer(分词器)独立完成,因此相同文本在不同模型上会产生不同的 Token 数量与序列。以上提及的换算比例等数据,均为行业通用估算参考。

image

 下面通过代码实战,带你彻底搞懂。首先打开命令行窗口,使用 pip 命令安装 transformers和PyTorch 开发库。

pip install transformers torch

安装完成后,我们便可以借助 transformers 库加载主流的分词器,直观地观察文本到 Token 的切分过程。以下是具体代码示例:

# 首先从 transformers 库中导入 AutoTokenizer 类,它能自动适配不同大模型的分词规则
from transformers import AutoTokenizer# 接着从预训练权重加载 Qwen2 模型的分词器
# 注意: "Qwen2_tokenizer"是下载到本地自命名的分词器 ,下载地址见文章最后链接
tokenizer = AutoTokenizer.from_pretrained("Qwen2_tokenizer")# 定义待处理的输入文本
text = "你好,我是cool。"# ---------------------------------------------------------
# 第1步:分词 (Tokenization)
# ---------------------------------------------------------
# 使用 BPE算法将文本切分为“子词单元”
# 规则是:常见词为1个Token,复杂词会拆开,标点也算Token。
bpe_codes = tokenizer.tokenize(text)
# 先打印出来看一下结果
print(bpe_codes)# 为了让分词结果可读,需要做一下处理
decoded_result = []
for bpe_code in bpe_codes:# 先将子词转换为模型词汇表中的IDid = tokenizer.convert_tokens_to_ids(bpe_code)
# 再将单个ID解码回文本并将结果存起来
decoded = tokenizer.decode([id])decoded_result.append(decoded)# 输出最终的分词列表
print("分词结果:", decoded_result)# ---------------------------------------------------------
# 第2步:向量化 (Numericalization)
# ---------------------------------------------------------
# 将字符串形式的 Token 列表转换为模型能处理的整数 ID 列表
# 这是大模型的“输入语言”(模型只认识数字,不认识文字)
token_ids = tokenizer.convert_tokens_to_ids(bpe_codes)
print("向量ID:", token_ids)# ---------------------------------------------------------
# 第3步:统计 Token 数量
# ---------------------------------------------------------
# 计算 Token 总数
count = len(token_ids)
print("Token总数:", count)# 将 ID 列表完整解码回原始文本
print("解码结果:", tokenizer.decode(token_ids))

Qwen2_tokenizer分词器下载:分词器

http://www.jsqmd.com/news/724081/

相关文章:

  • CCAA外审员考试科目有哪些 - 众智商学院官方
  • 2026年地埋式一体化泵站权威推荐榜单:一体化污水提升泵站设备/一体化地埋式泵站/一体化泵站价格源头厂家精选 - 泵站报价15613348888
  • 告别传感器依赖:用CMT实现自动驾驶3D检测的‘单目’与‘纯激光’自由切换
  • GESP2025年6月认证C++五级( 第三部分编程题(1、奖品兑换))
  • 基于Vue 3与Spring Boot的腾讯云CVM管理平台设计与实现
  • 从0到1掌握AI产品开发:5阶段进阶指南,打造爆款AI应用!
  • 众智商学院SCMP培训值得报考吗?2026供应链认证深度解析 - 众智商学院课程中心
  • AzurLaneAutoScript:碧蓝航线全自动脚本,让你的游戏时间更高效
  • 银河麒麟高级服务器操作系统V11-修改输入法
  • 抖音直播数据采集实战:从网页端API到实时弹幕分析
  • Spring Boot 专家级面试题库
  • 2026年3月木质素磺酸钙品牌推荐分析,黄糊精/型煤球团粘合剂/偏高岭土/陶土,木质素磺酸钙实力厂家推荐分析 - 品牌推荐师
  • 国内顶尖专业包装设计公司权威推荐,大品牌高端升级首选机构 - 设计调研者
  • 你的数据正在喂养 AI:从 Atlassian 公告,看科技平台的数据训练默认政策
  • 在 HTML 文件的 <script> 标签内或外部 JS 文件中设置断点。
  • 专业经验丰富的企业VI设计公司推荐,企业品牌形象升级靠谱合作首选 - 设计调研者
  • CUDA性能优化实战:从内存访问到并行计算的全面指南
  • 基于MCP协议构建YouTube数据连接器,赋能AI助手内容分析
  • MoS路由器架构设计与多模态交互优化解析
  • Python发票自动化处理实战:Invoice Forge解析、生成与集成指南
  • XHS-Downloader:你的小红书内容管理专家,轻松实现批量采集与智能归档
  • 5分钟搞定Switch手柄PC适配:BetterJoy终极指南
  • 研究型AI vs 工程型AI:两种截然不同的职业发展路径
  • Joy-Con Toolkit终极指南:免费开源工具彻底解决摇杆漂移问题
  • 广州专业包装设计公司靠谱推荐,本地品牌做包装设计合作优选 - 设计调研者
  • HoRain云--什么是域名?
  • MTKClient Live DVD V6刷机工具:系统优化与实战避坑指南
  • 2026性价比最高包装设计公司对比与推荐,中小品牌做包装不花冤枉钱! - 设计调研者
  • AI产品经理面试必问!3个Offer学长真实简历揭秘转行核心能力,小白也能轻松拿下Offer!
  • 全程完整复盘:Claude Code MCP 搭建所有错误点 + 出错原因 + 通用易错点(保姆级拆解)