当前位置: 首页 > news >正文

读了 GPT-4 分词器源码才明白:为什么 tiktoken 宁可丢掉合并树,也要采用“只读字典”的扁平设计?

tiktoken 的源码里藏着一个让人困惑的事实:当你调用tiktoken.get_encoding("cl100k_base")拿到 GPT-4 的分词器时,你拿到的不是一张合并规则表,而是一个{bytes: int}的字典——每个 key 是一段字节序列,每个 value 是一个整数 rank。没有任何地方告诉你"字节序列 A 和字节序列 B 合并成了字节序列 C"。

打开 minbpe 的gpt4.py,第 29 行有一个函数叫recover_merges()——函数名本身就透着一股不寻常的味道:为什么需要"恢复"合并规则?按理说,一个训练好的 BPE 分词器应该直接存储它的合并规则表才对,就像 minbpe 自己的BasicTokenizer.save()存的那样。但 tiktoken 偏偏不这么做。它只存了合并的结果(parent token 的字节和 rank),却丢掉了合并的过程(哪两个 children 合并成了这个 parent)。

这就像一个编译器只给你.o目标文件,不给你.cpp源文件——你能从目标文件里反推出源文件吗?在一般情况下不能,但在 BPE 合并树这个特定问题上,可以。而gpt4.py的前 46 行代码,就是这个逆向工程的完整实现。

更有意思的是,这段逆向工程代码还揭露了 GPT-4 分词器的一个怪癖——它对最基础的 256 个字节 token 做了一次排列

http://www.jsqmd.com/news/899964/

相关文章:

  • 别再纠结用哪个了!SPSS/GraphPad/R里正态检验方法到底怎么选?附样本量建议
  • 从普刊到 SCI 全覆盖:okbiye 期刊论文 AI 写作功能实测与全流程解析
  • 别再乱接ESP32的GPIO0和EN引脚了!详解Strapping管脚如何决定芯片的‘人生’(Boot Mode)
  • MOOS-ivp实战:手把手教你构建首个MOOSApp并实现数据发布
  • Mac终极NTFS读写解决方案:免费开源工具完全指南
  • 项目介绍 MATLAB实现基于LSTM-DRL-CNN 长短期记忆网络(LSTM)结合深度强化学习(DRL)与卷积神经网络(CNN)进行无人机三维路径规划(含模型描述及部分示例代码)专栏近期有大量优惠
  • 从Market1501到实战:手把手教你用FastReID复现SOTA行人重识别模型
  • 043、PCB布线DRC检查与规则设置
  • 2025-2026年北京京云(经济开发区)律师事务所电话查询:委托前请核实资质与收费标准 - 品牌推荐
  • 从开题到定稿零障碍!用 okbiye 搞定毕业论文全流程
  • 当WGCNA遇上单细胞:利用Seurat+WGCNA挖掘细胞亚群的关键共表达模块与Hub基因
  • 主动RIS如何突破无蜂窝MIMO性能瓶颈:对抗信道老化与导频污染
  • MacBook上五笔输入法怎么选?从清歌到Rime,一个程序员折腾三年的真实体验
  • AI助手原生集成:从设计到工程的产品级实践
  • AI 仿生毛绒宠物 Walulu 完成数千万元融资;网易有道开源 Confucius4-TTS:零样本生成无口音跨语种语音丨日报
  • 解决xrdp远程Ubuntu黑屏/花屏:从桌面环境选择到关键配置详解
  • 从理论到实践:深入解析AUC的评估艺术与陷阱
  • 深度解析:agent-skills—— 谷歌工程基因的 AI 智能体数字化
  • 从搜索引擎到推荐系统:TF-IDF算法在Python中的实战场景全解析
  • 通过 curl 命令快速测试 Taotoken 提供的各种大模型响应效果
  • Taotoken Token Plan套餐在实际项目中的成本节省效果观察
  • 044、PCB覆铜与散热设计
  • FastAPI事件处理进阶:用Pydantic为CloudEvents数据穿上‘类型安全’的盔甲
  • 2026年5月贵州品质游旅行社推荐:TOP5口碑评测小众路线探秘市场份额专业选择指南 - 品牌推荐
  • 大模型幻觉终结战:Best-of-N采样与共识机制实战解析
  • GPU编程能效优化:从数据传递到源码级能耗感知实践
  • 魔兽争霸III的现代救星:WarcraftHelper终极配置指南
  • 利用Taotoken模型广场为不同AI任务选择性价比最优的模型
  • 不只是小乌龟:用Gazebo和UUV Simulator打造你的第一个水下机器人仿真项目
  • 13805黄大年茶思屋第138期(基础软件领域第三期)第5题:多内核混部场景下的快速内存弹性伸缩技术