当前位置: 首页 > news >正文

20260414_分词器

token是LLM的基本输入单位,由分词器根据统计规则把文本拆成的子词、字符或字节,再映射成数字ID。


可拆分成四步:

  1. 准备语料
  2. 初始化基础单元(可省略)
  3. 统计并迭代合并
  4. 输出产物并用于编码、解码

训练分词器

准备语料

  1. 应收集覆盖目标应用场景的多样化文本,以确保泛化能力
  2. 必须对原始文本进行清洗与标准化,去除或屏蔽无关元数据、修正或删除乱码与非法字符、统一编码味UTF-8,对重复或近重复样本进行去重以减少训练偏移
  3. 敏感信息需要脱敏处理与合规检查
  4. 混合语料场景中需要评估占比,决定是否需要对低资源语言进行过采样或定向保留,避免词表被高频语言主导。
  5. 保留一小部分未参与训练的验证语料

初始化基础单元

  1. 常见策略包括基于空格和标点的切分、按Unicode类别划分,或直接采用字节级切分。但不是所有的分词器都需要显式地进行预分词
  2. 对于大多数用空格做分隔的语言可以用正则表达式按单词边界和标点进行初步切割,对中日等语言可以用逐字符或基于字的初始但原来保证覆盖性
  3. 预分词生成的基础单元序列将作为后续统计合并的输入,务必保存该序列与对应位置信息以便在训练过程反复高效更新。

统计并迭代合并

分词算法要解决的问题::“你好”要拆成“你”和“好”,还是合并成一个词“你好”。

粒度太细(拆得太碎)
“今天天气很好” → [“今”, “天”, “天”, “气”, “很”, “好”]

  • ✅ 优点:能处理任何词,不会有未知词
  • ❌ 缺点:序列太长,模型要学很多token之间的组合关系

粒度太粗(合并得太大)
“今天天气很好” → [“今天天气很好”](一个词)

  • ✅ 优点:序列很短
  • ❌ 缺点:遇到"今天天气不好"就变成新词,词表爆炸

理想的粒度(BPE等算法追求的)
“今天天气很好” → [“今天”, “天气”, “很”, “好”]

  • ✅ 优点:
    • “今天”、"天气"是常见词,可以复用
    • “很”、"好"是基础字,可以灵活组合
    • 序列长度适中
算法选择标准example
BPE拼最常出现的“机器学习"中"机”、“器"经常一起出现,先拼成"机器”
WordPiece看看拼了有没有收益拼了"机器"后,让"机器学习"出现的概率是否显著提升
UnigramLM淘汰最差的100个候选拼法中,淘汰掉"老出现的单个字"
SentencePiecer空格也是字符不管中文英文,都按规则处理,空格也是一种符号
  • vocab文件:记录所有token及其对应的id,是编码器和解码器的核心索引。
  • merges文件:按顺序记录所有子词合并规则或概率模型。二者共同决定tokenizer的编码与解码逻辑,并确保编码的可逆。
  • 如果后续需要扩表如加入新领域术语、专业词或品牌名等,建议优先采用这些方式而非完全重训tokenizer:增量训练加入新的merges项清理极低频token
http://www.jsqmd.com/news/644065/

相关文章:

  • ROS2 Humble实战:从零部署Livox Mid-360激光雷达并实现Rviz可视化
  • App加固后变卡闪退?实测数据告诉你如何避坑选对服务商
  • 告别手动刷新!用Python+Watchdog为你的Emby Server打造一个自动影片推送机器人(附Docker一键部署)
  • 2026年真实天康/安徽天康/天康集团企业专业推荐 - 品牌宣传支持者
  • 不止于文件回放:用simple-rtsp-server在Ubuntu上打造一个支持自定义音视频源的RTSP服务
  • 电子发票二维码背后的秘密:从代码到金额的全面解读
  • 2026年知名的人工泳池公共场所检测/公共场所检测服务型公司推荐 - 行业平台推荐
  • 思源宋体:解放中文排版设计的五个秘密武器
  • 2026年雅思学习app推荐:口语写作听力全覆盖,提分利器大揭秘 - 品牌2025
  • 大麦网自动抢票完整指南:Python脚本实现智能秒杀
  • 基于深度学习的车辆区域计数 区域入侵检测 区域违停占用识别 YOLOv11实时roi区域视频人车流量统计项目
  • 瑞祥商联卡线上回收平台靠谱吗?真实经验分享! - 团团收购物卡回收
  • 供应商管理:风险评估与绩效评价的系统
  • 2026零基础学雅思App推荐:精选5款高效提分神器,助你轻松备考 - 品牌2025
  • 如何5分钟配置TMSpeech:Windows离线语音识别完整教程
  • 通达信副图指标实战:如何用源码精准捕捉短线底部信号(附完整配置步骤)
  • md格式测试
  • 总泵缸体机械加工工艺及钻M12×1.25-5H孔工装夹具设计(论文+CAD图纸+工序卡+工艺过程卡+外文翻译)
  • 2026年4月意大利面源头工厂批发推荐:五家口碑产品评测对比领先餐饮连锁供货稳定痛点 - 速递信息
  • 存量博弈时代,赢在“感知激活”- 2025年肯耐珂萨组织能力调研白皮书预告(一)综合篇节选
  • 大数据开发学习Day13
  • 2026年比较好的生活饮用水在线检测/空气微生物在线检测/广州空气微生物在线检测综合评价公司 - 品牌宣传支持者
  • 退出三星手机 SS RDX 模式
  • 揭秘Audiveris:如何将乐谱图像转化为智能音乐数据
  • 并联型有源电力滤波器APF的Simulink仿真(附带模型与12页说明文件)
  • 如何在 Linux 系统安装 Nginx?附可视化安装与管理教程
  • 写给五年后2031年的自己
  • 2026年口碑好的养殖场除臭设备/养殖除臭机/养猪场除臭机厂家推荐及采购指南 - 行业平台推荐
  • 集装箱岗亭实力厂家哪家好,特色定制亮点解读 - myqiye
  • 别再手动部署Harbor了!用Helm在K8s里一键搞定高可用镜像仓库(附NFS存储配置避坑)