当前位置: 首页 > news >正文

字节面试官:Token到底是什么?有哪些分词算法?一篇文章讲清!

一、Token到底是什么?

Token最近被官方翻译为词元,对于大模型来说,因为它只能处理数字,所以要找到一种方式把原始输入的文本转换为数字,这个就是分词器(tokenizer)所做的任务。分词器会按照分词算法把输入文本切分为多个token,然后用一个数字ID来表示token,后续大模型推理过程中都是使用这个数字ID来进行计算。

二、如何切分Token?分词算法详细解析

分词器使用的分词算法有三大类,分别是词级分词(Word-based)、字符级分词(Character-based)、子词级分词(Subword),现在大模型常用的是基于子词的分词算法,下面将详细介绍这些算法原理。

1、基于单词(Word-based)的分词算法

基于单词的分词算法非常容易理解,就是把原始文本拆分为单词,然后为每个单词找一个数字(ID)进行表示,例如输入“I love LLM”,会被拆分为[‘I’, ‘love’, ‘LLM’]。

优点:语义比较完整,容易理解

缺点:1、对于不在词汇表中的单词(例如新词,专业词汇,缩写等),没有办法进行表示,会用一个未知token进行标记,但是会损失这个单词的语义信息,这就是Out Of Vocabulary(超出词汇表)问题;2、这个词汇表可能会很大,例如英语中有超过50万个单词,如果构建每个单词到数字ID的映射,那就需要跟踪这么多数量的token。

2、基于字符(Character-based)的分词算法

这个算法就是把文本拆分为字符,例如输入"text",会被切分为[‘t’, ‘e’, ‘x’, ‘t’]。

优点:词汇量比较小,以及未知的token会少得多,因为每个单词都可以由字符构成。

缺点:1、单个字符本身表示的含义有限;2、大模型处理的token数量变得很多,例如一个单词在词级分词算法中用一个token就可以表示,但是在字符分词中就需要拆分为多个token才行,因此目前主流的算法是基于子词的算法。

3、基于子词(subword)的分词算法

这种算法是把单词拆分为多个子词,既能保持空间效率,同时也具有语义含义,核心原则是常见词不应该被分解为更小的子词,但是不常见的词应该被拆分为更有意义的子词。

例如“tokenization”被分割成[‘token’,‘ization’],能够在词汇量小的情况下保持良好的覆盖率,未知的token比较少,如果输入的是’take’这种简单的词,那就不会被拆分为更小的子词。

基于子词的分词算法有三种常见实现,分别是BPE(Byte Pair Encoding)、WordPiece、Unigram,区别是使用不同的方法来构建词汇表。

BPE算法构建词汇表的原理是,初始化的词汇表是全部的字符,然后统计语料中连续出现频率最高的字符对,再合并字符对为新的子词,加入到词汇表中,循环这个过程,直到词汇表满足指定的大小。

WordPiece算法是BPE的改进版,区别是构建子词不是合并频率最高的字符对,是选择合并后语言模型似然增益最大的字符对(可以简单理解为更贴合语言规律的字符对)。

Unigram算法的核心原理是自顶向下,初始化超大的词汇表(包含所有可能的子词和单词),然后为每个子词计算语言概率(简单理解为计算这个词是不是经常用),然后逐步删除概率最小的子词,直到词汇表达到预设的大小。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/689626/

相关文章:

  • 从C++到CUDA:手把手教你用GPU并行化你的第一个for循环(附完整代码)
  • Spring Boot项目用Nginx反代MinIO,签名错误403?别慌,检查这个配置项就对了
  • 汽车电子工程师必看:英飞凌BTG7003高边开关的10种工作模式详解与实战配置
  • FigmaCN:3分钟实现Figma界面中文化的终极免费解决方案
  • Applite终极指南:让macOS软件安装变得简单高效的免费GUI工具
  • Claude Code Web Fetch 排障与解决
  • AI大模型趋势洞察与未来展望
  • 如何建立信任和可解释的交互过程
  • 2026塑胶行业采购撮合平台推荐:江外江综合评分最高,三大平台横评 - 广州矩阵架构科技公司
  • GanttProject 3.3:免费开源项目管理工具的完整使用教程
  • 告别硬编码!用SAP标准函数FREE_SELECTIONS_DIALOG,5分钟搞定动态查询弹窗
  • AI风口下,高薪AI产品经理到底有多香?普通人如何入行?薪资、技能、学习资料全解析!
  • 单片机项目从‘裸奔’到‘伪多线程’:一个LED闪烁与按键扫描的实战调度案例
  • 自动驾驶ML工作流加速引擎设计与优化实践
  • 用Python模拟兔子和羊的“地盘争夺战”:手把手教你实现Lotka-Volterra竞争模型
  • 2026天虹提货券回收平台排行榜:鼎鼎收登顶NO1 - 鼎鼎收礼品卡回收
  • CVPR 2020 SINET伪装检测实战:从环境配置到ONNX部署的完整避坑指南
  • AI风口已至!手把手教你转行AI产品经理_2026年转行指南
  • YOLOv8新手避坑指南:从VOC格式数据集到训练出第一个模型(PyCharm实操版)
  • 每天30万次免费调用!高德天气Web API接入避坑指南(Key申请、adcode获取全流程)
  • 避坑指南:从后端拿到PT Session后,source SDC前别忘了这个关键命令(reset_design详解)
  • HEC-RAS非恒定流模拟避坑指南:从Preissmann差分格式到.dss输出文件详解
  • 如何在Linux和Windows上完美连接WPS与Zotero:科研写作效率翻倍的完整指南
  • 01 | 笔试算法题:最长且字典序最大的公共子序列
  • 别再手动写RTL了!用Rocket Chip和Chisel快速定制你的RISC-V SoC(附完整配置流程)
  • 告别静默失败:SAP生产订单报工接口BAPI_PRODORDCONF_CREATE_TT的完整错误处理指南
  • Linux stop_machine 停机机制与 OOM Killer 并发场景下的 soft lockup 诊断
  • 从功能产品经理到AI产品经理:转型指南与必备技能解析!普通产品经理的转型攻略
  • 移动应用开发手册5:论CS团队运营——如何做好一个指挥大大
  • 给你的STM32F407项目加个“黑匣子”:基于M95512 EEPROM的DMA数据存储完整驱动与页写策略详解