当前位置: 首页 > news >正文

大模型的token究竟是什么?能通俗易懂的解释吗?

今日话题:token

大模型的 token 究竟是什么?能通俗易懂的解释吗?

@笙囧同学

中国科学院大学 计算机技术硕士在读

3 月 10 日发布于知乎

说实话,煮啵第一次看到 token 这个词,还以为是令牌,哈哈哈哈。

以为就是那种游乐场的代币,投进去才能玩的那种。

后来发现不是,但也没人好好解释过,就这么模模糊糊地用着。

直到有一次煮啵跑实验,API 报错了——

「exceeded maximum token limit」

超过最大 token 限制。

煮啵才有点好奇,想认真去搞清楚这个东西到底是什么。

今天说给读者姥爷们听听。

煮啵先来让大家自己去做一个实验

你在脑子里默念一下这句话:

「今天天气不错。」

你是一个字一个字地读的,还是一个词一个词地读的?

大多数人,是」今天 / 天气 / 不错」这样,按词组来读的,不会」今 / 天 / 天 / 气 / 不 / 错」一个字一个字地读。

大模型处理文字,也是类似的方式——

不是一个字母一个字母地看,而是先把文字切成一小块一小块的,然后处理这些小块。

这些小块,就是 token。

但 token 不完全等于词

这是大多数人第一次接触 token 很容易会误解的地方。

煮啵当时也以为,一个词就是一个 token。

但实际上,没这么整齐哈哈哈。

这里煮啵举个栗子——

「cat」,一个 token。

「cats」,可能是」cat」加」s」,两个 token。

「tokenization」,大概率是」token」加」ization」,两个 token。

那,为什么要这么切?

因为模型切 token 的逻辑,不是按照词典来的。

它的逻辑是——

把最常见的字母组合,打包成一个 token。

「ing」在英文里出现频率极高,打包成一个 token。

「tion」也是,」pre」也是,」un」也是。

越常见的组合,越容易被打包成一整块。

越生僻的词,越容易被切得很碎,碎到一个字母一个字母的程度。

中文怎么算

中文相对简单一点,大多数情况下,一个汉字就是一个 token。

「煮啵今天在实验室等模型收敛」

大概就是十几个 token,基本上一字一个。

但高频词组有时候会被打包——

「所以」、「因为」、「的话」这类,在某些模型里可能算一个 token。

那么,有的读者姥爷可能就想问了,那为什么不直接用字母,非要搞 token 这一层呢?

煮啵当时也想过这个问题。

直接用字母处理不行吗,非要搞这个 token?

后来啊,才知道,有两个原因——

第一个,序列太长了。

「I love machine learning」,按字母算,是 24 个字符。

按 token 算,大概 4 到 5 个。

模型能处理的长度是有上限的,同样的上限,用 token 能装进去更多内容。

第二个,字母太碎,没有意义。

「l」、」o」、」v」、」e」这四个字母单独看,模型学不到什么东西。

「love」作为一整块,才有意义可以学习。

Token 是一个折中——

比字母大,有语义。

比词灵活,能处理各种没见过的新词。

那 Token 限制是什么意思

读者姥爷们现在应该能理解这个了。

「这个模型支持 128k token 的上下文」——

意思是你跟模型的对话,加在一起,最多 128000 个 token。

超过了,模型就开始忘前面说过的事,就像一个人短期记忆装满了,自动把最早的内容挤掉。

128k token 大概有多少字?

中文大概十几万个汉字,差不多一本长篇小说的量。

按 Token 计费是怎么回事

众所周不知,调大模型的 API,是按 token 收钱的。

你发给模型多少 token,模型回复了多少 token,分开计费。

煮啵有一次写了个很长的 Prompt,让模型反复输出很长的内容,跑了一晚上实验。

第二天导师看账单,沉默了大概五秒钟。

然后叫煮啵过去。

呜呜呜,咳咳(此处省略 500 字)

那次之后,煮啵写 Prompt 开始非常注意长度。

最后煮啵来想到一个比喻

如果还是觉得有点抽象——

你可以把 token 理解成乐高积木。

语言是用积木拼出来的东西。

模型处理语言,不是看你拼好的成品,而是把它拆回一块一块的积木,然后处理这些积木。

积木的大小不是固定的——

常见的组合,积木块大。

生僻的组合,积木块小,甚至拆到一块砖头一块砖头的粒度。

你说一句话,模型把它拆成积木,处理,然后一块一块地把回答拼出来,再还原成你能看懂的文字。

整个过程,积木就是 token。

好啦好啦,就这些。

总结一下

Token 不是词,是碎片。

碎片大小取决于这个组合有多常见。

模型处理文字、收费、限制上下文,全都以 token 为单位。

煮啵当初要是有人这么说一遍,能少困惑好久。

另外回复一下评论区的常见问题

  1. 大模型上下文 = 一次推理里输入+输出总共能塞的 token 数,不是聊天窗口历史上限,后者是产品层封装的。

  2. 输入、输出都算 token,通常输入便宜、输出贵,prompt 越长费用越高。

3,模型「思考过程」的文字也算输出 token,一样计费、一样占上下文。

4,Token 上下文长度 = AI 当前能「看见」的总文本长度,也就是模型一次能处理、能看到的文本上限。

≠ 记忆

≠ 理解能力

≠ 学习能力

很多读者姥爷们的误区:

以为上下文长 = 记忆力好

以为 AI 会「记住」很久以前的对话

真实机制:

AI 没有传统意义上的记忆

它每一次回答,都只依赖当前输入给它的那一串 token

超出上下文长度的内容,对它就是不存在

另外,中文没有天生优越性,反而在 token 效率上天然吃亏,但在语义密度上有优势。

简单说就是:

英文 1 token ≈ 可能 4 字符,中文大多 1 token = 1 字

→ 同样字数,中文更费 token。

但中文信息密度更高,同样意思用字更少。

模型内部只看向量与注意力,不区分语言优劣。

结语:抓住大模型时代的职业机遇

AI大模型的发展不是“替代人类”,而是“重塑职业价值”——它淘汰的是重复性、低附加值的工作,却催生了更多需要“技术+业务”交叉能力的高端岗位。对于求职者而言,想要在这波浪潮中立足,不仅需要掌握Python、TensorFlow/PyTorch等技术工具,更要深入理解目标行业的业务逻辑(如金融的风险控制、医疗的临床需求),成为“懂技术、懂业务”的复合型人才。

无论是技术研发岗(如算法工程师、研究员),还是业务落地岗(如产品经理、应用工程师),大模型都为不同背景的职场人提供了广阔的发展空间。只要保持学习热情,紧跟技术趋势,就能在AI大模型时代找到属于自己的职业新蓝海。

最近两年大模型发展很迅速,在理论研究方面得到很大的拓展,基础模型的能力也取得重大突破,大模型现在正在积极探索落地的方向,如果与各行各业结合起来是未来落地的一个重大研究方向

大模型应用工程师年包50w+属于中等水平,如果想要入门大模型,那现在正是最佳时机

2025年Agent的元年,2026年将会百花齐放,相应的应用将覆盖文本,视频,语音,图像等全模态

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

扫描下方csdn官方合作二维码获取哦!

给大家推荐一个大模型应用学习路线

这个学习路线的具体内容如下:

第一节:提示词工程

提示词是用于与AI模型沟通交流的,这一部分主要介绍基本概念和相应的实践,高级的提示词工程来实现模型最佳效果,以现实案例为基础进行案例讲解,在企业中除了微调之外,最喜欢的就是用提示词工程技术来实现模型性能的提升

第二节:检索增强生成(RAG)

可能大家经常会看见RAG这个名词,这个就是将向量数据库与大模型结合的技术,通过外部知识来增强改进提升大模型的回答结果,这一部分主要介绍RAG架构与组件,从零开始搭建RAG系统,生成部署RAG,性能优化等

第三节:微调

预训练之后的模型想要在具体任务上进行适配,那就需要通过微调来提升模型的性能,能满足定制化的需求,这一部分主要介绍微调的基础,模型适配技术,最佳实践的案例,以及资源优化等内容

第四节:模型部署

想要把预训练或者微调之后的模型应用于生产实践,那就需要部署,模型部署分为云端部署和本地部署,部署的过程中需要考虑硬件支持,服务器性能,以及对性能进行优化,使用过程中的监控维护等

第五节:人工智能系统和项目

这一部分主要介绍自主人工智能系统,包括代理框架,决策框架,多智能体系统,以及实际应用,然后通过实践项目应用前面学习到的知识,包括端到端的实现,行业相关情景等

学完上面的大模型应用技术,就可以去做一些开源的项目,大模型领域现在非常注重项目的落地,后续可以学习一些Agent框架等内容

上面的资料做了一些整理,有需要的同学可以下方添加二维码获取(仅供学习使用)

http://www.jsqmd.com/news/640531/

相关文章:

  • 避坑指南:CodeBlocks安装时这3个选项千万别选错(附MinGW环境变量配置)
  • C# OPCUA 结构体数据解析与序列化实战
  • 深蓝词库转换器:打破输入法壁垒的终极解决方案
  • SwiftUI 项目架构与代码组织:SwiftUI-Tutorials 项目结构深度解析
  • SVGnest与商业软件性能对比:免费工具如何超越专业软件
  • bk-ci代码检查系统:全方位保障代码质量的终极指南
  • Unity_Obfuscator Pro实战避坑指南:从配置到发布的完整流程
  • 别再死记硬背了!用“数据库查询”和“信号处理”的视角,5分钟彻底搞懂Transformer的Attention机制
  • Medicat Installer国际化支持详解:多语言界面与本地化适配
  • 亚洲美女-造相Z-Turbo在内容创作中的应用:社媒头像/海报/虚拟IP图像生成
  • 如何快速上手Orbit:5步完成C/C++应用性能瓶颈分析
  • Docker 部署指南:将 Express ES6 API 容器化并部署到生产环境
  • 2026年国际海运货代怎么选?怡悦国际官方电话与珠三角头部货代深度横评 - 精选优质企业推荐榜
  • python云端账务加密备份脚本,颠覆本地存账怕丢不安全旧认知,轻量化代码定时自动加密备份云端账本,防丢失防泄露,安全存储碾压纸质账本易损易丢短板。
  • 【Android】Operit AI v1.10.0+11 豆包ai手机开源版 自动化手机
  • weggli高级技巧:多查询组合与变量约束的实战应用
  • MCP Inspector:一站式在线调试工具实战指南
  • 无显示器环境下通过手机热点与IP扫描工具快速定位树莓派并建立SSH连接
  • B23Downloader单实例实现原理:Windows平台进程间通信深度剖析
  • Matrix homeserver选型:Synapse vs Conduit vs Dendrite性能对比
  • 精确的物理和数值控制工具
  • next-routes深度解析:Express风格路由在Next.js中的完美实现
  • Simulink信号源配置与信号处理实战指南
  • B23Downloader开发者手册:从零构建Qt多媒体下载应用
  • 告别生硬过渡:pop与Core Graphics打造流畅自定义绘制动画
  • 如何快速实现OpenObserve系统自动恢复:从配置到实战指南
  • 暖哇科技冲刺港股:年营收10亿 亏损2.7亿 众安与红杉是股东
  • 2026年AI风口已来!小白程序员必备:收藏这份大模型学习路线,轻松解锁职业新可能!
  • 【华为AP4030DN固件升级实战】通过Uboot命令行实现FIT AP到FAT AP的完整切换
  • 【架构实战】CDN架构设计与加速策略