当前位置: 首页 > news >正文

大模型内部的数学世界

从文字到数字,从数字到理解

引言:当你对大模型说"你好"

想象你走进一座巨大的图书馆。这座图书馆里有数十亿本书,每本书都记录着人类的知识。当你走向前台,对管理员说:"你好,请问什么是量子力学?"——管理员听到了你的问题,然后在她的大脑中开始了一系列复杂的信息处理过程,最终给你一个清晰易懂的回答。

大语言模型(比如 ChatGPT、Claude、Kimi)就像这位管理员。不同的是,它不是一个"人",而是一个运行在计算机上的数学程序。它不会"理解"文字的含义——至少不是我们人类意义上的理解。它做的是一件事:把文字变成数字,对数字进行数学运算,再把运算结果变回文字。

本文的目标,就是带你走进这个过程的内部,看看当一句话被送进大模型后,究竟发生了什么样的数学变化。不需要你懂高等数学,只需要你有初中数学的基础(加减乘除、简单的函数概念),我们就能一起探索这个神奇的世界。

第一章 从文字到数字——分词(Tokenization)

1.1 为什么要先把文字变成数字

计算机有一个根本性的限制:它只能处理数字。更准确地说,计算机的处理器(CPU、GPU、NPU)本质上就是一台极其快速的"数字计算器"。它不知道"猫"是什么,也不知道"开心"是一种什么样的感受。它唯一会做的,就是对数字进行加减乘除。

所以,如果我们想让计算机"理解"一句话,第一步就必须把这句话里的每个字、每个词,转换成计算机能处理的数字。这个过程,就叫做分词(Tokenization)。

你可以把分词想象成"密码本"的工作方式。假设我们有一本密码本,上面写着:

"你" = 521

"好" = 389

"世" = 1024

"界" = 567

当我们输入"你好世界"这四个字时,计算机就会查这本密码本,把它变成四个数字:[521, 389, 1024, 567]。这四个数字,就是计算机能理解的"语言"了。

1.2 分词的具体过程

实际上的分词过程,比你想象的更有趣。大模型并不是简单地"一个字对应一个数字"。它使用一种叫做"子词分词"(Subword Tokenization)的技术。

为什么要用子词分词?因为英语等语言中有大量变形。比如 "play"、"playing"、"played" 其实是同一个词的不同形式。如果每个变形都分配一个独立的数字,密码本就会变得无比庞大。而且计算机无法知道这三个词之间的关系。

子词分词的做法是:把词拆开。比如 "playing" 可能被拆成 "play" + "ing"。"play" 分配一个数字,"ing" 分配一个数字。这样密码本更小,而且计算机能明白 "playing" 和 "played" 都与 "play" 有关。

中文的分词略有不同。因为汉字本身就是基本单位,所以中文通常是一个字或一个词对应一个 token。比如"人工智能"可能被分成["人工","智能"]两个token,也可能分成四个单字token,取决于具体的分词器设计。

1.3 分词后的数字长什么样

分词完成后,我们得到的是一串整数。比如输入"今天天气很好",分词后的结果可能是:

[3421, 1098, 1098, 2567, 883]

这些数字本身没有任何"含义"。3421并不代表"今"的某种属性,它只是一个编号——就像图

http://www.jsqmd.com/news/706883/

相关文章:

  • 成都地区、H型钢、250X250X9X14、Q235B、安泰、现货批发供应 - 四川盛世钢联营销中心
  • AI应用开发工作流工具:标准化与简化AI集成开发
  • 结构体大小计算(pack)
  • 四十岁之后,真正决定人生高度的,从来不是能力
  • 深度学习批次大小选择与训练稳定性优化指南
  • 2026诚信成都透光混凝土厂家推荐:GRG吊顶/GRG造型/会议厅会议室GRG/剧院剧场GRG/发光混凝土/商场GRG/选择指南 - 优质品牌商家
  • Java:反射
  • hyperf 微服务架构方案大全
  • Linearis:现代高性能线性代数库的设计原理与异构计算实践
  • ImageNet挑战赛:计算机视觉深度学习的革命性转折
  • nli-MiniLM2-L6-H768作品分享:金融舆情报告中‘风险提示’与‘事件描述’中立性分析
  • AI代理技能库:模块化设计、核心技能与实战应用
  • 助贷CRM系统比较是什么?其主要特点应关注哪些方面?
  • 用 Python 批量制造表情包,从此聊天斗图没输过
  • AI模型部署效率提升210%,Docker AI Toolkit 2026到底重构了哪4层编排协议?
  • 阿里云国际站服务器DNS服务器设置成什么?服务器dns怎么填写?
  • 基于Qwen3.5-2B的智能日志聚合分析:从海量运维日志中快速定位问题
  • EasyAnimateV5图生视频部署:Nginx反向代理配置支持HTTPS与域名访问
  • Nixtla时间序列预测生态:统一接口、高速统计与深度学习模型实战
  • Phi-3.5-Mini-Instruct部署案例:高校AI教学实验平台轻量化部署方案
  • 成都地区、H型钢、400X200X8X13、Q235B、安泰、现货批发供应 - 四川盛世钢联营销中心
  • sklearn多核机器学习性能优化实战指南
  • C/C++:类型转换
  • 3步掌握ChanlunX缠论插件:通达信技术分析终极指南
  • 京东大屏AI手机+东东APP:银发智能,诚意够!
  • 成都地区、H型钢、350X350X12X19、Q235B、安泰、现货批发供应 - 四川盛世钢联营销中心
  • Ubuntu——常见基本命令
  • 2026绵阳玄关柜定制优质公司TOP5推荐:绵阳轻奢全屋定制/绵阳酒柜定制/绵阳阳台柜定制/绵阳高端家居定制/绵阳书房定制/选择指南 - 优质品牌商家
  • 教程太碎总失败?这篇Claude Code配置文:从Node.js到API调用一篇搞定(亲测跑通)(Windows系统)
  • 神经形态视觉传感器与3D堆叠计算架构解析