运筹说 第156期 | 大模型基础篇之大模型概述(1):当“大“成为一种革命
运筹学,本质上是研究“如何最优地解决问题”的学科。而今天,大模型正在以一种前所未有的方式,重新定义“问题解决”的边界。从供应链优化到金融风控,从生产调度到路径规划,大模型与运筹学的深度融合,正在开启智能决策的新时代。
作为本系列的开篇,我们将从最基础的问题开始:大模型到底是什么?它的“大”究竟意味着什么?
一、大模型是什么?
1.1 官方定义与通俗理解
大模型(Large Language Model, LLM),全称大型语言模型,是基于深度学习技术,通过在海量文本数据上进行预训练而得到的具有强大通用能力的人工智能模型。
通俗地说,大模型就像一个“读遍天下书”的超级大脑。它通过学习互联网上几乎所有公开的文本内容(书籍、论文、网页、代码等),掌握了人类语言的规律、知识和逻辑,从而能够理解自然语言、生成文本、回答问题、进行推理,甚至完成复杂的创作和任务。
图1 大模型工作原理示意图
1.2 大模型的核心本质
大模型的核心本质是“概率预测”。给定一段输入文本(称为“提示词”),大模型会根据它在训练过程中学到的统计规律,预测下一个最可能出现的词,然后将这个词加入到输入中,再预测下一个词,如此循环往复,直到生成完整的回答。
这个看似简单的机制,在足够大的规模下,竟然涌现出了令人惊叹的智能能力,包括:语言理解与生成、知识问答与推理、代码编写与调试、数学计算与逻辑推理、多模态理解(图像、音频、视频)。
图2 大模型预测逻辑图
1.3 大模型与传统AI的本质区别
传统AI模型通常是"任务专用"的,需要为每个具体任务单独训练模型。而大模型是"通用"的,同一个基础模型可以通过微调或提示工程,完成成百上千种不同的任务。
表1 大模型与传统AI的本质区别
对比维度 | 传统AI模型 | 大模型 |
训练方式 | 针对单一任务标注数据训练 | 在海量无标注数据上预训练+少量数据微调 |
能力范围 | 只能完成特定任务 | 具备通用能力,可完成多种任务 |
泛化能力 | 泛化能力弱,换个场景就失效 | 泛化能力强,能处理从未见过的任务 |
涌现能力 | 无 | 具备涌现能力,规模达到一定程度会出现新能力 |
开发周期 | 长,每个任务都需要重新开发 | 短,基于基础模型快速适配 |
典型应用 | 人脸识别、语音识别、推荐系统 | GPT-5.5、Gemini-Flash、DeepSeek-V4 |
二、大模型的"大"体现在哪里?
大模型之所以被称为"大",不仅仅是因为它的参数数量多,更是因为它在参数规模、训练数据、算力需求三个维度上都达到了前所未有的量级。这三个"大"相互依存、相互促进,共同构成了大模型的核心特征。
表2 主流大模型排名表
添加图片注释,不超过 140 字(可选)
2.1 主流大模型的介绍
中美大模型性能差距已从“遥不可及”缩至“毫厘之间”。据斯坦福《2025 AI指数报告》,MMLU(大规模多任务语言理解基准)差距从17.5个百分点骤降至0.3,MATH(数学推理能力测评基准)从24.3缩至1.6——基本追平。LMSYS盲测中,顶级中美模型分差仅1.7%,DeepSeek-R1一度与OpenAI o1平分秋色。而在中文场景,中国模型更是各有亮眼表现。
图3 中美大模型对比图
但二者关键差距仍存:一是算力鸿沟——据阿里通义千问团队估算,美国可用算力约为中国的10至100倍,芯片制造是核心瓶颈;二是前沿推理能力,在SWE-bench、FrontierMath等硬核基准上美国闭源模型仍有明显纵深;三是投资规模——2025年美国AI私人投资达2859亿美元,是中国的近23倍。而中国的牌面同样清晰,DeepSeek等开源模型全球下载量已超越Llama,API价格仅为GPT系列的1/50—1/150。算力受限倒逼效率创新,反而走出一条独特的差异化路径。
图4 主流大模型介绍图
大模型做2025高考题,能上清北?
2025年高考刚落幕,字节跳动Seed团队就用豆包1.6做了一次山东卷模拟,结果轰动全网:豆包文科总分683分,赋分预估690分,排名全省前80,达清北录取线。大模型在2025年的高考成绩相较2024年实现全面爆发式增长,数学平均分从47分大幅跃升至138分,同时文科最高分和理科最高分也分别大幅上涨了121分和176.5分。
图5 24年与25年大模型成绩对比图
Gemini 2.5 Pro数学145分,豆包、DeepSeek R1数学均144分(仅图像题丢分)。豆包语文、英语、物理、历史等6科均获最高分,但作文仍被评“深度不足、缺乏共情”。这正是大模型能力的真实写照:知识储备已足够强,但深层理解与创造性思维仍是瓶颈。
图6 25年大模型成绩对比图
2.2 参数规模之"大":从百万到万亿的跨越
参数是大模型的"神经元",是模型学习和存储知识的基本单元。参数规模越大,模型能够存储的知识就越多,处理复杂任务的能力就越强。
2.2.1 参数规模的演进历程
大模型的参数规模在过去几年里呈现出指数级增长的趋势,从最初的百万级,迅速发展到今天的万亿级。
图7 大模型参数规模的演进历程
2.2.2 具体例子:GPT-3的1750亿参数意味着什么?
GPT-3拥有1750亿个参数,这是一个难以想象的数字。为了让大家有更直观的感受,我们可以做一些对比:
在生物层面远超人脑860亿神经元(虽不及突触总量),信息容量等效约350万本图书,物理尺度相当于60米见方的沙堆或需耗时5500年逐一计数,模型演进为BERT的1590倍与GPT-2的117倍,存储需求则达700GB(FP32)或350GB(FP16)显存,远超单卡承载极限。
常见的精度格式包括:FP32(32位单精度浮点数),精度最高但计算速度相对较慢;FP16/BF16(16位半精度/脑浮点格式),精度适中但计算速度快、显存占用少,是目前大模型训练的主流选择;INT8(8位整数),精度较低但吞吐量最高,主要用于推理加速。
图8 大模型参数规模的多维映射机制图
重要说明:参数规模并不是衡量大模型能力的唯一标准。近年来,研究人员发现,通过优化模型架构、训练方法和数据质量,可以在较小的参数规模下实现更好的性能。例如,Meta的Llama3-70B模型,虽然只有700亿参数,但在很多任务上的表现已经超过了早期的千亿参数模型。
2.3 训练数据之"大":从GB到EB的海量知识
大模型的能力不仅来自于庞大的参数规模,更来自于它所学习的海量训练数据。训练数据的质量和数量,直接决定了大模型的知识广度和深度。
2.3.1 训练数据的规模与类型
大模型的训练数据通常来自于互联网上的公开内容,包括网页、书籍、论文、代码、社交媒体等。数据规模从最初的几十GB,增长到了今天的几十PB甚至EB级。
图9 大模型演进图
注:token是大模型处理文本的基本单位,1个token大约相当于0.75个英文单词,或0.5个中文汉字。
2.3.2 具体例子:GPT-3的45TB训练数据意味着什么?
GPT-3使用了约45TB的文本数据进行训练,这相当于:
图10 大模型训练数据规模展示图
重要说明:训练数据的质量比数量更重要。低质量的数据会导致模型生成错误、偏见甚至有害的内容。因此,大模型研发机构都会投入大量精力进行数据清洗、过滤和去重。例如,GPT-3的训练数据虽然有45TB,但经过清洗后,实际用于训练的有效数据只有约570GB。
2.4 算力需求之"大":从单卡到超算集群的挑战
训练大模型需要消耗巨大的算力资源。所谓“算力”,通俗来说就是计算机每秒钟能执行多少次数学运算的能力。在AI领域,我们通常用“TFLOPS”来衡量算力大小——“T”代表10¹²,“FLOPS”是浮点运算次数/秒(Floating-point Operations Per Second)的缩写。因此,1 TFLOPS = 10¹²次浮点运算/秒。打个比方:如果一个人每秒计算一次,那么他需要3万多年才能完成1 TFLOPS在一秒内的计算量。随着模型规模的不断扩大,算力需求也呈指数级增长,已经成为制约大模型发展的关键因素之一。
2.4.1 算力需求的演进
大模型的算力需求通常用“浮点运算次数”来衡量。训练一个大模型需要进行数万亿亿次的浮点运算,这需要由数千甚至数万个GPU组成的超算集群连续运行数周甚至数月。值得说明的是,算力需求还与计算精度(数据类型)密切相关。简单来说,精度越高计算结果越精确,但消耗的算力和存储也越大——同一款GPU在不同精度下的表现差异显著,例如NVIDIA A100在FP32下的算力约为19.5 TFLOPS,而在TF32下可达156 TFLOPS。
表3 算力需求的演进
模型名称 | 参数规模 | 训练算力需求(FLOPs) | 训练时间(使用A100GPU) | 训练成本(估算) |
BERT-Base | 1.1亿 | 约3.3e18 | 约1天 | 约1万美元 |
GPT-2 | 15亿 | 约1.5e20 | 约1周 | 约5万美元 |
GPT-3 | 1750亿 | 约3.1e23 | 约34天 | 约460万美元 |
PaLM | 5400亿 | 约2.5e24 | 约64天 | 约1000万美元 |
GPT-4 | 约1.8万亿 | 约2.1e25 | 约90天 | 约1亿美元 |
2.4.2 具体例子:训练GPT-3需要多少算力?
GPT-3的训练过程使用了约1024块NVIDIAA100GPU,连续运行了约34天。我们可以从多个角度来理解这个算力规模:
图11 训练GPT-3需要的算力图
重要说明:以上只是训练阶段的算力需求。大模型部署后的推理阶段,同样需要消耗大量的算力。例如,ChatGPT在高峰期每天需要消耗约50万度电,仅电费一项每天就需要25万元人民币。
三、三个"大"之间的关系
参数规模、训练数据和算力需求并不是孤立的,它们之间存在着密切的正相关关系:更大的参数规模需要更多的训练数据来避免过拟合,更多的训练数据需要更强的算力来完成训练,更强的算力又反过来支持更大的参数规模和更多的训练数据。
这三者形成了一个"正反馈循环",推动着大模型能力的不断提升。这就是为什么大模型的发展速度如此之快,并且呈现出明显的"规模效应"——当规模达到一定程度时,模型的能力会出现质的飞跃,也就是我们常说的"涌现能力"。
图12 大模型与运筹学的融合示意图
四、大模型与运筹学的交叉融合
作为运筹学领域的从业者,我们为什么要关注大模型?因为大模型正在深刻地改变运筹学的研究和应用范式。
问题建模自动化:大模型可以自动将自然语言描述的问题转化为数学规划模型,大大降低了运筹学的使用门槛。算法设计智能化:大模型可以辅助设计和优化运筹学算法,甚至自动生成算法代码。求解效率提升:大模型可以学习历史求解经验,为复杂问题提供高质量的初始解,加速求解过程。决策支持增强:大模型可以整合多源数据,提供更全面的决策分析和风险评估。
图13 大模型发展机遇与挑战图
结语
大模型的“大”,不仅是参数、数据与算力的量级突破,更是智能范式的质变——当规模跨过临界点,简单的概率预测涌现出理解、推理与创造能力。对运筹学而言,这一革命并非取代精密建模,而是让智能决策的门槛大幅降低:问题可被自然语言自动建模,算法设计得以加速,求解过程拥有更优的初始解与风险评估。
然而,规模不等于万能,效率、能耗、可解释性与事实准确性仍是待解的约束。拥抱大模型,运筹学正从“求解给定问题”迈向“共创最优决策”的新维度——这既是技术的跃迁,也是思维的重构。
(图片均由大模型生成)
