当前位置：首页 > news >正文

1.1 大模型不是「大一点的 BERT」：定义、边界与能力从哪来

news 2026/3/27 10:56:06

1.1 大模型不是「大一点的 BERT」：定义、边界与能力从哪来

基于《大规模语言模型：从理论到实践（第2版）》第1章绪论

爆款小标题：搞懂 LLM 的三大定义与能力边界，面试和选型不再懵

为什么这一节重要

无论是面试、技术选型还是和产品经理对齐需求，第一个要回答的问题往往是：大语言模型到底是什么？它能做什么、不能做什么？很多人会用「参数很多、能力很强的模型」一笔带过，但这样既无法区分它和传统 NLP 模型、搜索引擎的差异，也无法在工程上做出正确决策——哪些场景可以纯靠 LLM，哪些必须配合 RAG、微调或 Agent。本节紧扣原书绪论，把「定义—能力来源—能力边界」讲透，为后续所有章节打底。

学习目标

学完本节，你将能够：

准确定义：在面试或文档中准确说出「大语言模型」在本书中的定义，并说明它与统计语言模型、早期预训练模型（如 BERT）在规模、训练目标与使用方式上的区别。
理解能力来源：说清大模型能力主要来自哪几个因素（规模、数据、训练目标与对齐），而不是简单归因于「参数多」。
明确边界：列举当前大模型的主要能力边界（如幻觉、知识截止、长程依赖、推理成本等），并能在实际项目中据此设计 RAG、工具或人工兜底方案。