大模型思维链(CoT)理论梳理
目录
- 一、什么是思维链?
- 二、用来干什么
- 三、发展脉络
- 四、如何开启推理
- 4.1 普通模型:提示词工程
- 4.2 推理模型:默认开启,不可关闭
- 4.3 当代模型:可开关的思考模式
- 五、总结
一、什么是思维链?
一句话总结,思维链(Chain of Thought,CoT),它是一种提示工程技术——引导大模型在给出最终答案之前,先输出一系列中间推理步骤。
是由Goolge在2022年1月提出的
思维链并没有给大模型增加任何新功能,而是激活大模型本来就有的潜能,不让其跳过中间推理步骤,而是将输出的推理过程作为新的推理前文,逐步逼近答案。
类比做数学题,是直接给出答案,还是一步步写出中间过程,最后算出答案,肯定是后者的正确率高
二、用来干什么
核心用途是提升大模型在需要多步推理的复杂任务上的表现。具体来说:
- 分解复杂任务:模型将复杂问题拆解为更小、更易于管理的子任务,依次解决。
- 减少推理错误:分步推导降低了“一步到位”时常见的逻辑跳跃错误。
- 提高可解释性:用户可以看到模型的推理逻辑,便于调试和建立信任。
- 便于纠错:当中间步骤出错时,可以精准定位问题所在,而不是面对一个“黑箱答案”无从下手。
三、发展脉络
- 2022年 发现思维链的存在,利用提示词工程,激活思维链
- 2024年 推理模型兴起,通过大规模强化学习将思维链能力内化到模型内部,模型强制自动推理,不需要提示词激活。代表模型
DeepSeek R1 - 2026年,推理能力(思考模式)”已是一项内置的核心功能,模型不再强制推理
可以选择是否开启推理,以及推理强度。代表模型deepseek-v4-pro
甚至有的模型可以自动决定是否开启思考模式(自适应思考),代表模型caude 4.8 和 chatGpt 5.5
四、如何开启推理
4.1 普通模型:提示词工程
推理能力完全依赖提示词工程来激活,代表模型deepseek-v3,本地部署轻量模型等
开启方式:
- 零样本思维链(Zero-Shot CoT) :在问题后直接添加触发短语,如“让我们一步步思考“”。模型会据此输出推理步骤。
- 少样本思维链(Few-Shot CoT) :在提示中提供2-8个带有完整推理步骤的示例,让模型模仿。
思考内容的存放位置:
没有独立的“思考”字段。模型输出的推理过程和最终答案全部混在 content 字段中
4.2 推理模型:默认开启,不可关闭
模型将推理能力内置,强制推理,无需提示词唤醒。代表模型:deepseek-r1
思考内容的存放位置:
推理模型将思维链(推理过程)和最终答案分开存放,通过两个独立的字段返回。
| 字段 | 内容 |
|---|---|
| reasoning_content | 思维链——模型的内部推理过程 |
| content | 最终答案 |
reasoning=response.choices[0].message.reasoning_content answer=response.choices[0].message.content4.3 当代模型:可开关的思考模式
模型同时具备“直接回答”和“深度思考”两种模式,通过API参数动态切换。代表模型DeepSeek V4 Pro、GPT-5系列
开启方式:
通过 thinking.type 等参数控制思考模式的开关
fromopenaiimportOpenAI client=OpenAI(api_key="<你的API Key>",base_url="https://api.deepseek.com")response=client.chat.completions.create(model="deepseek-v4-pro",messages=[{"role":"user","content":"9.11和9.8哪个更大?"}],# 开启思考模式(必须放在 extra_body 中)extra_body={"thinking":{"type":"enabled"}},# 或 "disabled" 关闭# 可选:控制思考强度reasoning_effort="high"# 可选 high / max)思考强度控制:
当代模型还支持通过 reasoning_effort 参数控制思考的“深度”
| 参数值 | 含义 |
|---|---|
| minimal / low | 轻量思考,响应快,Token少 |
| medium | 中等思考(默认) |
| high / max | 深度思考,准确性高,耗时和Token更多 |
思考内容的存放位置:
与推理模型一致,思维链通过 reasoning_content 返回,最终答案通过 content 返回
五、总结
| 维度 | 普通模型 | 推理模型 | 当代模型 |
|---|---|---|---|
| 代表模型 | GPT-4、Claude 3 | DeepSeek R1、OpenAI o1 | DeepSeek V4 Pro、Claude 3.7、GPT-5 |
| 推理开启方式 | 提示词引导 | 默认开启,不可关闭 | thinking.type 开关控制 |
| 思考强度控制 | 无 | 无 | reasoning_effort 参数 |
| 思考内容字段 | 混在 content 中 | reasoning_content | reasoning_content |
| 是否可关闭 | 不开启就没有 | 不可关闭 | 可关闭 |
从普通模型到当代模型,我们看到一条清晰的演进路径:推理从“提示词技巧”进化为“内置默认行为”,再进化为“可精细调控的开关” 。不变的是,无论哪种方式,思维链的本质都是让模型不跳过中间的推理过程——只是实现方式越来越优雅、越来越可控。
