当前位置：首页 > news >正文

大语言模型指令粒度控制：从任务分解到规划宽度的实践策略

news 2026/6/23 9:39:11

1. 引言：从“一句话指令”到“分步拆解”的实践困惑

最近在折腾本地部署的大语言模型，比如用Ollama框架跑Llama 3或者Phi-3，想实现一些自动化任务，比如RAG抓取网页信息。过程中，我遇到了一个非常具体且普遍的问题：给模型的指令，到底应该写到多细？是直接扔给它一个宏大的目标，比如“帮我分析这个行业的最新趋势并生成报告”，还是把它拆解成“第一步，搜索关键词A和B；第二步，筛选过去三个月的文章；第三步，提取核心观点并归类；第四步，生成结构化报告”？

这看似是个简单的“提示工程”技巧，但背后其实牵扯到一个更本质的问题：指令的粒度（Granularity）如何影响语言模型进行任务规划的“宽度”（Planning Breadth），并最终决定任务的成功率？我们常说的“任务分解”（Task Decomposition）只是手段，其核心控制变量就是粒度。粒度太粗，模型可能“无从下手”或“跑偏”；粒度太细，又可能限制模型的创造性，甚至因为步骤过多引入累积错误。这不仅仅是学术问题，而是每一个想用大语言模型（LLM）做实事的开发者、产品经理甚至普通用户都会踩的坑。

我自己就深有体会。早期让模型处理一个多步骤的数据处理流程时，只给了最终目标，结果它要么卡在某个环节反复循环，要么生成的结果完全偏离预期。后来开始尝试细化指令，成功率确实上去了，但又出现了新问题：过于琐碎的指令让整个交互过程变得冗长低效，而且模型似乎失去了在子任务间灵活调整的能力。这促使我开始系统地思考和测试：这个“度”到底在哪里？有没有一些可循的原则？

本文将结合我自身的实验和观察，抛开复杂的学术术语，直接探讨指令粒度、规划宽度与任务成功率这三者之间的实际关系。我们会从基本概念入手，通过具体的场景案例，分析不同粒度指令下模型“思考”方式的差异，并总结出一套适用于日常开发和应用（尤其是本地部署模型场景）的实操策略。

2. 核心概念拆解：粒度、规划宽度与成功率到底指什么？

在深入分析之前，我们需要先统一一下对这三个关键术语的理解。它们听起来有点学术，但我们可以用更接地气的方式解释。

2.1 指令粒度：从“战略目标”到“战术动作”的谱系

指令粒度，指的是你给语言模型的单个指令所包含的任务细节和步骤的多少。它是一个连续谱系，而不是非此即彼的二分法。

粗粒度指令：类似于下达一个“战略目标”。它只描述最终要达成的状态或产出，而不规定具体路径。
- 例子：“写一份关于新能源汽车电池技术最新进展的调研报告。”
- 特点：高度抽象，给予模型最大的自由发挥空间。它隐含了“你需要自己去规划如何达成这个目标”。
细粒度指令：类似于下达一系列“战术动作”。它明确规定了达成目标所需的具体步骤、格式、甚至中间产物的要求。
- 例子：“1. 请以‘三元锂电池’、‘固态电池’、‘钠离子电池’为关键词，搜索2023年1月至今的中文技术综述文章。2. 从找到的文章中，提取每种技术路线的能量密度、成本、安全性和商业化进度数据，整理成表格。3. 基于表格数据，分析各技术路线的优劣和未来两年内的主流趋势。4. 将上述分析整理成一份结构清晰的报告，需包含摘要、技术对比、趋势分析和参考文献部分。”
- 特点：非常具体，极大地限制了模型的行动范围，但同时也降低了它“迷路”的可能性。

在实际应用中，绝大多数指令都落在这两个极端之间的某个位置。例如，“帮我总结这篇文章的核心观点”比“写报告”细，但比“提取第一、二、三段的主谓宾”粗。

2.2 规划宽度：模型内心的“思维导图”有多大

规划宽度，这里指的是语言模型在接收到指令后，其内部推理过程（无论是通过思维链提示激发的，还是其参数隐含的）所考虑的可能行动路径或解决方案空间的广度。

宽规划：当模型接收到一个粗粒度指令时，它需要自己“脑补”出从起点到终点的多条潜在路径。比如对于“写调研报告”，它可能考虑从学术数据库搜索、从行业新闻总结、从专利文件分析等多种入口，每种入口下又有不同的信息组织方式。这个“思维导图”的节点多、分支杂。
窄规划：当模型接收到一个细粒度指令时，它的思考被高度约束。对于上面那个四步指令，模型的规划几乎被限定死了：第一步只能做关键词搜索，第二步只能做信息提取和制表……它需要考虑的变量和选择大大减少，“思维导图”变得线性而简单。

规划宽度直接影响模型的“创造力”和“纠错能力”。宽度大，可能产生意想不到的优秀方案；宽度小，则执行路径确定，容错率低（一旦某步预设不合理，后面可能全错）。

2.3 任务成功率：一个多维度评价指标

任务成功率不能简单用“最终输出是否看起来OK”来衡量。对于复杂任务，尤其是需要本地模型通过工具调用（如RAG抓取网页）或多轮交互完成的任务，我们需要一个更细致的定义：

过程合规性：模型是否严格按照（或合理演绎了）指令要求的步骤和格式执行？对于细粒度指令，这一步至关重要。
结果正确性：最终产出物是否准确、完整地解决了问题？这是最核心的指标。
效率与资源消耗：完成任务所需的交互轮次（Prompt数）、推理时间（Token数）是否在可接受范围内？过细的指令可能导致交互冗长。
鲁棒性：在面对微小干扰（如输入数据的轻微变化、网络临时波动）时，任务能否依然成功完成？

一个高成功率的任务，应该在上述多个维度上取得平衡。我们的目标就是通过调整指令粒度，找到这个平衡点。

3. 粒度如何塑造模型的“思考”：机制与案例深潜

理解了概念，我们来看粒度是如何具体影响模型行为的。这不仅仅是“输入决定输出”那么简单，而是深入到模型推理机制的内核。

3.1 粗粒度指令：激发探索，也伴随风险

当你给出一个粗粒度指令时，你本质上是在要求模型扮演一个“项目负责人”或“领域专家”的角色。模型需要调用其预训练知识库中的相关模式，来构建一个完整的任务执行计划。

内在机制：模型会进行一种隐式的“规划采样”。它基于你的指令和上下文，在它的参数空间中，对可能的后续Token序列（即行动步骤）进行概率分布估计。例如，“写报告”之后，高概率的续写可能是“首先”、“关于”、“本报告旨在”等开头，然后模型需要在这些分支上继续展开。这个过程类似于在一个巨大的、模糊的决策树上进行深度优先搜索，但没有明确的回溯机制。

案例分析：用本地LLaMA 3模型进行竞品分析

指令：“分析一下开源大语言模型LLaMA 3、Phi-3和Qwen2的主要特点和技术差异。”
模型可能的内在规划：
1. 识别任务类型：这是一个“比较分析”任务。
2. 确定比较维度：它可能会从预训练数据中回忆起常见的比较维度，如“发布方”、“参数量”、“上下文长度”、“开源协议”、“擅长领域”等。
3. 搜集信息：对于每个模型，从其知识截止日期前的信息中提取相关内容。
4. 组织信息：决定以模型为纲（逐个介绍再总结），还是以维度为纲（每个维度下对比三个模型）。
5. 生成文本：按照选定的结构进行叙述。
潜在风险：
- 维度缺失或偏颇：模型可能只想到它“熟悉”的维度（如参数量），而忽略了对应用开发者更重要的维度（如部署便捷性、社区生态、工具链支持）。
- 信息过时或错误：对于本地部署的模型，其知识可能不是最新的。它可能不知道Qwen2的最新版本特性。
- 结构混乱：可能在分析和叙述中来回跳跃，导致可读性差。
- 深度不足：分析停留在表面参数罗列，缺乏对技术选型（如注意力机制优化、训练数据构成）的深入洞察。

实操心得：使用粗粒度指令时，模型的输出质量极度依赖于其本身的知识广度和深度，以及对任务范式的理解。对于知识密集型或创造性任务（如头脑风暴、写故事），粗粒度指令能带来惊喜。但对于需要精确、结构化输出的任务，风险很高。一个改进技巧是进行“软约束”，例如将指令改为：“以技术架构、性能特点和适用场景为维度，分析LLaMA 3、Phi-3和Qwen2的差异。”这稍微收窄了规划宽度，提供了框架，但未限制具体步骤。

3.2 细粒度指令：实现精准控制，但可能扼杀灵活性

细粒度指令将模型的角色转变为“熟练执行者”。你几乎为它编写了一份详细的剧本。

内在机制：此时，模型的规划过程被极大地简化。它的主要工作从“规划做什么”转变为“如何做好每一步”。在每一步，模型的注意力高度集中在当前子指令的语义和与上一步输出的衔接上。它需要严格遵循指令中的序列关系、格式要求（如“整理成表格”）。这大大降低了模型在高层策略上犯错的概率，但将正确性的压力转移到了指令设计者身上。

案例分析：用Ollama+Phi-3实现自动化RAG网页信息抓取与总结

指令： “你是一个自动化信息处理助手。请严格按以下步骤操作：
1. 调用‘网页抓取工具’，输入URL：‘https://example.com/tech-news’，获取页面主体内容。
2. 从抓取的内容中，找出所有包含‘人工智能’或‘AI’的段落。
3. 将这些段落汇总，用中文提炼出核心新闻事实，每条事实不超过一句话。
4. 将提炼出的事实以有序列表形式输出，并为整个列表生成一个简短的标题。”
模型的内在规划：这个规划几乎被指令显式定义了。模型的核心工作是：
1. 理解步骤1需要触发一个特定的函数调用（假设已通过系统提示词或工具定义好）。
2. 解析抓取返回的文本，执行关键词匹配和段落提取。
3. 进行文本摘要和压缩。
4. 格式化输出。
潜在风险：
- 指令脆弱性：如果网页结构变化，抓取的内容格式不符预期，模型在步骤2可能完全失败。它没有自主调整策略（如尝试用其他选择器）的能力。
- 错误累积：步骤1的微小偏差（如抓取了无关的页眉页脚）会导致后续所有步骤偏离正轨。
- 失去优化机会：模型不会思考“也许先总结全文再筛选AI相关部分更高效”，因为它被锁死在既定步骤里。
- 交互僵化：如果某一步失败，模型通常只会报错或输出无意义内容，而不是尝试回溯或请求澄清。

实操心得：细粒度指令是复杂、高风险任务流水线化的基石。它特别适合与外部工具（代码解释器、API、数据库）结合的场景，因为每一步的输入输出可以明确定义。关键技巧在于增加“异常处理”和“验证点”。例如，可以在指令中加入：“如果在步骤2中未找到任何相关段落，则输出‘未发现目标内容’，并停止后续步骤。”或者“在步骤3提炼后，自我检查一下事实是否相互矛盾。”

3.3 混合粒度策略：分层规划与动态调整

在实际应用中，纯粗或纯细的指令往往都不是最优解。更高级的策略是采用混合粒度，模拟人类项目经理的工作方式：先定战略（粗），再分阶段定战术（细），并在执行中动态调整。

核心思想：让模型进行“分层规划”。先用一个中等粒度的指令让模型生成一个高层计划（大纲），然后针对这个计划中的每个节点，再发起更细粒度的子指令请求。这可以通过多轮对话（CoT, Chain of Thought）或让模型自我提示（Self-Refine）来实现。

案例分析：编写一个数据处理脚本

第一轮（粗/中粒度）：“我需要一个Python脚本，功能是：读取一个CSV文件，清洗其中的异常值和缺失值，然后计算每个数值列的平均值和标准差，最后将结果保存到新的CSV文件。请先为我列出实现这个脚本的主要步骤和需要考虑的关键点。”
模型输出（规划）：
1. 导入必要库（pandas, numpy）。
2. 使用pandas读取CSV文件。
3. 数据清洗：定义异常值（如Z-score>3）和缺失值处理策略（删除或填充）。
4. 计算：对清洗后的数值列，计算mean和std。
5. 输出：将计算结果组织成DataFrame并保存。
6. 关键点：编码问题、内存管理、清洗策略的可配置性。
第二轮（细粒度，针对步骤3）：“很好。现在请聚焦于步骤3‘数据清洗’。假设我们决定对异常值用中位数填充，对缺失值用列均值填充。请写出这部分的详细代码，并包含必要的注释和异常处理（比如全列缺失的情况）。”
第三轮（细粒度，针对步骤4/5）：“现在请完成计算和输出部分的代码，将平均值和标准差合并到一个DataFrame中，列名格式为‘原列名_mean’和‘原列名_std’。”

这种策略的优势：

可控的创造力：第一轮让模型贡献架构设计，发挥了其知识广度。
降低错误传播：每个子任务相对独立，一个子任务的错误不会直接摧毁全局。
便于调试：当最终结果出错时，可以快速定位到是哪个“步骤包”出了问题。
资源优化：不需要一次性生成极其冗长的详细指令，交互更自然。

实操中的挑战：这需要模型具备较强的上下文理解能力和计划遵循能力。对于能力较弱的模型，可能在第一轮就生成一个不切实际的计划，导致后续全盘皆输。因此，第一轮的中粒度指令设计尤为关键，需要包含足够的约束来引导规划方向。

4. 寻找最佳平衡点：基于任务类型的粒度选择框架

经过大量测试，我发现并不存在一个“放之四海而皆准”的最佳粒度。最佳选择高度依赖于任务类型、模型能力以及你对结果的确定性要求。下面我总结了一个简单的决策框架。

4.1 任务类型与粒度推荐

我们可以将常见任务按“确定性”和“结构性”两个维度分类：

任务类型	特点	推荐粒度	理由与示例
高确定性、高结构性	输入输出格式明确，步骤清晰，有标准答案或流程。	细粒度	例如：数据格式转换（JSON转YAML）、执行固定查询（“从下表找出销售额>1000的记录”）、调用特定API。模型不需要创新，只需准确执行。指令应明确每一步操作和格式。
高确定性、低结构性	目标明确，但达成路径多样，输出格式较自由。	中-粗粒度	例如：代码生成（写一个快速排序函数）、文本摘要（总结这篇文章）、简单问答。给予模型实现目标的框架（如“用Python实现”），但不限制内部算法细节。
低确定性、高结构性	需要探索或创造，但最终产出需要符合特定结构。	混合粒度	例如：市场分析报告、实验方案设计、故事大纲创作。先用中粒度指令要求产出结构（大纲、目录），再对每个部分用细粒度指令填充内容。
低确定性、低结构性	开放式探索，创意生成，无固定答案。	粗粒度	例如：头脑风暴（想出10个新产品的点子）、诗歌创作、哲学讨论。给予模型最大的想象空间，激发其潜在能力。

4.2 模型能力评估与粒度适配

不同的模型，其“规划”能力天差地别。GPT-4等顶级模型能处理非常粗的指令并生成高质量规划，而较小的本地模型（如7B参数的Llama）可能需要更细致的引导。

对于强模型（如GPT-4， Claude 3，深度求索的DeepSeek）：可以更多使用粗粒度或混合粒度指令。它们能很好地理解意图，并生成合理、有深度的计划。你可以说：“为我们的新社交媒体应用设计一个增长黑客策略”，它可能会给你一个包含渠道分析、内容策略、KOL合作、数据监测的完整方案。
对于弱模型（如大多数7B-13B参数的本地模型）：强烈建议使用细粒度或中粒度指令。它们的长上下文和复杂推理能力有限。对它们说“设计增长黑客策略”，结果很可能空洞无物或逻辑混乱。更好的方式是：“第一步，分析一下Instagram和TikTok上同类应用常用的三种拉新方法。第二步，针对‘大学生’群体，从这三种方法里选一个最合适的，并说明理由。第三步，为这个方法设计一个具体的落地活动创意。”

一个简单的测试方法：给你想用的模型一个中等复杂度的任务（如“规划一次为期三天的北京旅游行程”），观察其输出的计划是否逻辑连贯、细节合理。如果计划空洞（只列出“第一天：天安门，故宫”），则需要更细的指令；如果计划详尽且有条理（“第一天上午：抵达酒店后，前往天安门广场，建议游览2小时；中午在前门大街用餐，推荐餐厅X；下午：故宫博物院，需提前预约，重点参观中轴线三大殿…”），则可以尝试更粗的指令。

4.3 关键参数：上下文长度与推理预算

指令粒度直接影响两个硬性指标：

上下文长度（Context Length）：细粒度指令本身就很长，如果再加上多轮对话的历史，很容易触及模型上下文窗口的上限（尤其是4K或8K的模型）。在设计长流程任务时，必须考虑指令本身的Token消耗。
推理时间/成本：粗粒度指令要求模型进行更广泛的“思考”，生成每个Token所需的前向计算更复杂，可能更慢也更耗资源（对于按Token收费的API）。细粒度指令虽然单次响应可能不长，但可能需要多轮交互，总Token数可能更多。

权衡建议：对于一次性、高价值的任务，可以牺牲一些效率，采用混合粒度策略以获得更可靠的结果。对于需要高频、自动化执行的任务，则应优化指令，力求用最少的交互轮次和Token数达到目标，这时可能需要将多个细步骤压缩到一个精心设计的中粒度指令中。

5. 实战优化：提升任务成功率的指令设计技巧

理论框架有了，我们来点实实在在的“干货”。如何设计指令，才能在实际操作中最大化任务成功率？以下是基于我大量“踩坑”经验总结出的技巧。

5.1 为粗粒度指令增加“思维框架”约束

完全放任的粗指令风险太高。一个有效的技巧是提供一个“思维框架”，引导模型的规划方向，而不是具体步骤。

原始粗指令：“评估一下我们是否应该将产品推向欧洲市场。”
优化后（增加框架）：“请从市场环境（规模、增长率、竞争格局）、内部能力（产品适配性、供应链、合规成本）和风险因素（政策、汇率、文化差异）三个维度，评估我们将产品推向欧洲市场的可行性。请为每个维度列出关键考量点，并给出一个综合性的初步结论。”
效果：这依然是一个粗粒度指令，没有告诉模型具体怎么找数据、怎么分析。但它为模型的“规划”画出了清晰的边界和结构（三个维度），极大地提高了输出结果的全面性和可用性。

5.2 为细粒度指令嵌入“弹性”与“验证”

细粒度指令最怕僵化。我们需要在精确控制中预留一些弹性空间，并加入自我验证环节。

原始细指令：“从以下段落中提取人名、地点和组织名：[文本]”
优化后（增加弹性与验证）：“你的任务是从提供的段落中提取所有实体。请按以下步骤操作：
1. 识别并提取所有人名、地点和组织名。
2. 如果某个实体类别（如组织名）一个都没找到，请在结果中注明‘未发现’。
3. 检查提取出的实体，确保它们确实属于指定的类别（例如，‘苹果’如果指水果就不是组织名）。如果存在模糊不清的实体，将其单独列出并标注‘需确认’。
4. 将最终确认的实体，按类别以JSON格式输出。”
效果：步骤1是核心任务。步骤2和3是弹性设计，允许模型处理“零结果”和“模糊情况”，而不是强行输出错误内容。步骤4的格式化要求也是一种验证，确保输出是可解析的结构化数据。

5.3 利用系统提示词（System Prompt）预设角色与规划风格

对于本地部署的模型，系统提示词是设定模型行为基调的利器。你可以在这里预先定义模型的“规划风格”。

示例系统提示词：“你是一个经验丰富、思维缜密的项目分析师。在解决任何问题时，你习惯于先拆解问题，评估可用资源和约束条件，制定分步计划，然后严格执行。你的输出逻辑清晰，步骤明确。如果遇到不确定性，你会主动提出并请求澄清。”
效果：即使后续用户指令比较粗（如“帮我优化网站加载速度”），模型也会倾向于先输出一个分析框架和计划（“我将从前端资源优化、服务器响应时间、缓存策略三个方面进行分析。首先，我们需要检查当前网站的…”），这相当于自动将粗指令“翻译”成了更结构化的中粒度思考过程。

5.4 迭代式提示：基于输出来动态调整粒度

这是最高效的策略之一。不要指望一次提示就完美。采用“侦察-进攻”模式。

第一轮（侦察，粗粒度）：给出一个相对宽泛的指令，获取模型的初步计划或输出。例如：“我想了解量子计算对密码学的影响，请给我一个概述。”
第二轮（校准，中粒度）：基于第一轮的输出，发现其侧重点或不足，提出更具体的子问题。例如：“你刚才提到了Shor算法，能更详细地解释一下它是如何破解RSA加密的吗？最好能用比喻让我这个外行理解。”
第三轮及以后（精修，细粒度）：针对仍有疑问或需要具体操作的细节进行提问。例如：“好，我理解了原理。那么，假设我是一个开发者，现在应该选择哪种抗量子加密算法来保护我的新系统？请列出前三种候选方案并比较其优缺点。”

这种方法结合了人类的判断力和模型的生成能力，动态地调整指令粒度，往往能得到深度和准确性俱佳的结果。

6. 常见陷阱与避坑指南

在实际操作中，即使理解了原理，也难免会掉进一些坑里。下面是我总结的几个高频陷阱及应对方法。

6.1 陷阱一：粒度与模型能力不匹配

现象：用一个非常粗的指令去要求一个能力较弱的本地模型完成复杂任务，结果得到的是空洞、敷衍或完全离题的回答。
根因：高估了模型的规划与推理能力。小参数模型更擅长“补全”和“模仿”它训练数据中常见的模式，而非进行开放式、多步骤的复杂规划。
解决方案：永远从比你以为的再细一级的粒度开始。如果模型能很好地处理并给出超出预期的细节，下一轮再尝试放宽。对于固定流程的应用，直接为小模型设计好“剧本”（细粒度指令）是最稳妥的。

6.2 陷阱二：在长链任务中忽视错误传播

现象：设计了一个包含10个步骤的完美细粒度指令链。结果在第2步因为一个微小的输入歧义，模型输出产生了偏差，导致后面8步全部基于错误前提运行，最终结果一塌糊涂。
根因：将语言模型视为确定性的程序，而忽略了其本质的概率生成特性。每一步都有出错概率，错误会沿链累积放大。
解决方案：
1. 加入校验点：在关键步骤之后，设计一个独立的“验证指令”。例如，在数据提取步骤后，加一步：“请检查刚才提取的5条数据，它们是否都符合‘发布日期在2023年后’的条件？如果不符合，请列出不符合的项。”
2. 设计冗余或投票机制：对于关键判断，让模型用不同方式做两次，或者从不同角度思考，然后比较结果。
3. 提供“安全网”或默认路径：在指令中说明“如果这一步无法完成，请输出‘ERROR_AT_STEP_X’并停止，而不是猜测”。

6.3 陷阱三：过度追求细粒度导致指令冗长矛盾

现象：指令写得像一篇小论文，前后步骤可能存在隐含冲突，或者某些细节描述限制了模型解决核心问题的能力。
根因：人类设计者陷入细节，失去了对任务整体的把握。指令本身变得难以理解和执行。
解决方案：
1. 先写大纲：在写详细指令前，先用自然语言给自己写一个任务执行大纲，确保逻辑流畅。
2. 模块化设计：将超长指令拆分成几个逻辑模块，用明确的标题或编号分隔。例如：“## 第一部分：数据准备 (步骤1-3) … ## 第二部分：核心分析 (步骤4-6) …”
3. 简化语言：避免复杂从句和多重否定。使用主动语态、肯定句和简单的词汇。
4. 自我审查：写完指令后，以“模型视角”读一遍，问自己：每一步的要求是否绝对清晰？有没有歧义词？步骤间的依赖关系是否明确？

6.4 陷阱四：忽视上下文窗口限制

现象：在使用长对话历史或需要插入大量参考文档（如RAG场景）时，细粒度的多轮指令很快耗尽了模型的上下文窗口，导致它“忘记”了最早的要求。
根因：没有考虑指令本身、历史对话和检索内容对Token总数的占用。
解决方案：
1. 摘要历史：在对话轮次较长时，主动对之前的讨论进行摘要，然后用摘要替代冗长的历史记录。
2. 精炼指令：删除指令中所有不必要的修饰语和客气话，只保留核心要求。
3. 分治策略：对于超长任务，将其拆分成多个独立的会话或任务，每个会话有明确的输入输出，通过外部系统（你的程序）来串联状态，而不是依赖模型的全部记忆。

指令生成不是一门精确的科学，而更像是一种艺术和工程的结合。它要求我们对任务本质、模型特性和自身需求有深刻的理解。通过有意识地控制指令粒度，我们实际上是在调节语言模型这颗“大脑”的思考方式——是让它天马行空地探索，还是按部就班地执行。

从我自己的经验来看，对于大多数严肃的、需要可靠结果的应用（比如基于本地模型的自动化工具），从混合粒度策略入手是最稳健的：用一个中粒度指令让模型贡献计划框架，人类审核并修正这个计划，然后再将其转化为一系列细粒度的、可执行的子指令。这个过程本身，就是人类与模型协同规划的过程。

最后，没有一劳永逸的“最佳实践”。最有效的方法永远是测试、观察、调整。为你特定的任务、特定的模型，设计几组不同粒度的指令，跑一跑，看看结果。你会发现，这个探索过程本身，就是理解语言模型如何“思考”的最佳途径。

查看全文

http://www.jsqmd.com/news/1066623/