当前位置：首页 > news >正文

思维之树框架：用搜索算法提升大语言模型复杂推理能力

news 2026/5/10 5:42:43

1. 项目概述：从“链式思考”到“思维之树”的跃迁

如果你已经玩过一阵子大语言模型，对“链式思考”肯定不陌生。简单来说，就是让模型在给出最终答案前，先一步步写下推理过程。这招对付数学题、逻辑谜题效果拔群，因为它把模型的“黑箱”思考过程给“白盒化”了。但不知道你有没有遇到过这种情况：面对一个复杂问题，比如规划一次旅行、设计一个产品功能，或者解决一个开放式的创意写作任务，单一的推理链条就显得力不从心了。模型可能会钻进一个死胡同，或者给出的方案平庸无奇。这时候，我们就需要一种更强大的思维框架，来模拟人类面对复杂问题时的“头脑风暴”和“多路径探索”过程。这正是普林斯顿NLP团队提出的“思维之树”框架的核心价值。

“思维之 Thought”不是一个具体的模型，而是一种全新的提示工程范式。它把大语言模型从一个“一步到位”的答案生成器，转变为一个可以进行系统性“思考”的问题解决引擎。其核心思想借鉴了计算机科学中的搜索算法（如广度优先搜索、深度优先搜索），将解决问题的过程构建成一棵“树”。树上的每个节点代表一个“思维状态”（比如一个部分解决方案），连接节点的边则代表从一个思维状态到另一个的“思维转换”（比如提出一个新想法或进行一步推理）。通过让语言模型在多个可能的思维路径上并行探索、评估和回溯，ToT能够显著提升模型在需要规划、探索或决策的复杂任务上的表现。

简单来说，传统的提示方法像是让模型走一条独木桥，而ToT则是给了它一张地图和探索森林的自由。这个框架的官方实现princeton-nlp/tree-of-thought-llm提供了一个清晰、模块化的代码库，让我们可以轻松地将这个前沿思想应用到自己的任务中。无论你是想提升现有AI应用的推理能力，还是单纯对提示工程的前沿技术感到好奇，这个项目都值得你花时间深入探究。接下来，我将带你从零开始，彻底拆解ToT的原理、实现细节，并分享如何将它用在你自己的项目里。

2. 核心原理深度拆解：ToT如何让LLM学会“三思而后行”

要理解ToT，我们不能只停留在“它用了搜索算法”这个层面。关键在于弄明白，它如何将抽象的“思维”概念，转化为语言模型可以理解和执行的具体操作。这涉及到三个核心组件的设计：思维生成器、状态评估器和搜索算法。三者协同工作，构成了ToT的“思考”回路。

2.1 思维生成器：从“灵光一现”到“系统发散”

思维生成器负责在给定的问题状态下，提出下一步可能的“想法”。在代码中，这对应着--method_generate参数，主要有两种模式：sample和propose。

sample模式（独立采样）：适用于创意发散型任务，比如“写一个关于外星人侦探的故事开头”。在这种模式下，模型会基于当前状态（例如一个故事梗概），独立生成多个不同的后续发展。每个生成的想法都是平行、独立的，旨在最大化想法的多样性。这模拟了头脑风暴中“不管好坏，先都列出来”的阶段。
propose模式（顺序提议）：适用于逻辑推导型任务，比如“解24点游戏”。当前状态可能是一组数字（如 4, 5, 6, 10），模型需要提出一个合法的数学运算步骤（如 “10 - 4 = 6”）。这种模式下生成的思维通常是连续的、有逻辑递进关系的，每一步都基于上一步的结果。

关键设计洞察：选择哪种生成模式，取决于任务本身是需要“发散”还是“收敛”。创意写作需要sample来打开思路，而数学推理需要propose来保证推导的严谨性。这体现了ToT框架的灵活性——它没有规定死的流程，而是提供了适配不同问题类型的工具。

2.2 状态评估器：给想法“打分”与“投票”

生成了大量思维分支后，我们不可能沿着每一条路都走到黑。这就需要状态评估器来对每个思维状态（树节点）进行评价，以决定哪些路径更有希望。代码中通过--method_evaluate参数控制，分为value和vote两种。

value模式（独立估值）：为每个状态独立打分。例如在24点游戏中，给定一组剩余数字，模型可以评估“当前状态距离得到24还有多远”，输出一个分数（如7/10）。这个分数是绝对的，只基于状态本身的价值。
vote模式（对比投票）：让模型对多个状态进行横向比较，选出最好的几个。例如在创意写作中，给出三个不同的故事发展方向，问模型“哪个最有潜力？”。vote模式输出的是相对排名，更适合难以量化的主观评价任务。

评估器的设计是整个ToT框架中“引导”搜索方向的关键。它替代了传统搜索算法中需要人工定义的、死板的启发式函数，而是利用LLM自身对任务的理解来提供动态的、语义化的启发式评估。这是将LLM的“知识”与算法“控制流”深度融合的典范。

2.3 搜索算法：协调探索与利用的“总指挥”

有了生成器和评估器，还需要一个调度机制来决定：下一步探索哪个节点？是深度优先（一条路走到黑）还是广度优先（齐头并进）？什么时候回溯（放弃当前路径）？ToT实现中主要集成了广度优先搜索算法。

在BFS中，算法会维护一个“前沿”节点队列。每一步，它都会：

从队列中取出一个状态。
调用思维生成器，为该状态生成多个后续状态（子节点）。
调用状态评估器，为这些子节点评分或投票。
根据评分，选择最优的n_select_sample个子节点加入队列。
重复上述过程，直到找到解决方案或达到步数/深度限制。

这个过程完美地平衡了“探索”（尝试新的分支）和“利用”（沿着高分分支深入）。n_generate_sample,n_evaluate_sample,n_select_sample这几个参数就是控制这个平衡的旋钮。调大n_generate_sample和n_select_sample意味着更广泛的探索，能增加找到解的概率，但也会显著增加API调用成本和时间。

2.4 与CoT、Self-Consistency的对比

为了更深刻理解ToT的革新之处，我们可以把它放在提示工程技术演进的脉络中看：

标准提示（Standard Prompting）：输入问题，直接输出答案。模型进行的是隐式的、单步的推理。
链式思考（Chain-of-Thought, CoT）：要求模型“逐步思考”，将推理过程显式化。这解决了复杂单步推理的问题，但仍然是单一路径的。如果第一步思路错了，后面全盘皆输。
自洽性采样（Self-Consistency）：对同一个问题，用CoT采样多条推理路径，然后通过“投票”选择最一致的答案。这引入了多路径生成，但仅在最后一步进行聚合，中间过程仍然是独立的、没有交互的。
思维之树（Tree of Thoughts, ToT）：在每一步推理中都进行多路径生成和评估，并基于评估结果动态地决定下一步探索方向。它实现了跨路径的、有引导的中间过程探索与回溯。这是本质上的不同：ToT将问题解决构建为一个可搜索的空间，而LLM既是这个空间的“构造者”（生成器），也是“导航者”（评估器）。

用一个比喻来说：CoT是让一个侦探沿着一条线索追查到底；Self-Consistency是让多个侦探各自独立破案，最后比对报告；而ToT是让一个侦探队长，在面对多个线索时，不断地派手下（或自己）去初步探查每条线索的虚实，然后根据探查回报，决定将主要精力投入哪条线索，过程中还可以随时撤回并重新分配资源。

3. 环境搭建与核心代码走读

理解了原理，我们动手把项目跑起来，并通过代码看看这些概念是如何落地的。

3.1 环境配置与安装

首先，你需要一个OpenAI的API密钥。将其设置为环境变量，这是项目与GPT模型交互的通行证。

# 在Linux/Mac的终端或Windows的PowerShell中 export OPENAI_API_KEY='你的-api-key-here' # Windows (Cmd) 可以这样设置临时环境变量 # set OPENAI_API_KEY=你的-api-key-here

接下来安装tree-of-thoughts-llm包。官方推荐从PyPI安装，这是最干净的方式：

pip install tree-of-thoughts-llm

如果你想研读源码或进行修改，可以选择从源码安装：

git clone https://github.com/princeton-nlp/tree-of-thoughts-llm cd tree-of-thoughts-llm pip install -r requirements.txt pip install -e . # 以可编辑模式安装，方便修改本地代码

安装完成后，你可以尝试运行项目自带的24点游戏示例来验证环境。创建一个Python脚本test_tot.py：

import argparse from tot.methods.bfs import solve from tot.tasks.game24 import Game24Task # 这里我们直接构造参数，避免使用命令行 args = argparse.Namespace( backend='gpt-4', # 使用GPT-4，效果更好但更贵。可用 'gpt-3.5-turbo' 替代。 temperature=0.7, # 创造性温度 task='game24', # 任务名称 naive_run=False, # 设为False以启用ToT，True则为普通CoT prompt_sample='cot', # 使用CoT风格的提示进行采样 method_generate='propose', # 24点游戏使用顺序提议 method_evaluate='value', # 使用独立估值 method_select='greedy', # 贪婪选择最优的b个状态 n_generate_sample=1, # 每次生成1个提议（对于propose模式通常为1） n_evaluate_sample=3, # 对每个状态进行3次估值采样，取平均以提高稳定性 n_select_sample=5 # 每步保留最好的5个状态（BFS的宽度b） ) task = Game24Task() # 尝试解决数字 [4, 5, 6, 10] ys, infos = solve(args, task, 900) # 900是随机种子，用于起始状态 if ys: print(f"找到解决方案: {ys[0]}") else: print("未找到解决方案。")

运行这个脚本，你会看到模型开始进行树搜索，并最终输出一个运算序列。这个过程可能会调用数十次GPT API，因此速度取决于网络和API速率限制，并且会产生费用。

3.2 核心模块解析

让我们深入tot目录，看看它的核心结构：

tree-of-thoughts-llm/ ├── tot/ │ ├── methods/ │ │ └── bfs.py # 广度优先搜索算法的实现 │ ├── tasks/ │ │ ├── __init__.py │ │ ├── game24.py # 24点游戏任务定义 │ │ ├── text.py # 创意写作任务定义 │ │ └── crosswords.py # 填字游戏任务定义 │ ├── prompts/ │ │ ├── game24.py # 24点游戏专用的提示词 │ │ ├── text.py │ │ └── crosswords.py │ └── models.py # 封装与OpenAI API的交互 ├── scripts/ # 运行论文实验的脚本 └── logs/ # 论文中的实验轨迹记录

1. 任务定义 (tot/tasks/)每个任务都是一个类，必须实现两个核心方法：__init__用于初始化，test_output用于判断一个输出是否解决了问题。以game24.py为例：

class Game24Task: def __init__(self): self.steps = 4 # 游戏需要3步运算（4个数变成1个数） self.value_cache = {} # 缓存状态评估值，减少API调用 def test_output(self, completion: str, state: list): # 这个方法检查模型生成的运算序列（completion）是否合法且结果等于24 # 它需要解析字符串，执行运算，并验证结果。 # 这是任务相关的核心逻辑。 ...

2. 提示词管理 (tot/prompts/)这是ToT的“灵魂”所在。每个任务都有对应的提示词文件，定义了思维生成、状态评估等步骤中发给模型的指令。例如game24.py中的propose_prompt：

{input} 请生成一个合法的数学运算步骤，使用给定的两个数字，得到一个新数字。请严格按照格式‘a - b = c (left: ...)’输出。 当前剩余数字：{state}

以及value_prompt：

{input} 评估当前状态距离解决24点游戏还有多远。当前剩余数字：{state} 请只输出一个介于1到10之间的分数，10表示马上就能得到24，1表示完全不可能。

这些提示词的设计质量直接决定了ToT的性能。它们需要清晰、无歧义，并能引导模型输出结构化的文本，便于程序解析。

3. 搜索算法 (tot/methods/bfs.py)这是协调整个过程的“大脑”。solve函数是入口，它内部维护着搜索树和前沿状态队列。关键循环在_solve方法中，它反复执行“生成-评估-选择”的循环，直到找到解或达到限制。

4. 模型交互 (tot/models.py)OpenAIModel类封装了与GPT API的对话。它处理了消息格式、温度设置、重试逻辑等。如果你想适配其他LLM（如本地部署的模型），修改这个类是关键。

实操心得：成本与延迟控制使用ToT最大的挑战之一是API调用成本和时间。一次完整的搜索可能调用几十甚至上百次GPT-4，费用不菲。在开发调试阶段，我有几个建议：
先用GPT-3.5-Turbo：虽然效果可能稍差，但成本只有GPT-4的几十分之一，非常适合验证流程和提示词。
调小搜索宽度（n_select_sample）和生成样本数（n_generate_sample）：这能大幅减少API调用次数。从b=3开始尝试。
利用缓存：注意Game24Task中的value_cache。对于重复的状态，直接返回缓存值，能有效节省成本。在你自定义的任务中，也应考虑实现类似的缓存机制。
设置超时和步数限制：在solve函数中，可以通过参数控制最大步数，避免陷入无限搜索。

4. 实战：为自定义任务构建思维之树

官方的三个任务（24点、创意写作、填字游戏）已经展示了ToT的威力。但真正的价值在于将它应用到我们自己的问题上。假设我们有一个“旅行行程规划”任务：给定一个目的地、时间和兴趣偏好，规划一个多日的详细行程。我们来看看如何用ToT框架来实现它。

4.1 定义任务类

首先在tot/tasks/目录下创建新文件travel_plan.py。

# tot/tasks/travel_plan.py import json from typing import List, Any from .base import Task class TravelPlanTask(Task): def __init__(self): super().__init__() self.destination = "东京" self.days = 5 self.interests = ["美食", "历史文化", "动漫", "购物"] # 可以加载一些知识库，如景点列表、餐厅信息等 # self.attractions = load_attractions(...) def test_output(self, completion: str, state: List[Any]) -> bool: """ 检查生成的行程是否合格。 这里可以定义复杂的规则，例如： - 行程天数是否匹配？ - 每天的活动时间是否合理（不过于拥挤）？ - 是否涵盖了用户兴趣？ - 地理位置移动是否顺畅？ 目前我们先做一个简单检查：行程是否是一个包含天数的JSON列表。 """ try: plan = json.loads(completion) if not isinstance(plan, list): return False if len(plan) != self.days: return False # 更复杂的检查可以在这里添加 return True except json.JSONDecodeError: return False def get_input(self) -> str: """定义问题的初始输入，用于提示词中。""" return f"请为一位对{', '.join(self.interests)}感兴趣的游客，规划一个{self.days}天{self.destination}的详细行程。" @staticmethod def standard_prompt_wrap(state: List[Any], input: str) -> str: """标准提示（如果需要的话）""" return input @staticmethod def cot_prompt_wrap(state: List[Any], input: str) -> str: """CoT提示包装""" return f"{input}\n请逐步思考，并输出一个JSON格式的{len(state)+1}天行程计划。"

别忘了在tot/tasks/__init__.py中导入你的新任务类。

4.2 设计提示词

接下来，在tot/prompts/下创建travel_plan.py。这是最关键的一步，决定了模型如何“思考”行程规划。

# tot/prompts/travel_plan.py # 思维生成提示（propose模式）：基于已有部分行程，规划下一天。 propose_prompt = ''' 你是一个资深的旅行规划师。 当前已规划好的行程概要： {state} 剩余天数需要规划：{remaining_days}天。 请基于游客的兴趣：{interests}，为**下一天**（第{next_day}天）规划一个详细行程。 请考虑： 1. 上午、下午、晚上的主要活动。 2. 活动需贴合游客兴趣。 3. 活动之间的地理位置要接近，交通顺畅。 4. 输出格式必须严格为JSON： {{ "day": {next_day}, "morning": "活动描述", "afternoon": "活动描述", "evening": "活动描述", "lunch_suggestion": "餐厅建议", "dinner_suggestion": "餐厅建议" }} 只输出JSON，不要有其他文字。 ''' # 状态评估提示（value模式）：评估当前部分行程的质量。 value_prompt = ''' 你是一个严格的旅行体验评估师。 请评估以下已规划的{current_days}天{destination}行程的总体质量： {state} 游客的兴趣是：{interests}。 请从以下维度考虑（总分100分）： - 兴趣匹配度（30分）：行程是否充分覆盖了游客的兴趣点？ - 行程合理性（30分）：每天活动量是否适中？地点转移是否高效？ - 体验丰富度（20分）：活动是否多样，避免重复？ - 美食安排（20分）：餐饮建议是否具有当地特色且符合逻辑？ 请只输出一个0到100之间的整数分数，代表你对这个部分行程的总体评价。不要输出其他任何文字。 分数： ''' # 状态评估提示（vote模式）：比较多个候选行程。 vote_prompt = ''' 你是一位需要做出选择的游客。 以下是针对{current_days}天{destination}游的{num_candidates}个不同的部分行程方案： {candidate_plans} 你的兴趣是：{interests}。 请仔细比较这些方案，然后选出你认为**最合理、最有趣**的一个。 请只输出你选择的方案的编号（1, 2, 或 3）。不要输出其他任何文字。 选择： ''' # 标准提示和CoT提示（如果任务需要） standard_prompt = '''...''' cot_prompt = '''...'''

4.3 配置与运行

现在，我们可以像运行24点游戏一样运行我们的旅行规划任务了。你需要修改主程序，指定新的任务和对应的提示词路径（通常框架会根据任务名自动匹配）。更实际的做法是参考run.py写一个新的驱动脚本。

# plan_travel.py import argparse import sys sys.path.append('.') # 假设你在项目根目录运行 from tot.methods.bfs import solve from tot.tasks.travel_plan import TravelPlanTask args = argparse.Namespace( backend='gpt-4', temperature=0.7, task='travel_plan', # 任务名，需要与注册名一致 naive_run=False, prompt_sample='cot', method_generate='propose', # 行程规划适合顺序提议 method_evaluate='vote', # 行程好坏比较主观，用投票模式可能更好 method_select='greedy', n_generate_sample=3, # 生成3个不同的下一天方案 n_evaluate_sample=1, # 投票只需1次（因为vote提示里包含了所有候选） n_select_sample=1, # 每步只保留投票胜出的1个方案（深度优先风格） ) task = TravelPlanTask() # 假设我们规划5天行程，初始状态为空列表 initial_state = [] ys, infos = solve(args, task, initial_state) if ys: final_plan = ys[0] print("规划完成的行程：") import json print(json.dumps(json.loads(final_plan), indent=2, ensure_ascii=False)) else: print("规划失败。")

注意事项：提示词工程是成败关键在这个自定义任务中，提示词的质量决定了一切。你需要反复调试propose_prompt，确保模型生成的每一天行程是结构化的JSON，并且内容合理。vote_prompt需要能清晰区分不同方案的优劣。调试时，可以先用naive_run=True跑一下CoT，看看模型在简单指令下能输出什么，然后再设计ToT的提示词。另外，输出格式约束（如“只输出JSON”）至关重要，它能极大简化后续的程序解析。

4.4 扩展思考：更复杂的评估与回溯

对于旅行规划，简单的逐天生成和投票可能不够。我们可能希望有一个全局评估器（value模式），在规划到第3天时，回头评估这3天整体的协调性，如果分数太低，就回溯到第2天重新规划。这需要更复杂的搜索算法（如深度优先搜索DFS与迭代深化），以及一个能评估部分行程全局质量的value_prompt。

ToT框架的优美之处在于，它提供了这些基础组件（生成、评估、搜索），我们可以像搭积木一样组合它们，甚至实现更复杂的算法（如A*搜索，其启发函数就是LLM的评估分数），来解决不同特性的问题。

5. 性能调优、常见问题与避坑指南

将ToT投入实际应用，你会遇到各种挑战。以下是我在实验和项目落地中总结的一些核心经验和常见问题的解决方案。

5.1 参数调优：平衡效果、成本与速度

ToT的性能对参数非常敏感。下面这个表格总结了关键参数的影响和调优建议：

参数	含义	影响	调优建议
`backend`	使用的LLM后端	GPT-4效果远好于GPT-3.5，但成本高、速度慢。	开发调试用GPT-3.5，最终测试或关键任务用GPT-4。关注Claude、Gemini等替代API。
`temperature`	生成多样性	高温度（如0.8-1.0）增加思维发散性，适合创意任务；低温度（如0.1-0.3）使输出更确定，适合逻辑任务。	逻辑任务（24点）用低温度（0.1-0.5）；创意任务（写作）用高温度（0.7-1.0）。
`n_generate_sample`	每次生成的思维数	增加此值能探索更多可能性，但线性增加API调用和成本。	对于`propose`模式，通常设为1。对于`sample`模式，可以从3-5开始尝试。
`n_evaluate_sample`	每次状态评估的采样数	对`value`模式，多次采样取平均可以减少评估波动；对`vote`模式通常为1。	`value`模式建议设为3以平滑随机性；`vote`模式设为1。
`n_select_sample`(b)	每步保留的状态数（BFS宽度）	增加b增强探索能力，但极大增加计算分支和成本。是影响成本最主要的参数。	从2-3开始。如果问题空间大、解稀少，可增加到5。资源有限时优先保证搜索深度。
`method_generate`	生成模式	`propose`用于序列决策，`sample`用于并行创意。	根据任务本质选择。不确定时，先用`sample`测试模型能否产生多样输出。
`method_evaluate`	评估模式	`value`给出绝对分，`vote`给出相对排名。	能量化评分用`value`；主观比较用`vote`。`vote`通常更稳定，因为LLM更擅长比较。

通用调优流程：

基线测试：先用naive_run=True（即标准CoT）跑一下，了解模型在简单提示下的表现上限。
小规模探索：设置很小的b（如2）和n_generate_sample（如1），用GPT-3.5快速跑通整个ToT流程，检查提示词和程序逻辑是否正确。
逐步放大：在流程正确的基础上，逐步增加b和n_generate_sample，观察效果提升与成本增加的曲线，找到性价比甜点。
模型升级：最后，在确定的参数下，切换到GPT-4获取最终效果。

5.2 常见错误与排查

API调用错误（Rate Limit/Timeout）
- 现象：程序中断，报错openai.RateLimitError或openai.APITimeoutError。
- 原因：ToT调用API频率高，容易触发速率限制。网络不稳定也会导致超时。
- 解决：
  - 在tot/models.py的OpenAIModel类中，增加重试逻辑和指数退避。可以使用tenacity库装饰_chat_completion方法。
  - 在代码中主动加入延迟time.sleep(1)，尤其是在循环中。
  - 考虑使用异步请求来并行化独立的生成或评估调用，但要注意OpenAI的每分钟请求数限制。
输出解析失败
- 现象：JSONDecodeError或程序因为无法解析模型输出而崩溃。
- 原因：模型没有严格按照提示词要求的格式输出。尽管你说了“只输出JSON”，但模型有时还是会加上解释性文字。
- 解决：
  - 强化格式指令：在提示词开头和结尾都强调格式要求。使用类似“你的输出必须且只能是以下JSON格式，不要有任何其他文字：”的强硬指令。
  - 后处理清洗：在代码中，对模型返回的文本进行清洗。使用正则表达式提取JSON部分，或者用json.loads()的异常处理来尝试解析，失败则尝试修复（如查找第一个{和最后一个}）。
  - 降低temperature：对于需要严格格式的任务，将温度调低（如0.1）可以减少输出的随机性。
搜索效率低下，迟迟找不到解
- 现象：程序运行很久，调用了很多次API，但始终找不到合格解。
- 原因：
  - 提示词设计不佳，导致生成的“思维”质量不高或方向错误。
  - 评估器（value/vote）无法准确区分状态的优劣，导致搜索方向被误导。
  - 问题本身可能无解，或搜索空间太大，当前参数下的搜索不足以覆盖。
- 解决：
  - 人工检查中间输出：打印出每一步生成的思维和评估分数，看它们是否合理。这是调试提示词最直接的方法。
  - 简化任务：先用一个更简单、已知有解的实例测试整个流程。
  - 调整评估策略：尝试从value切换到vote或反之。有时让模型“比较”比“打分”更容易。
  - 增加搜索资源：如果成本允许，增加b和n_generate_sample。
成本失控
- 现象：一次实验就花了几十美元。
- 预防：
  - 设置预算和硬中断：在代码开始时计算预估最大token消耗，并设置一个费用上限，达到后立即停止。
  - 使用缓存：务必实现并利用好状态缓存。相同的状态（输入字符串）不要重复评估。
  - 本地小模型测试：在提示词和流程稳定后，可以尝试用本地部署的较小开源模型（如Llama 3、Qwen）进行大规模搜索测试，虽然效果可能打折，但成本极低。

5.3 高级技巧与扩展方向

混合搜索策略：ToT论文中主要用了BFS。但对于某些任务，深度优先搜索（DFS）可能更有效，它能更快地深入到一条路径的尽头。你可以参考scripts/crosswords/search_crosswords-dfs.ipynb实现DFS。更复杂的策略如迭代深化、A*搜索（将LLM评估分作为启发函数）也值得探索。
自我反思与修正：当前的ToT框架中，思维生成后就被评估和选择，模型没有机会“反思”自己之前的思考。可以引入一个“反思”步骤，让模型回顾当前搜索路径，判断是否走入歧途，并主动提出回溯或调整策略。这需要设计额外的提示词和算法逻辑。
多模态ToT：如果问题涉及图像、音频等多模态信息，思维状态就不能只是文本了。需要扩展框架，支持多模态的“思维”表示和生成（例如，让模型生成一张草图作为中间思维）。
与外部工具结合：将ToT作为一个“规划大脑”，其生成的“思维”可以是调用外部工具/API的指令。例如，在编程任务中，一个思维可以是“写一个函数A”，然后调用代码执行器来验证这个函数是否正确。这构成了一个强大的自主智能体（Agent）循环。

思维之树框架打开了一扇新的大门，它让我们能以更结构化的方式“编程”大语言模型的思考过程。它不再是把任务一股脑丢给模型，而是引导模型进行有步骤、可回溯的探索。虽然目前它在API成本和延迟上还有挑战，但随着模型本身能力的提升和本地高效小模型的发展，这种需要多次调用模型的范式会越来越可行。最重要的是，它提供了一种方法论上的突破，让我们在构建复杂AI应用时，多了一件强大而趁手的武器。

查看全文

http://www.jsqmd.com/news/787562/