当前位置：首页 > news >正文

LLMCompiler：大语言模型并行函数调用编译器原理与实践

news 2026/5/10 1:21:41

1. 项目概述：一个为LLM设计的“并行函数调用编译器”

如果你正在构建基于大语言模型（LLM）的智能体应用，并且被工具调用（Function Calling）的串行延迟和高昂成本所困扰，那么LLMCompiler这个项目值得你花时间深入了解。简单来说，它就像是一个为LLM设计的“编译器”或“调度器”，核心目标是将一个复杂的用户查询，自动分解成多个可以并行执行的任务，从而大幅降低整体响应时间并节省API调用成本。这不仅仅是简单的“多线程”调用，其背后是一套完整的、基于LLM自身推理能力的规划与编排逻辑。

传统的ReAct或类似链式思维（Chain-of-Thought）的代理框架，在处理需要调用多个外部工具（如搜索、计算、查数据库）的复杂问题时，通常是顺序执行的：思考一步，调用一个工具，等待结果，再思考下一步。这种模式存在明显的效率瓶颈，尤其是当某些工具调用之间没有依赖关系时，顺序等待就造成了不必要的延迟。LLMCompiler的创新之处在于，它引导LLM在规划阶段就识别出任务之间的依赖图（DAG），将独立的函数调用并行发射出去，最后再整合结果。根据其论文数据，在多个基准测试上，它能实现显著的延迟降低、成本节省和准确率提升。

2. 核心架构与工作原理拆解

要理解LLMCompiler的价值，我们需要先拆解它的工作流程。它并非一个全新的底层模型，而是一个构建在现有LLM之上的编排框架。其核心思想借鉴了编译器的设计：将高级语言（用户自然语言查询）编译成优化后的低级指令序列（并行函数调用计划）。

2.1 三阶段执行流水线

LLMCompiler的架构主要分为三个核心单元，它们协同工作，形成一个高效的流水线：

规划器（Planner）：这是整个系统的“大脑”。它接收用户的初始查询，并结合可用工具（函数）的描述，生成一个任务执行计划。这个计划不是一个简单的列表，而是一个有向无环图（DAG），其中节点代表需要调用的函数，边代表任务之间的数据依赖关系。例如，对于问题“北京和上海今天的气温分别是多少？”，规划器会识别出“获取北京气温”和“获取上海气温”这两个任务可以并行执行，因为它们之间没有依赖。
任务获取单元（Task Fetching Unit）：这个单元负责解析规划器输出的DAG。它的核心工作是进行拓扑排序，找出所有当前可以立即执行的任务（即入度为0的节点）。一旦识别出这些独立任务，它就会将它们分发给执行单元。这里的一个关键优化是“流式输出”（对应命令行参数--stream），即任务一旦被识别为可执行，就立即发送给执行器，而不是等整个DAG都规划完再开始执行，这进一步减少了端到端延迟。
执行器（Executor）：执行器接收来自任务获取单元的任务，并发起实际的函数调用。它负责准备函数调用所需的参数，调用对应的工具（可能是本地函数、API接口或数据库查询），并获取返回结果。所有并行调用的结果会被收集起来，并传递给规划器进行下一轮的规划或最终答案的合成。

2.2 依赖识别与并行化的关键

LLMCompiler的魔力在于如何让LLM学会生成带依赖关系的任务图。这主要通过精心设计的提示工程（Prompt Engineering）来实现。在提供给规划器LLM的提示词（Prompt）中，框架会明确要求模型以特定的结构化格式（例如JSON）输出计划，其中必须声明每个任务的输入依赖于哪些先前任务的输出。通过提供丰富的上下文示例（In-context Examples），模型能够学会识别常见依赖模式，比如：

数据依赖：任务B需要任务A的输出作为输入参数。
逻辑依赖：必须先通过任务A确认某个事实，才能决定是否执行任务B。
无依赖（即可并行）：任务A和任务B处理的是查询中不同的、独立的子问题。

这种基于提示的方法使得LLMCompiler具有良好的模型兼容性，无论是OpenAI的GPT系列，还是开源的LLaMA等模型，只要具备一定的推理和指令跟随能力，都可以作为规划器使用。

3. 环境搭建与快速上手实操

理论讲完了，我们来看看如何亲手把它跑起来。LLMCompiler项目基于Python，依赖管理清晰，搭建过程比较 straightforward。

3.1 基础环境配置

首先，我们需要一个干净的Python环境。官方推荐使用Conda，这能很好地隔离依赖。

# 1. 创建并激活Conda环境 conda create --name llmcompiler python=3.10 -y conda activate llmcompiler # 2. 克隆项目仓库并安装依赖 git clone https://github.com/SqueezeAILab/LLMCompiler cd LLMCompiler pip install -r requirements.txt

注意：务必使用Python 3.10。其他版本（如3.11+）可能会因某些依赖包的版本冲突而导致安装或运行错误。这是我在初次尝试时遇到的坑，切换到3.10后问题迎刃而解。

安装完成后，项目目录结构大致如下：

LLMCompiler/ ├── configs/ # 各个基准测试的配置文件（工具定义、提示词） ├── llmcompiler/ # 核心框架源代码 ├── run_llm_compiler.py # 主运行脚本 ├── evaluate_results.py # 结果评估脚本 └── requirements.txt

3.2 运行官方基准测试

项目提供了三个基准测试来展示其效果：hotpotqa（多跳问答）、movie（电影推荐）和parallelqa（并行问答）。我们以需要并行搜索的hotpotqa为例。

首先，你需要一个OpenAI的API密钥。将其设置为环境变量：

export OPENAI_API_KEY="sk-your-api-key-here"

然后，运行以下命令启动评估：

python run_llm_compiler.py --benchmark hotpotqa --store ./results/hotpotqa_results.json --stream

这里解释一下关键参数：

--benchmark hotpotqa：指定要运行的基准测试。
--store ./results/hotpotqa_results.json：指定结果保存的路径。文件会以JSON格式存储每个问题的输入、真实答案、模型预测和耗时。
--stream：强烈建议开启。如前所述，它启用流式任务分发，能有效降低延迟。根据我的实测，在复杂查询上开启此选项，端到端延迟可以减少20%-30%。
--logging：如果需要更详细的运行日志来进行调试，可以加上此参数。

运行结束后，你可以使用评估脚本查看汇总统计信息：

python evaluate_results.py --file ./results/hotpotqa_results.json

这个脚本会计算并打印出准确率、平均延迟、总token消耗等关键指标，方便你直观对比性能。

3.3 使用开源模型（vLLM集成）

对于希望使用本地或私有开源模型的开发者，LLMCompiler通过集成vLLM框架提供了支持。这比直接使用原始Hugging Face Transformers接口在推理速度上有巨大优势。

第一步：启动vLLM服务端你需要在一台有GPU的机器上，先使用vLLM启动一个兼容OpenAI API格式的模型服务。例如，启动一个LLaMA-2-7B-Chat模型：

# 假设你已安装vLLM: pip install vllm python -m vllm.entrypoints.openai.api_server \ --model meta-llama/Llama-2-7b-chat-hf \ --served-model-name llama-2-7b-chat \ --port 8000

第二步：配置并运行LLMCompiler在LLMCompiler项目中，运行以下命令，将模型端点指向你刚启动的vLLM服务：

python run_llm_compiler.py \ --model_type vllm \ --benchmark hotpotqa \ --store ./results/hotpotqa_llama2.json \ --model_name llama-2-7b-chat \ --vllm_port 8000

重要提示：项目configs目录下的默认提示词模板是针对LLaMA-2 70B（非聊天版）进行优化的。如果你使用其他模型（尤其是Chat版），可能需要调整gpt_prompts.py中的提示词，以符合该模型的对话格式和指令遵循特性。直接使用可能导致规划器输出格式不符合预期。我的经验是，对于Chat模型，需要在系统提示词（System Prompt）中更明确地强调输出格式要求。

4. 如何定制你自己的工具与任务

LLMCompiler的真正威力在于应用于你自己的业务场景。将官方示例迁移到自定义用例并不复杂，核心是配置两个文件：tools.py和gpt_prompts.py。我们以一个“智能旅行助手”的场景为例，构建一个能并行查询航班、酒店和天气的代理。

4.1 定义工具函数 (`tools.py`)

首先，在configs目录下为你自己的场景创建一个新文件夹，例如configs/travel_assistant。然后创建tools.py，在这里定义所有可用的函数。

# configs/travel_assistant/tools.py import datetime from typing import TypedDict # 定义工具函数的参数类型，这有助于LLM理解输入格式 class SearchFlightsInput(TypedDict): origin: str destination: str date: str # YYYY-MM-DD class SearchHotelsInput(TypedDict): location: str check_in: str check_out: str class GetWeatherInput(TypedDict): city: str date: str # 实际的工具函数实现（这里用模拟函数代替真实API调用） def search_flights(origin: str, destination: str, date: str) -> str: """Searches for available flights from origin to destination on a given date. Args: origin: Departure city code (e.g., 'PEK'). destination: Arrival city code (e.g., 'SHA'). date: Departure date in YYYY-MM-DD format. Returns: A string describing flight options. """ # 模拟API调用 return f"Found 3 flights from {origin} to {destination} on {date}: Flight CA1501 (08:00-10:30), MU5101 (10:00-12:35), CZ6166 (14:20-16:50)." def search_hotels(location: str, check_in: str, check_out: str) -> str: """Searches for hotels in a specific location for given dates. Args: location: City name (e.g., 'Shanghai'). check_in: Check-in date in YYYY-MM-DD. check_out: Check-out date in YYYY-MM-DD. Returns: A string describing hotel options. """ nights = (datetime.datetime.strptime(check_out, '%Y-%m-%d') - datetime.datetime.strptime(check_in, '%Y-%m-%d')).days return f"Found 5 hotels in {location} for {nights} nights ({check_in} to {check_out}): Hilton ($200/night), Marriott ($180/night)." def get_weather(city: str, date: str) -> str: """Gets weather forecast for a city on a specific date. Args: city: City name. date: Date in YYYY-MM-DD. Returns: A string describing the weather. """ return f"Weather in {city} on {date}: Sunny, 22-28°C." # 关键：TOOL_DESCRIPTIONS 列表，向LLMCompiler描述每个工具 TOOL_DESCRIPTIONS = [ { "type": "function", "function": { "name": "search_flights", "description": "Search for flight tickets between two cities on a specific date.", "parameters": SearchFlightsInput, } }, { "type": "function", "function": { "name": "search_hotels", "description": "Search for available hotels in a city for a given date range.", "parameters": SearchHotelsInput, } }, { "type": "function", "function": { "name": "get_weather", "description": "Get the weather forecast for a city on a specific date.", "parameters": GetWeatherInput, } }, ]

工具定义的核心要点：

清晰的文档字符串（Docstring）：LLM主要依靠函数的description和参数描述来理解工具的用途。描述务必准确、无歧义。
严格的参数类型：使用TypedDict或Pydantic模型定义参数结构，能极大提高LLM生成正确参数格式的准确率。
模拟实现：在原型阶段，函数内部可以返回模拟数据。这让你能快速测试整个编排逻辑是否正确，而无需等待真实API。

4.2 设计提示词示例 (`gpt_prompts.py`)

接下来，创建gpt_prompts.py，提供少量但高质量的上下文示例，教LLM如何为你的工具生成计划。

# configs/travel_assistant/gpt_prompts.py # 系统提示词，设定角色和输出格式要求 SYSTEM_PROMPT = """You are a travel planning assistant. Your job is to decompose a user's travel-related query into a set of tasks that can be executed in parallel when possible. You have access to the following tools: search_flights, search_hotels, get_weather. Output a JSON object representing an execution plan with the following schema: { "tasks": [ { "id": 1, "name": "tool_name", "arguments": {"arg1": "value1", ...}, "dependencies": [] # list of task IDs whose outputs this task needs } ] } If two tasks do not depend on each other's output, they can be parallelized (have no dependencies between them).""" # 上下文示例：一个用户查询及其理想的规划输出 EXAMPLE_QUERIES = [ { "query": "I want to fly from Beijing to Shanghai next Monday, and also check the weather in Shanghai for that week.", "plan": { "tasks": [ { "id": 1, "name": "search_flights", "arguments": {"origin": "Beijing", "destination": "Shanghai", "date": "2024-06-10"}, "dependencies": [] }, { "id": 2, "name": "get_weather", "arguments": {"city": "Shanghai", "date": "2024-06-10"}, "dependencies": [] }, { "id": 3, "name": "get_weather", "arguments": {"city": "Shanghai", "date": "2024-06-11"}, "dependencies": [] } ] } } ] def get_prompt(query: str): """构建最终发送给LLM的提示词。""" import json examples_str = "\n".join([f"Query: {eq['query']}\nPlan: {json.dumps(eq['plan'], indent=2)}" for eq in EXAMPLE_QUERIES]) prompt = f"""{SYSTEM_PROMPT} Here are examples of how to plan: {examples_str} Now, plan for the following query: Query: {query} Plan:""" return prompt

提示词设计心得：

少而精：通常1-3个高质量的示例足以让现代LLM学会任务分解和依赖识别的模式。示例应覆盖你预期的主要查询类型（如并行、串行、混合依赖）。
输出格式必须严格：在系统提示词中明确要求输出JSON，并给出详细的Schema。LLMCompiler的后续单元依赖于这个固定的格式来解析。
依赖关系显式化：在示例中清晰地展示dependencies字段如何工作。对于无依赖的并行任务，该字段为空列表[]。

4.3 创建配置文件并运行

最后，你需要在configs/travel_assistant目录下创建一个__init__.py文件（可以为空），或者确保你的运行脚本能正确导入这个配置。更简单的方法是，你可以复制一个现有基准测试的配置结构，然后替换其中的工具和提示词模块。

为了运行你的自定义配置，你可能需要稍微修改run_llm_compiler.py脚本，或者创建一个新的启动脚本，将配置路径指向你的configs/travel_assistant目录。核心是确保TOOL_DESCRIPTIONS和get_prompt函数能被正确加载。

5. 性能对比与效果评估

LLMCompiler论文中展示了其在多个维度上的优势。我们可以从三个层面来理解其带来的收益：

5.1 延迟与成本优势分析

这是最直观的收益。考虑一个需要调用3个独立外部API的查询，每个API平均响应时间为500毫秒。

串行方案（如ReAct）：总延迟 ≥ 3 * 500ms = 1500ms（还未计算LLM自身生成思考的时间）。
LLMCompiler并行方案：理想情况下，总延迟 ≈ 最大单任务延迟 = 500ms。

在实际的hotpotqa基准测试中（需要并行调用两个搜索引擎），LLMCompiler相比ReAct实现了约1.8倍的延迟降低。对于按token计费的API（如GPT-4），并行调用虽然可能增加单次规划调用的token数，但由于大幅减少了“思考-等待-再思考”的循环次数，总体token消耗和成本反而可能下降。论文中指出，在某些任务上成本节省可达40%。

5.2 准确率提升的内在逻辑

你可能会疑惑，并行化为何能提升准确率？这主要归功于两点：

减少长上下文中的信息衰减：在串行链式调用中，早期步骤的结果需要被不断拼接到后续LLM的提示词中。当步骤很多时，关键信息可能被淹没或遗忘。并行方案允许所有原始子问题被同时、清晰地提出，每个工具调用都基于最原始的查询上下文，减少了信息传递的损失。
避免错误累积：串行流程中，前一步的错误输出会直接作为后一步的输入，导致错误传播。而在LLMCompiler的DAG中，如果一个任务失败或出错，只要它不阻塞其他独立任务，其他部分仍可继续进行。最后的结果合成步骤有机会基于更多正确的中间结果进行判断。

5.3 与ReAct等传统方案的对比

为了更直观，我将LLMCompiler与典型的ReAct代理在几个关键维度上进行对比：

特性维度	ReAct / 顺序思维链代理	LLMCompiler
执行模式	严格的顺序执行：思考 -> 行动 -> 观察 -> 循环。	规划先行，依赖识别，并行执行独立任务。
任务调度	LLM被动地决定下一步，受制于上一步结果。	LLM主动规划全局DAG，系统负责优化调度。
延迟表现	高，与任务数量线性相关（有依赖时）。	低，接近最慢的单任务耗时（对独立任务）。
资源利用率	低，LLM和外部工具经常处于空闲等待状态。	高，可以同时利用多个计算/IO资源。
适用场景	强依赖、探索式任务（如一步步解题）。	子任务相对独立、可预先分解的复杂查询。
实现复杂度	相对简单，逻辑直观。	较高，需要设计规划提示词和依赖解析逻辑。

从上表可以看出，LLMCompiler并非要取代ReAct，而是提供了一种新的、更适合“可并行化”复杂任务的范式。两者可以互为补充。

6. 实战中的常见问题与排查技巧

在实际集成和使用LLMCompiler的过程中，你肯定会遇到一些挑战。以下是我在实验过程中总结的几个典型问题及其解决方法。

6.1 规划器输出格式错误

问题描述：LLM没有按照gpt_prompts.py中定义的JSON格式输出计划，导致Task Fetching Unit解析失败，报出JSON解码错误。

根本原因：

提示词中的格式指令不够强硬或清晰。
使用的开源模型（尤其是较小或未经专门微调的模型）指令遵循能力较弱。
上下文示例太少或不够典型。

解决方案：

强化系统提示词：在SYSTEM_PROMPT中，使用类似“你必须严格输出一个有效的JSON对象，且只输出这个JSON对象，不要有任何其他解释文字。”的强硬指令。
使用Chat模型格式：如果使用Chat模型（如Llama-2-Chat,Qwen-Chat），确保你的提示词符合其对话模板。例如，对于Llama-2，消息格式应为：
```
[INST] <<SYS>>\n{你的系统提示词}\n<</SYS>>\n\n{用户查询} [/INST]
```
将规划任务作为用户查询的一部分放入[INST]标签中。
增加输出后处理：在代码中添加一个健壮的后处理层。如果JSON解析失败，可以尝试用正则表达式从错误响应中提取可能的JSON结构，或者触发一个简单的修复性LLM调用（例如，让另一个LLM将非结构化输出重写为正确JSON）。LLMCompiler的代码中可以考虑在llmcompiler/planner.py模块的_parse_plan函数里增加这类容错逻辑。
提供更多示例：在EXAMPLE_QUERIES中增加2-3个不同复杂度的示例，确保它们都完美遵循了输出格式。

6.2 依赖关系识别错误

问题描述：LLM错误地判断了任务间的依赖关系，将本应并行的任务设为串行，或将有依赖的任务错误地并行，导致执行失败或结果错误。

根本原因：LLM对任务间逻辑关系的理解出现偏差，这通常是因为领域知识或常识的缺失。

解决方案：

在工具描述中明确依赖暗示：在TOOL_DESCRIPTIONS的函数description里，可以隐晦地指出它通常依赖于哪些信息。例如，search_hotels的描述可以写成“在确定了目的地城市和日期后，搜索酒店信息”。
设计更具引导性的示例：在上下文示例中，特意包含需要识别微妙依赖的案例。例如，一个查询是“预订从A到B的机票，并预订B地对应日期的酒店”。在示例计划中，明确将search_hotels任务的dependencies设为[1]（依赖于任务1的航班目的地结果），即使目的地B在原始查询中已提及。这教会模型：即使参数已出现，如果逻辑上需要确认，也可以建立依赖。
引入参数验证：在执行器层面，在调用工具前对参数进行基础验证。如果发现某个任务的参数中引用了不存在的“上游任务输出变量”，则暂停执行并将该任务重新交给规划器进行修正。

6.3 并行调用下的错误处理与限流

问题描述：当并行调用多个外部API时，其中一个失败（如网络超时、权限错误、速率限制），如何处理而不影响其他成功任务？同时，如何避免对下游服务造成突发流量冲击？

解决方案：

实现弹性任务执行：在llmcompiler/executor.py中，将每个任务的执行包装在try-except块中。任务失败时，捕获异常，记录错误信息和任务ID，并返回一个特定的“任务执行失败”结果对象，而不是让整个程序崩溃。
设计结果聚合策略：在规划器进行最终答案合成的阶段（如果有），需要能够处理部分任务失败的情况。提示词应指导LLM处理这种“部分信息可用”的场景，例如让它基于可用信息给出回答，并说明缺失部分。
集成速率限制器：对于有QPS限制的外部API，需要在执行器层面添加一个全局的速率限制器（例如使用asyncio.Semaphore或第三方库ratelimiter）。确保并行发起的请求不会超过阈值。可以将限流逻辑封装在具体的工具函数内部，或者作为一个装饰器应用于所有工具。
使用异步与超时控制：利用asyncio库实现真正的并发IO。为每个任务调用设置合理的超时（如asyncio.wait_for），防止单个慢请求阻塞整个流程。

6.4 针对复杂、动态依赖的扩展

问题描述：有些任务的依赖关系无法在初始规划时完全确定，需要根据前一步的执行结果动态产生新任务（例如，根据第一次搜索的结果，决定进行更精细的第二次搜索）。这超出了LLMCompiler论文中描述的静态DAG模型。

解决方案：LLMCompiler的架构本身可以扩展以支持动态性。你可以将其视为一个“多轮规划-执行”循环：

第一轮，规划并执行初始的独立任务。
收集第一轮所有结果后，将“原始查询 + 第一轮结果”作为新的输入，再次提交给规划器。
规划器基于新上下文，生成下一轮的任务计划（可能依赖于第一轮的某些结果）。
重复此过程，直到规划器认为可以生成最终答案。

这实际上是将一个大的静态DAG，分解为多个按顺序执行的小型动态DAG。实现时，你需要修改主循环逻辑，并仔细设计跨轮次的上下文传递和任务ID管理机制，避免冲突。

7. 进阶应用与生态集成

当你熟悉了LLMCompiler的基本用法后，可以探索其与现有AI开发生态的集成，以及更高级的应用模式。

7.1 与LangChain和LlamaIndex集成

LLMCompiler已被集成到两个流行的LLM应用框架中，这大大降低了使用门槛：

LangChain / LangGraph：在LangGraph中，LLMCompiler可以被视为一个特殊的“编译节点”。你可以将你的工具集定义为LangChain Tools，然后利用LangGraph的图编排能力来运行LLMCompiler规划的执行图。这让你能轻松地将LLMCompiler与LangChain丰富的文档加载器、记忆模块、输出解析器等组件结合。官方示例提供了在LangGraph中使用LLMCompiler的完整笔记本。
LlamaIndex：在LlamaIndex中，它以LlamaPack的形式提供。这意味着你可以将其作为一个即插即用的智能体模块，用于增强你的RAG（检索增强生成）管道。例如，对于一个复杂查询，可以先使用LLMCompiler并行调用多个检索工具获取不同来源的信息，再进行综合生成。

集成心得：通过框架集成来使用LLMCompiler，通常比自己从头管理配置和运行循环更方便，尤其是当你已经在使用这些框架构建应用时。它能更好地处理状态管理、工具定义标准化和可观测性。

7.2 混合使用不同模型端点

一个有趣的策略是“规划”与“执行”使用不同性价比的模型。例如：

规划器（Planner）：使用能力强但昂贵的模型（如GPT-4），因为它需要复杂的逻辑分解和规划能力。规划调用通常只需一次，且输出结构化，token数可控。
执行器中的LLM调用：如果某些工具本身也涉及LLM调用（如文本总结、信息提取），可以使用成本较低但速度快的模型（如GPT-3.5-Turbo，或本地部署的7B/13B开源模型）。

LLMCompiler的配置允许你为不同组件指定不同的模型端点。你可以在初始化时，为规划器和执行器中的工具分别传入不同的API客户端或模型配置，实现成本与性能的精细权衡。

7.3 监控、调试与可观测性

在生产环境中使用LLMCompiler，必须建立有效的监控。

日志记录：确保开启--logging选项，并配置日志级别为INFO或DEBUG，记录下每一轮规划生成的DAG、每个任务的开始/结束时间、参数、结果和状态（成功/失败）。这些日志是排查问题的基础。
可视化任务图：可以编写一个简单的工具，将规划器输出的JSON格式的DAG，使用graphviz或networkx库渲染成图片。这对于理解LLM是如何分解复杂任务、识别依赖关系非常有帮助，尤其是在调试规划错误时。
性能指标收集：在代码中埋点，收集关键指标：规划耗时、任务并行度（平均同时执行的任务数）、任务执行耗时分布、总体端到端延迟、各阶段Token消耗。这些数据能帮助你量化优化效果，并发现瓶颈所在（是规划慢，还是某个外部工具慢）。

LLMCompiler为解决LLM智能体应用中的效率瓶颈提供了一个优雅且强大的思路。它将编译器优化的思想引入LLM的推理过程，通过并行化来释放性能潜力。从我的实践来看，它的价值在需要调用多个独立API或服务的场景中尤为突出，例如复杂信息聚合、跨系统工作流自动化等。虽然需要投入一些精力来设计提示词和处理边界情况，但其带来的延迟降低和成本优化收益是实实在在的。随着智能体应用越来越复杂，这类专注于优化编排效率的框架，其重要性只会与日俱增。

查看全文

http://www.jsqmd.com/news/786390/