当前位置：首页 > news >正文

LangChain与提示工程实战：构建高效AI应用的完整指南

news 2026/4/30 3:38:32

1. 项目概述：当提示工程遇上LangChain，如何构建高效AI应用

最近在GitHub上看到一个挺有意思的项目，叫“Get-Things-Done-with-Prompt-Engineering-and-LangChain”。光看名字就知道，这项目核心是教你如何把提示工程和LangChain这两个当下最火的技术栈结合起来，真正解决实际问题。我自己在AI应用开发领域摸爬滚打了几年，从早期的简单API调用，到后来自己搭模型微调流水线，再到如今基于大语言模型构建复杂应用，深感一个高效的开发框架和一套成熟的工程化方法有多么重要。这个项目恰好切中了这个痛点：它不空谈理论，而是聚焦于“如何用提示工程和LangChain把事情做成”。

简单来说，这个项目就是一个实战指南，旨在帮助开发者，无论是刚入门的新手还是有一定经验的从业者，系统性地掌握如何利用LangChain这个强大的框架，结合精心设计的提示词，去构建可靠、可维护且功能强大的AI驱动型应用。它解决的问题非常明确：很多开发者接触了大语言模型后，兴奋地写几个提示词跑通了Demo，但一旦要做一个正经的、有复杂逻辑、需要连接外部数据或工具的产品时，就立刻陷入混乱——代码组织一团糟，提示词难以维护，错误处理缺失，整体架构脆弱不堪。这个项目提供的，正是一套从思路到实践，从工具选型到避坑指南的完整解决方案。

2. 核心思路拆解：为什么是LangChain + 提示工程？

2.1 LangChain的角色：从胶水到骨架

首先得明白LangChain到底是什么。很多人初看文档会觉得它复杂，各种“Chain”、“Agent”、“Memory”概念一堆。但它的核心价值，在我看来，是提供了一个标准化的、组件化的编程模型，用于构建基于大语言模型的应用。在没有LangChain之前，如果你想做一个能联网搜索、能查数据库、能按步骤推理的AI应用，你需要自己写大量的胶水代码来处理不同工具之间的调用、管理对话状态、解析模型输出、处理异常。这些代码重复、琐碎且容易出错。

LangChain把这些通用模式抽象成了可复用的组件。比如，一个“检索问答链”就封装了从向量数据库检索相关文档、将文档和问题组合成提示词、调用大模型、解析答案这一整套流程。你只需要配置好各个组件（向量库、检索器、大模型、提示词模板），链就会帮你按正确顺序执行。这极大地提升了开发效率和代码的可维护性。在这个项目中，LangChain扮演的就是应用“骨架”的角色，它定义了数据流和任务执行的框架。

2.2 提示工程的进化：从技巧到系统工程

另一方面，提示工程（Prompt Engineering）也早已不是“如何问问题让ChatGPT回答更好”那么简单的小技巧了。在构建生产级应用时，提示工程是一项系统工程，它涉及：

提示词模板化：如何设计可复用、可配置的提示词模板，支持变量注入。
少样本学习（Few-Shot）：如何精心挑选和构造示例，嵌入到提示词中，以引导模型产生特定格式或风格的输出。
输出解析（Output Parsing）：如何确保模型输出是结构化的、机器可读的（如JSON），而不仅仅是自然语言文本，以便后续程序处理。
思维链（Chain-of-Thought）：对于复杂推理任务，如何设计提示词引导模型展示其推理步骤，提升准确性和可解释性。

这个项目的精髓在于，它展示了如何将系统化的提示工程实践，无缝地嵌入到LangChain框架中。例如，使用LangChain的PromptTemplate来管理模板，使用FewShotPromptTemplate来集成示例，使用PydanticOutputParser来强制模型输出结构化数据。这相当于为“骨架”填充了高质量的“神经指令”。

2.3 组合的威力：1+1>2

当系统化的提示工程遇上组件化的LangChain框架，产生的化学反应是巨大的。你可以快速搭建出如下应用：

一个能理解复杂指令的智能客服助手：通过LangChain的Agent，结合自定义的工具（如查询订单API、知识库检索），并设计清晰的提示词来指导Agent何时以及如何使用这些工具。
一个基于私有文档的问答系统：利用LangChain的RetrievalQA链，配合高效的文本分割、向量化嵌入和检索策略，并设计针对性的提示词来综合检索到的上下文生成精准答案。
一个多步骤的数据处理流水线：用SequentialChain将多个子任务串联起来，比如先让模型提取文本摘要，再让另一个模型根据摘要进行情感分析，每个步骤都有其优化的提示词。

这个项目正是通过一系列具体的示例和最佳实践，教你如何实现这种“1+1>2”的组合，把想法快速、稳健地落地为可工作的代码。

3. 核心组件与模式深度解析

3.1 模型（Models）抽象层：统一接口的价值

LangChain将各种大语言模型（LLMs）和聊天模型（ChatModels）封装在一个统一的接口之下。无论是OpenAI的GPT系列、Anthropic的Claude，还是开源的Llama 2、Falcon，你都可以通过类似的invoke或stream方法调用。这带来的最大好处是可移植性和降低锁定风险。

在项目中，你会学到如何配置模型。这不仅仅是填入API密钥那么简单。一个关键实践是将模型配置（包括模型类型、API Key、温度参数、最大token数等）外部化，比如放在环境变量或配置文件中。这样做的好处是，你可以在开发环境用便宜的gpt-3.5-turbo，在生产环境用能力更强的gpt-4，或者随时切换到另一个提供商的模型，而无需修改核心业务代码。

注意：模型调用是成本的主要来源。务必在提示词设计和链的流程中考虑token消耗。对于长文本，优先使用高效的文本分割和检索，而不是将全部内容扔给模型。LangChain的token_counter工具可以帮助你估算成本。

3.2 提示词模板（Prompt Templates）：超越字符串拼接

这是提示工程在LangChain中的核心体现。一个简单的PromptTemplate允许你定义带有占位符（如{input}，{context}）的模板字符串。但高级用法远不止于此。

少样本提示模板（FewShotPromptTemplate）：对于需要模型学习特定格式或复杂规则的任务，提供几个高质量的输入-输出示例至关重要。FewShotPromptTemplate允许你将这些示例组织起来，并动态地插入到最终提示词中。项目的关键技巧在于示例的选择和格式化。示例应该具有代表性，覆盖边缘情况，并且输出格式必须严格一致，以便于后续解析。

部分提示词（Partial Prompt Templates）：有些变量你可能想在链的早期就预先填充好，比如系统角色的设定（“你是一个专业的法律助理”）。你可以使用partial方法预先填充这些变量，得到一个“部分完成”的模板，在运行时再填充剩余变量。这有助于保持提示词的模块化和清晰度。

3.3 链（Chains）：可组合的任务单元

链是LangChain的灵魂，它代表了一个可调用的序列，通常包含一个提示词模板、一个模型调用和一个输出解析器。最简单的链是LLMChain。但真正的力量来自于链的组合。

顺序链（SequentialChain）：用于执行一系列相互依赖的任务。例如，Chain 1总结一篇长文章，Chain 2基于总结写一篇社交媒体帖子。你需要仔细设计链之间传递的数据格式（通过input_variables和output_variables指定），并确保前一个链的输出能被下一个链正确理解。

检索问答链（RetrievalQA）：这是一个高度封装的链，但它内部包含了检索器（从向量库找相关文档）、提示词模板（将问题和文档组合成上下文）和LLM。项目的重点会放在定制这个链的各个环节上：

文本分割器：选择RecursiveCharacterTextSplitter并调整chunk_size和chunk_overlap，以平衡检索精度和上下文完整性。
检索策略：除了简单的相似性搜索，还可以使用MultiQueryRetriever生成多个问题视角来检索，或用ContextualCompressionRetriever在检索后对文档进行压缩，只保留最相关的部分，以节省token。

3.4 代理（Agents）与工具（Tools）：让AI使用外部能力

代理是更高级的链，它的核心特点是可以根据用户的输入，动态地决定调用哪个工具（Tool），以及调用的顺序。工具可以是任何函数，比如搜索网络、查询数据库、执行计算、调用API。

构建一个高效代理的关键在于：

工具的描述（description）：必须清晰、精确地描述工具的功能。代理的“大脑”（通常是LLM）根据这个描述来决定是否使用该工具。例如，“一个用于获取当前天气的工具”就比“获取天气”要好。
提示词设计：代理有一个核心的“代理提示词”，它定义了代理的角色、可用工具列表以及决策格式（通常是ReAct格式：Thought, Action, Action Input, Observation）。这个提示词需要精心设计，以鼓励代理进行清晰的推理。
解析器（Output Parser）：必须能够可靠地解析模型输出的文本，提取出“Thought”、“Action”和“Action Input”。LangChain提供了ReActSingleInputOutputParser等解析器来处理标准格式。

在项目中，你会实践如何创建自定义工具（比如一个查询公司内部知识库的Python函数），并将其与一个强大的LLM（如gpt-4）结合，构建一个能真正解决复杂、开放式问题的智能体。

3.5 记忆（Memory）：管理对话状态

对于聊天应用，记忆是必不可少的。LangChain提供了多种记忆后端：

ConversationBufferMemory：简单地将所有历史对话记录在内存中。
ConversationBufferWindowMemory：只保留最近K轮对话，防止上下文过长。
ConversationSummaryMemory：让LLM自动总结之前的对话历史，然后只将摘要放入上下文。这是一种在有限token内保留长期记忆的巧妙方法。

选择哪种记忆取决于你的应用场景。对于需要详细上下文的深度讨论，缓冲区可能更好；对于闲聊机器人，摘要记忆可能更经济。在项目中，通常会教你如何将记忆组件集成到链或代理中，例如在ConversationalRetrievalQAChain中，记忆用于管理对话历史，而检索器用于从知识库中查找与当前对话相关的信息。

4. 实战演练：构建一个智能研究助手

让我们跟随项目的思路，动手构建一个相对复杂的应用：一个能联网搜索、阅读网页内容并整理摘要的智能研究助手。这个例子会串联起模型、提示词、链、代理和工具。

4.1 环境准备与工具定义

首先，安装核心依赖，并定义我们需要的工具。我们将需要两个工具：一个用于网络搜索，一个用于抓取并总结网页内容。

# 环境准备：安装必要的包 # pip install langchain langchain-openai langchain-community duckduckgo-search import os from langchain_openai import ChatOpenAI from langchain.agents import Tool, AgentExecutor, create_react_agent from langchain_community.utilities import DuckDuckGoSearchAPIWrapper from langchain.prompts import PromptTemplate from langchain.chains import LLMChain from langchain_community.document_loaders import WebBaseLoader from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.chains.summarize import load_summarize_chain from langchain.memory import ConversationBufferMemory # 初始化LLM，使用gpt-3.5-turbo以控制成本 llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0, openai_api_key=os.getenv("OPENAI_API_KEY")) # 工具1：网络搜索工具 search = DuckDuckGoSearchAPIWrapper() def duckduckgo_search(query): return search.run(query) search_tool = Tool( name="Web Search", func=duckduckgo_search, description="Useful for when you need to answer questions about current events or find recent information on the web. Input should be a search query." ) # 工具2：网页内容抓取与总结工具 def scrape_and_summarize(url: str) -> str: """抓取给定URL的网页内容，并进行总结。""" try: # 1. 加载网页内容 loader = WebBaseLoader(url) data = loader.load() # 2. 分割文本（因为网页可能很长） text_splitter = RecursiveCharacterTextSplitter(chunk_size=2000, chunk_overlap=200) docs = text_splitter.split_documents(data) # 3. 使用Map-Reduce方式进行总结 summary_chain = load_summarize_chain(llm, chain_type="map_reduce", verbose=False) summary = summary_chain.run(docs) return summary except Exception as e: return f"Error processing URL {url}: {str(e)}" scrape_tool = Tool( name="Scrape and Summarize Website", func=scrape_and_summarize, description="Useful for when you need to get a concise summary of the content from a specific website URL. Input should be a valid URL (starting with http:// or https://)." )

4.2 构建代理提示词与执行器

接下来，我们创建一个ReAct风格的代理，它将能够根据用户的问题，决定是直接搜索，还是先去抓取某个网页看看，或者结合两者。

from langchain import hub # 从LangChain Hub拉取一个优化过的ReAct提示词模板 # 你也可以完全自定义这个模板 prompt = hub.pull("hwchase17/react-chat") # 创建代理 tools = [search_tool, scrape_tool] agent = create_react_agent(llm, tools, prompt) # 创建代理执行器，并加入记忆功能以便进行多轮对话 memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True) agent_executor = AgentExecutor(agent=agent, tools=tools, memory=memory, verbose=True, handle_parsing_errors=True)

4.3 运行与交互

现在，我们可以运行这个研究助手了。

# 第一轮：询问一个需要搜索的问题 result1 = agent_executor.invoke({"input": "What are the latest breakthroughs in fusion energy research as of 2024?"}) print(result1["output"]) # 代理可能会决定使用“Web Search”工具，获取一些新闻链接，然后生成回答。 # 第二轮：基于之前的对话，要求它深入查看某个具体来源 result2 = agent_executor.invoke({"input": "Can you read the article from the MIT news website that you just found and give me a more detailed summary?"}) print(result2["output"]) # 这次代理可能会使用“Scrape and Summarize Website”工具，抓取MIT的新闻页面并进行总结。

在这个流程中，代理展示了其核心能力：自主决策。它根据你的问题“最新突破”决定先搜索；然后根据你的后续指令“阅读MIT的文章”，决定调用网页抓取工具。所有的工具调用、结果整合和最终回答生成，都由LangChain框架和代理逻辑自动完成。

实操心得：代理虽然强大，但也容易“失控”。它可能陷入循环调用，或者做出不符合预期的工具选择。因此，在生产环境中，务必设置max_iterations（最大迭代次数）参数来限制其“思考”步骤，并实现完善的错误处理和日志记录，以监控代理的决策过程。

5. 高级技巧与性能优化

5.1 输出解析（Output Parsing）确保结构化

很多时候，我们需要模型输出结构化的数据，比如一个包含“标题”、“作者”、“要点”列表的JSON对象，而不是一段自由文本。LangChain的PydanticOutputParser完美解决了这个问题。

from langchain.output_parsers import PydanticOutputParser from pydantic import BaseModel, Field from typing import List # 1. 定义你期望的数据结构 class ResearchSummary(BaseModel): topic: str = Field(description="The main topic of the research") key_findings: List[str] = Field(description="A list of 3-5 key findings") confidence_score: float = Field(description="A score from 0 to 1 indicating the model's confidence in this summary") source_urls: List[str] = Field(description="List of relevant source URLs") # 2. 创建解析器 parser = PydanticOutputParser(pydantic_object=ResearchSummary) # 3. 在提示词模板中，使用`get_format_instructions()`方法注入格式指令 prompt_template = PromptTemplate( template="Based on the following context, generate a structured research summary.\n{format_instructions}\nContext: {context}\nQuestion: {question}\n", input_variables=["context", "question"], partial_variables={"format_instructions": parser.get_format_instructions()} ) # 4. 创建链并运行 chain = prompt_template | llm | parser # LangChain新语法，表示顺序组合 context = "..." # 你的检索到的文档 question = "Summarize the research." result = chain.invoke({"context": context, "question": question}) # `result` 现在是一个`ResearchSummary`对象，可以直接访问 result.key_findings

这种方法强制模型输出机器可读的格式，极大地方便了后续的数据处理、存储或展示。

5.2 检索优化：超越简单相似性搜索

对于检索问答系统，检索质量直接决定最终答案的准确性。

多查询检索器（MultiQueryRetriever）：对于用户的一个问题，让LLM生成3-5个不同角度或表述的相似问题，然后用所有这些问题去检索。这能提高召回率，确保覆盖更全面的相关文档。
最大边际相关性（MMR）：在检索结果中，不仅要考虑与问题的相似度，还要考虑结果之间的多样性。MMR算法可以帮助你在高相关性的基础上，挑选出信息覆盖更全面的文档集合，避免冗余。
元数据过滤：如果你的文档带有元数据（如发布日期、作者、类别），可以在检索时加入过滤器，例如只检索2023年以后的文档，这能显著提升时效性。

5.3 流式传输（Streaming）与异步（Async）处理

对于需要实时反馈的应用（如聊天），流式传输至关重要。LangChain支持以流的方式逐步获取模型的token输出。

from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler streaming_llm = ChatOpenAI(streaming=True, callbacks=[StreamingStdOutCallbackHandler()], temperature=0) # 当调用 streaming_llm.invoke(...) 时，回答会逐词打印出来。

对于处理大量文档或并发用户请求，使用异步调用可以大幅提升吞吐量。

import asyncio async def async_generate(chain, inputs_list): tasks = [chain.ainvoke(inputs) for inputs in inputs_list] results = await asyncio.gather(*tasks) return results

6. 常见问题、调试与生产化考量

6.1 典型问题排查清单

问题现象	可能原因	排查步骤与解决方案
代理陷入循环，不停调用同一个工具。	1. 工具描述不清晰，导致代理无法理解其功能边界。 2. 提示词中缺少停止条件或鼓励最终回答的指令。 3.`max_iterations`设置过高。	1. 重写工具描述，使其更精确、具体。 2. 检查并修改代理提示词，确保包含类似“当你有了最终答案时，必须使用`Final Answer:`作为开头”的指令。 3. 降低`max_iterations`（如设为5）。启用`verbose=True`观察代理的思考过程。
检索问答链返回的答案与提供的上下文无关，甚至胡言乱语。	1. 检索到的文档块（chunk）质量差，可能分割不合理。 2. 提示词模板没有正确地将上下文和问题结合起来。 3. 模型温度（temperature）参数过高，导致随机性大。	1. 调整文本分割器的`chunk_size`和`chunk_overlap`。尝试不同的分割方法（如按标题分割）。 2. 检查提示词模板，确保有明确的指令如“请仅根据以下上下文回答问题”。 3. 将`temperature`设为0或一个很低的值（如0.1）。
输出解析器（PydanticOutputParser）频繁报错，提示格式不正确。	1. 模型没有严格遵守格式指令。 2. 提示词中的格式指令可能被其他内容干扰。 3. 任务对模型来说太复杂，无法稳定输出所需结构。	1. 使用更强大的模型（如`gpt-4`）进行结构化输出任务。 2. 在提示词中强化格式要求，例如将格式指令放在最前面，并使用“你必须”、“严格遵循”等词语。 3. 尝试使用`OutputFixingParser`，它可以用另一个LLM调用来自动修复格式错误的输出。
应用响应速度慢。	1. 顺序执行多个耗时的LLM调用。 2. 检索器处理大量文档速度慢。 3. 网络延迟。	1. 审查链的设计，看是否有步骤可以并行化（如使用`Async`）。 2. 为向量数据库建立索引，优化检索。考虑对文档进行预处理和筛选。 3. 为LLM调用设置合理的超时（timeout）参数，并考虑使用本地或更快的模型。

6.2 生产环境部署要点

配置管理：绝对不要将API密钥等敏感信息硬编码在代码中。使用.env文件和环境变量管理所有配置。考虑使用langchain的ChatOpenAI构造函数直接读取OPENAI_API_KEY环境变量。
错误处理与重试：网络请求和API调用总会失败。使用tenacity库为你的链或模型调用添加指数退避重试机制。对用户输入进行验证和清理，防止提示词注入攻击。
日志与监控：记录详细的日志，包括每次LLM调用的输入、输出、token使用量和耗时。这有助于调试、成本分析和性能优化。监控应用的延迟和错误率。
成本控制：为API密钥设置使用限额和告警。在开发阶段使用较便宜的模型。优化提示词和检索策略以减少不必要的token消耗。
版本化与测试：将你的提示词模板、链配置视为代码的一部分，进行版本控制。为关键链编写单元测试和集成测试，确保逻辑变更不会破坏现有功能。

通过这个“Get-Things-Done-with-Prompt-Engineering-and-LangChain”项目的思路进行实践，你学到的不仅仅是如何使用一个框架，更是一套构建可靠、可维护AI应用的工程化思维。从设计清晰的提示词模板，到选择合理的链与代理模式，再到最后的调试与生产部署，每一步都需要结合具体业务场景进行权衡和优化。记住，最好的工具和模式永远是那些能帮你清晰、高效地表达业务逻辑并稳定运行的那些。

查看全文

http://www.jsqmd.com/news/722810/