当前位置：首页 > news >正文

基于Amazon Bedrock与RAG模式构建企业级生成式AI应用实战指南

news 2026/5/10 2:22:37

1. 项目概述：当生成式AI遇见企业级应用蓝图

如果你最近也在关注生成式AI，并且思考着“这东西到底怎么用在我自己的业务里”，那么你很可能已经听说过或者搜索过这个项目。aws-samples/generative-ai-use-cases不是一个具体的产品，而是一个由亚马逊云科技官方维护的、汇集了大量真实世界生成式AI应用场景的代码示例库。它更像是一本由工程师写给工程师的“实战菜谱”，里面没有太多高深的理论，全是“如何用代码把想法实现出来”的具体方案。

这个项目的核心价值在于“连接”与“落地”。它连接了前沿的生成式AI能力（如大型语言模型LLM）与各行各业的具体业务问题，并通过亚马逊云科技的服务栈（如Amazon Bedrock, SageMaker等）提供了可运行的代码实现。对于开发者、架构师乃至业务决策者来说，它解决了从“知道AI能做什么”到“知道AI具体怎么做”之间的巨大鸿沟。你不是在看一份充满营销术语的白皮书，而是在看一个个可以直接克隆、部署、并根据自己需求修改的Jupyter Notebook或应用程序。

简单来说，这个项目回答了三个关键问题：生成式AI能解决哪些类型的业务问题？解决这些问题需要哪些技术组件？如何用代码将这些组件组合成一个可工作的系统？无论你是想构建一个智能客服、一个文档分析工具、一个代码助手，还是一个创意内容生成器，你都能在这里找到对应的、经过验证的参考架构和实现代码。接下来，我将带你深入拆解这个宝藏项目，看看它如何成为我们探索生成式AI应用落地的“瑞士军刀”。

2. 核心架构与设计哲学拆解

2.1 模块化与场景驱动的设计思路

打开aws-samples/generative-ai-use-cases的仓库，你会发现它的组织方式非常清晰，不是按照技术栈（比如“前端”、“后端”、“模型”）来划分，而是完全按照业务场景来组织。这是它第一个，也是最重要的设计哲学：场景驱动。常见的文件夹可能包括summarization（摘要生成）、question-answering（问答系统）、code-generation（代码生成）、chatbot（聊天机器人）、personalization（个性化推荐）等。

这种组织方式的好处是直击痛点。一个想解决“客服工单自动分类”问题的工程师，可以直接进入intent-classification相关的目录，里面包含了从数据准备、模型微调（如果需要）、到部署和集成的完整代码流。他不需要在庞大的代码库中寻找分散的组件，而是获得了一个端到端的解决方案模板。每个用例（use case）都是一个相对独立的“乐高模块”，内部自包含，减少了模块间的耦合，便于单独学习、测试和复用。

在技术实现上，项目大量采用了Jupyter Notebook作为演示载体。这是一个非常务实的选择。Notebook 允许将代码、运行结果、可视化图表和解释性文本（Markdown）自然地结合在一起，特别适合进行分步讲解和交互式探索。对于学习者而言，可以一边阅读说明，一边逐单元格（Cell）执行代码，立即看到效果，理解每一步的意图和输出。这种“所见即所得”的学习体验，远比阅读纯文本文档或API手册要高效得多。

2.2 基于Amazon Bedrock的服务化集成理念

项目的第二个核心设计理念是“服务化集成”而非“从零造轮子”。它强力依托于亚马逊云科技的AI/ML服务，尤其是Amazon Bedrock。Bedrock 是一个完全托管的服务，提供了通过统一的API来访问来自AI21 Labs、Anthropic、Cohere、Meta、Stability AI 和 Amazon 等多家领先公司的高性能基础模型（FM）。

为什么这个选择如此关键？它直接解决了生成式AI应用落地的几个核心痛点：

模型选择的复杂性：开发者无需深入比较和自行部署数十种不同的开源模型。Bedrock 提供了一个“模型超市”，开发者可以根据任务需求（如文本生成、图像生成、多模态）和成本考量，通过更换一个模型ID参数，轻松切换使用 Claude、Llama 2、Jurassic-2 等顶级模型。
基础设施管理的负担：训练和部署大模型需要强大的GPU实例和复杂的运维。Bedrock 以Serverless（无服务器）或托管终端节点的形式提供服务，开发者完全不用操心底层服务器的 provisioning、扩缩容、监控和打补丁。
安全与合规的基线：企业级应用必须考虑数据安全、模型输出的责任性（Responsible AI）。Bedrock 内建了数据加密（传输中和静态）、网络隔离（VPC支持）以及内容安全过滤等功能，为应用提供了一个符合企业治理要求的起点。

在项目的示例代码中，你会反复看到类似boto3.client(‘bedrock-runtime’)的调用。这标志着项目倡导的路径：用API调用服务，而非手动管理模型生命周期。这种理念将开发者的重心从繁重的基础设施工程，转移到了更具价值的应用逻辑和用户体验构建上。

2.3 全栈示例与渐进式复杂度

项目的第三个特点是提供了不同复杂度的全栈示例。它不仅包含在Notebook中运行的概念验证（POC），还包含了可以部署为真实Web应用或自动化流程的完整解决方案。

层级一：概念验证（Notebook）：这是最常见的类型。一个.ipynb文件，带你快速跑通一个场景的核心AI逻辑。例如，在summarization用例中，它可能展示如何调用Bedrock的Titan Text模型，输入一篇长文章，得到简洁的摘要。这是学习和原型设计的第一步。
层级二：集成应用（如Streamlit Web App）：很多用例提供了基于Streamlit或Gradio构建的简单Web界面。这演示了如何将Notebook中的AI能力“包装”成一个有前端交互的应用。例如，一个文档问答应用，会提供上传PDF、解析文本、向量化存储、然后通过聊天界面提问的完整流程。这类示例通常包含app.py,requirements.txt等文件，可以直接部署到云上或本地运行。
层级三：生产就绪架构（CDK/SAM模板）：对于更复杂的场景，项目会提供使用 AWS Cloud Development Kit (CDK) 或 AWS Serverless Application Model (SAM) 定义的“基础设施即代码”模板。这些模板可以一键式部署一个包含前端、后端API（Lambda/API Gateway）、向量数据库（Amazon Aurora PostgreSQL with pgvector 或 Amazon OpenSearch）、异步处理队列等组件的完整生产级架构。这展示了如何将AI能力无缝嵌入到现代化的、可扩展的云原生应用中。

这种渐进式的示例设计，照顾了不同阶段开发者的需求：从学习探索，到构建演示，再到搭建生产系统，你都能找到对应的参考。

注意：虽然项目提供了生产架构的蓝图，但直接用于高流量、高可用的核心业务系统前，仍需根据自身业务需求进行严格的安全评审、性能测试、容错设计和成本优化。示例代码更多是提供一种模式和最佳实践的参考。

3. 关键技术组件深度解析

3.1 提示词工程（Prompt Engineering）实战

在生成式AI应用中，提示词（Prompt）是“操控”模型行为的核心工具。aws-samples/generative-ai-use-cases项目堪称一部提示词工程的实战教科书。它没有空谈理论，而是在每一个具体的场景中，展示了如何设计有效的提示词。

1. 结构化提示（Structured Prompting）项目中的示例很少使用单句提问。相反，它们大量采用多角色、分步骤的结构化提示。例如，在一个“会议纪要生成”的用例中，提示词可能会被设计成这样：

你是一个专业的会议秘书。请根据以下会议转录文本，完成以下任务： 1. 提取关键决策点。 2. 识别分配给具体人员的行动项（Action Items）。 3. 生成一份简洁的会议纪要，突出未决事项。 请严格按照以下JSON格式输出： { "decisions": [列表], "action_items": [{"person": "姓名", "task": "任务", "deadline": "日期"}], "summary": "字符串" } 会议转录文本：[此处插入文本]

这种提示明确了角色（秘书）、任务分解（三步）和输出格式（JSON）。它极大地提高了模型输出结果的结构化程度和可控性，使得后端代码可以直接解析JSON，而无需处理自由文本，降低了后续处理的复杂性。

2. 少样本学习（Few-Shot Learning）对于需要特定风格或复杂逻辑的任务，项目示例会采用“少样本学习”技术。即在提示词中提供几个输入-输出的例子（通常2-5个），让模型通过类比来学习。比如，在一个“客户邮件情感分析与分类”用例中，提示词可能如下：

请判断以下客户邮件的情感倾向（积极、消极、中性）和紧急程度（高、中、低）。 示例1： 输入：“产品很好用，问题很快解决了，谢谢！” 输出：{"sentiment": "积极", "urgency": "低"} 示例2： 输入：“系统又崩溃了，这严重影响了我的工作，请立即回复！” 输出：{"sentiment": "消极", "urgency": "高"} 现在请判断： 输入：“[待分类的邮件内容]” 输出：

这种方法能以极低的成本（无需重新训练模型）“教会”模型理解你自定义的分类标准，是快速定制化AI行为的利器。

3. 思维链（Chain-of-Thought, CoT）提示对于需要推理或多步骤思考的问题，项目会引导模型“展示其思考过程”。例如，在一个数学或逻辑问题中，提示词会要求：“请一步步推理，并给出最终答案。” 虽然Bedrock的某些模型（如Claude）内建了强大的推理能力，但显式地要求CoT可以进一步提高复杂任务上的准确性和可靠性。

实操心得：在编写提示词时，一个非常实用的技巧是使用“三重引号”来包裹变量输入（如用户问题、长文档）。这能清晰地将指令部分与动态数据部分分隔开，避免模型混淆。同时，将最重要的指令放在提示词的开头或结尾，因为模型对这些位置的注意力可能更高。

3.2 检索增强生成（RAG）模式详解

“检索增强生成”（Retrieval-Augmented Generation, RAG）是当前企业级生成式AI应用中最重要、最实用的架构模式。aws-samples/generative-ai-use-cases中有大量示例（如文档问答、知识库聊天机器人）都基于此模式构建。它的核心思想是：不让模型凭空想象，而是让它基于检索到的、相关的、可信的知识来生成答案。

一个典型的RAG应用流程在项目中会被拆解为以下几个清晰步骤：

步骤1：文档摄取与预处理原始文档（PDF、Word、HTML、数据库表）需要被转换成模型可以处理的格式。代码示例通常会使用像PyPDF2,docx,BeautifulSoup这样的库来提取纯文本。然后，文本被分割成大小适中的“块”（Chunks）。分块策略是关键：

固定大小分块：简单，但可能割裂语义。
基于分隔符分块（如按段落、标题）。
语义分块：使用嵌入模型（Embedding Model）计算句子相似度，在语义边界处切割。项目中的示例通常会演示多种分块方法，并讨论其优劣。

步骤2：向量化与存储每个文本块通过一个嵌入模型（如Bedrock提供的Titan Embeddings模型）转换为一个高维度的向量（一组浮点数）。这个向量在数学空间中的位置代表了文本的语义。所有文本块的向量被存入一个向量数据库中。项目常演示与以下服务的集成：

Amazon OpenSearch Service（带有k-NN插件）：功能全面，适合复杂搜索场景。
Amazon Aurora PostgreSQL（带有pgvector扩展）：利用现有关系型数据库技能，简化架构。
Pinecone（第三方服务）：专为向量搜索优化的托管服务。代码会展示如何建立索引、插入向量和关联的原始文本。

步骤3：检索与生成当用户提出一个问题时：

查询向量化：将用户问题用同样的嵌入模型转换为向量。
相似度搜索：在向量数据库中搜索与问题向量最相似的K个文本块（例如，使用余弦相似度）。
构造增强提示：将检索到的相关文本块作为“上下文”，与原始问题一起，构造一个增强的提示词，例如：“请基于以下上下文回答问题。如果上下文不包含答案，请说‘根据提供的信息无法回答’。上下文：[检索到的文本块1] [检索到的文本块2] ... 问题：[用户问题]”
调用LLM生成答案：将此增强提示发送给Bedrock上的文本生成模型（如Claude），得到最终答案。

提示：RAG效果的“天花板”取决于检索质量。如果检索到的文本块不相关，LLM再强大也无法给出好答案。因此，优化文本分块策略、选择高质量的嵌入模型、以及调整检索的相似度阈值（Top K）和分数阈值，是调优RAG系统的关键。

3.3 多模态与智能体（Agent）应用初探

项目不仅限于文本，也探索了生成式AI的更前沿领域。

多模态应用：例如，在“图像描述生成”或“基于文本的图像生成”用例中，项目会展示如何调用Bedrock上的Stable Diffusion或Amazon Titan Image模型。代码会演示如何将图像编码为Base64格式发送给API，或者如何解析模型返回的图像二进制数据并保存为文件。这为构建内容创作、电商产品图生成、无障碍阅读等应用提供了起点。

智能体（Agent）模式：这是更高级的应用形态，让AI不仅能回答问题，还能代表用户执行操作。项目中的一些示例开始探索如何利用模型的“函数调用”（Function Calling）或“工具使用”（Tool Use）能力。例如，一个“智能旅行规划助手”的雏形可能包含以下逻辑：

模型理解用户请求：“帮我规划一个下周末去西雅图的行程，要包含太空针塔。”
模型识别出需要调用外部工具：查询天气API、搜索酒店信息、查询景点开放时间。
应用代码中预定义了这些工具的调用方式（函数）。
模型生成一个结构化的请求，如{“function_name”: “search_attractions”, “arguments”: {“location”: “Seattle”, “keyword”: “Space Needle”}}。
应用代码执行该函数，获取真实数据（如景点门票价格和开放时间）。
将数据返回给模型，模型综合所有信息，生成一份完整的行程规划报告。

虽然项目中的智能体示例可能相对基础，但它清晰地展示了构建“自主执行任务AI”的技术路径：LLM作为大脑进行规划和决策，外部工具作为手脚来获取信息和改变世界。

4. 典型用例实现流程全解析

让我们以一个具体的、企业中最常见的场景——“基于企业知识库的智能问答系统”为例，详细拆解项目是如何一步步实现它的。这个用例通常位于rag或question-answering目录下。

4.1 环境准备与依赖安装

第一步永远是搭建工作环境。示例通常会提供一个requirements.txt文件，里面列出了所有必要的Python库。核心依赖通常包括：

boto3: AWS SDK for Python，用于调用Bedrock等AWS服务。
langchain或llama-index: 这两个是当前构建LLM应用最流行的框架。项目早期可能多用langchain，它提供了连接器、链（Chains）、智能体等高级抽象。值得注意的是，为了追求更透明和可控的实现，许多最新的示例开始倾向于使用更底层的、直接调用Bedrock API的方式，或者结合使用langchain的核心组件。
文档处理库：如pypdf,python-docx,beautifulsoup4。
向量数据库客户端：如opensearch-py,pgvector的Psycopg2驱动。
streamlit或gradio: 用于构建Web界面的轻量级框架。

项目会指导你在AWS上完成先决条件：创建一个具有Bedrock模型访问权限的IAM用户/角色，并获取访问密钥；在目标区域（如us-east-1）确保需要使用的Bedrock模型（如anthropic.claude-3-sonnet-20240229-v1:0）已处于“可访问”状态。

4.2 知识库构建：从文档到向量

这是RAG系统的基石，也是最需要细致处理的环节。示例代码会引导你完成以下子步骤：

1. 文档加载与解析代码会定义一个函数，根据文件扩展名选择对应的加载器。例如：

from langchain.document_loaders import PyPDFLoader, Docx2txtLoader, UnstructuredHTMLLoader import os def load_document(file_path): ext = os.path.splitext(file_path)[1].lower() if ext == '.pdf': loader = PyPDFLoader(file_path) elif ext in ['.docx', '.doc']: loader = Docx2txtLoader(file_path) elif ext == '.html': loader = UnstructuredHTMLLoader(file_path) else: raise ValueError(f"Unsupported file type: {ext}") documents = loader.load() return documents

每个被加载的document对象通常包含页面内容和元数据（如来源、页码）。

2. 文本分块（Chunking）这是影响检索精度的关键一步。项目会展示不同的分块策略。例如，使用langchain的RecursiveCharacterTextSplitter：

from langchain.text_splitter import RecursiveCharacterTextSplitter text_splitter = RecursiveCharacterTextSplitter( chunk_size=1000, # 每个块的字符数 chunk_overlap=200, # 块之间的重叠字符数，避免语义割裂 length_function=len, separators=["\n\n", "\n", "。", "，", " ", ""] # 分隔符优先级 ) chunks = text_splitter.split_documents(documents)

chunk_size需要权衡：太小则信息碎片化，太大则可能包含无关信息干扰检索。chunk_overlap能保证上下文连贯性，是一个常用技巧。

3. 生成嵌入向量并存储接下来，为每个文本块生成向量并存入数据库。示例会演示如何初始化Bedrock的嵌入模型客户端和向量数据库连接。

import boto3 from langchain.embeddings import BedrockEmbeddings # 初始化Bedrock嵌入客户端 bedrock_runtime = boto3.client(service_name='bedrock-runtime', region_name='us-east-1') embeddings = BedrockEmbeddings(client=bedrock_runtime, model_id='amazon.titan-embed-text-v1') # 假设使用OpenSearch作为向量库 from opensearchpy import OpenSearch, RequestsHttpConnection from langchain.vectorstores import OpenSearchVectorSearch # 连接OpenSearch集群 docsearch = OpenSearchVectorSearch.from_documents( documents=chunks, embedding=embeddings, opensearch_url="https://your-opensearch-domain.com", http_auth=(‘master-user’, ‘password’), use_ssl=True, verify_certs=True, index_name="company-knowledge-base", )

执行这段代码后，你的所有文档块就以向量的形式被索引到了company-knowledge-base这个OpenSearch索引中，随时准备被检索。

4.3 问答链的构建与集成

知识库就绪后，下一步是构建处理用户查询的“问答链”。这个链将检索、提示构造和生成三个步骤串联起来。

1. 检索器（Retriever）设置从向量库中创建一个检索器对象，可以设置检索返回的相似文本块数量（k）以及相似度分数阈值。

retriever = docsearch.as_retriever( search_type="similarity", # 相似度搜索 search_kwargs={"k": 4} # 返回最相似的4个块 )

2. 提示模板设计定义一个用于构造增强提示的模板。这是提示词工程的具体体现。

from langchain.prompts import PromptTemplate prompt_template = """ 请仅根据以下提供的上下文信息来回答问题。如果上下文信息不足以回答问题，请直接回答“根据已知信息无法回答此问题”，不要编造信息。 上下文信息： {context} 问题：{question} 请用中文给出清晰、准确的答案： """ PROMPT = PromptTemplate( template=prompt_template, input_variables=["context", "question"] )

3. 构建LangChain链或自定义流程你可以使用langchain的RetrievalQA链快速组装：

from langchain.chains import RetrievalQA from langchain.llms import Bedrock llm = Bedrock(client=bedrock_runtime, model_id="anthropic.claude-3-sonnet-20240229-v1:0") qa_chain = RetrievalQA.from_chain_type( llm=llm, chain_type="stuff", # 将所有检索到的上下文“塞”进提示词 retriever=retriever, chain_type_kwargs={"prompt": PROMPT}, return_source_documents=True # 返回来源文档，便于溯源 )

或者，为了更精细的控制，你可以完全自定义流程：

def answer_question(question): # 1. 检索 relevant_docs = retriever.get_relevant_documents(question) context = "\n\n".join([doc.page_content for doc in relevant_docs]) # 2. 构造提示 formatted_prompt = PROMPT.format(context=context, question=question) # 3. 调用LLM response = llm.invoke(formatted_prompt) # 4. 返回结果和来源 return {"answer": response, "sources": relevant_docs}

4. 集成Web界面（以Streamlit为例）最后，用一个简单的Web界面将这一切包装起来，形成一个完整的应用。

import streamlit as st st.title("企业知识库智能问答系统") st.markdown("上传您的文档，然后就可以针对文档内容提问了。") uploaded_files = st.file_uploader("选择知识文档（PDF/DOCX）", accept_multiple_files=True, type=['pdf', 'docx']) if uploaded_files: # 这里应调用之前定义的文档处理函数，将文件存入向量库 # 为了示例简化，假设知识库已预先构建好 pass question = st.text_input("请输入您的问题：") if question: with st.spinner("正在思考..."): result = answer_question(question) # 调用上面的问答函数 st.success("答案：") st.write(result["answer"]) with st.expander("查看答案来源"): for i, doc in enumerate(result["sources"]): st.caption(f"来源片段 {i+1}: {doc.page_content[:200]}...") st.caption(f"元数据: {doc.metadata}")

运行这段Streamlit代码，一个具备文档上传、处理、问答和答案溯源功能的简易知识库系统就搭建完成了。

5. 部署考量、成本优化与常见问题排查

5.1 从原型到生产的部署策略

在Notebook里跑通和部署一个可供多人使用的稳定服务是两回事。项目中的CDK/SAM示例为我们指明了生产部署的路径，但其中有许多细节需要仔细考量。

1. 无服务器架构 vs. 容器化部署

无服务器（Serverless）：这是项目推荐的主流方式，尤其适合交互式、请求量波动大的应用。使用AWS Lambda运行你的应用后端（如问答API），用Amazon API Gateway提供HTTP接口，用Amazon S3存储原始文档，用AWS Step Functions编排文档处理的异步工作流。这种架构的优势是近乎无限的扩展性和按使用量付费，运维负担极低。CDK示例通常会采用这种模式。
容器化部署：如果你的应用需要长时间运行的进程、较大的内存依赖（如某些特定的Python库），或者你需要对运行环境有极致的控制，那么将应用打包成Docker容器，部署到Amazon ECS（弹性容器服务）或Amazon EKS（Kubernetes服务）上是更合适的选择。这提供了更强的环境一致性和灵活性，但需要管理集群和容器编排。

2. 向量数据库的选型与优化生产环境中，向量数据库的选择至关重要。

吞吐量与延迟：OpenSearch在复杂过滤和全文检索结合向量搜索的场景下表现优异，但纯向量搜索的延迟可能高于专用向量数据库。Pinecone、Weaviate等托管服务在纯向量检索的延迟和吞吐量上通常有更好表现。
数据持久性与一致性：Aurora with pgvector 提供了ACID事务保证，如果你的知识库数据需要与其他关系型数据强一致，这是很好的选择。
索引管理：随着知识库文档增多，需要定期重建或增量更新向量索引。生产系统需要设计一个稳健的索引更新流水线，可能由S3文件上传事件触发一个Lambda函数来处理。

3. 安全与权限

网络隔离：将Lambda函数、Bedrock终端节点、向量数据库都部署在私有子网（Private Subnet）中，通过VPC端点（VPC Endpoint）访问，避免数据在公网传输。
IAM权限最小化：为每个Lambda函数或任务角色分配精确到API操作级别的最小权限。例如，处理文档的Lambda只需要S3读取权限和Bedrock调用权限，不需要管理权限。
内容安全过滤：利用Bedrock内置的Guardrails功能或自行在应用层添加过滤逻辑，对模型的输入和输出进行审查，防止生成不当内容。

5.2 成本监控与优化技巧

生成式AI应用，尤其是调用托管API，成本可能快速上升。必须建立成本意识。

1. 主要成本构成

Bedrock模型调用费：这是大头。分为输入令牌（Input Tokens）和输出令牌（Output Tokens）计费。不同模型单价差异很大（如Claude-3 Opus比Haiku贵很多）。提示词越长、回答越长，费用越高。
向量数据库费用：OpenSearch/Aurora的实例费用、存储费用和IO费用。
计算与存储费用：Lambda执行时长、S3存储、网络数据传输等。

2. 关键优化策略

提示词精简：优化你的提示词模板，移除不必要的指令和示例（Few-Shot），在保证效果的前提下尽可能缩短提示长度。对用户输入进行预处理，过滤无关信息。
缓存策略：对常见、重复的问题答案进行缓存。可以使用Amazon ElastiCache（Redis）来缓存问题->答案的键值对。这能显著减少对Bedrock和向量数据库的调用。
模型选型：并非所有任务都需要最强大的模型。可以采用分层模型策略：对于简单的问答，使用成本更低的模型（如Claude-3 Haiku）；对于需要复杂推理、创意写作的任务，再路由到更强大的模型（如Claude-3 Sonnet/Opus）。在Bedrock上切换模型通常只需更改一个参数。
异步与批处理：对于文档处理、报告生成等非实时任务，采用异步队列（如Amazon SQS）和批处理，可以更有效地利用资源，并可能享受到某些服务的批量折扣。
监控与告警：使用Amazon CloudWatch设置成本监控仪表盘和告警。重点关注Bedrock的令牌消耗指标和月度预估费用。为不同的开发、测试、生产环境设置独立的AWS账户或成本标签（Cost Allocation Tags），以便精准核算。

5.3 常见问题与故障排查实录

在实际操作中，你一定会遇到各种问题。以下是一些典型问题及其排查思路：

问题1：调用Bedrock API时收到AccessDeniedException或ModelNotAccessibleException。

排查：
1. 检查IAM权限：确保执行代码的IAM角色或用户附加了bedrock:InvokeModel权限，并且资源（Resource）部分指定了正确的模型ARN或使用*。
2. 检查模型可用区：登录AWS控制台，进入Bedrock服务，在“模型访问”中，确认你尝试调用的模型在目标区域（Region）已“请求访问”并被批准。不同区域的模型访问是独立的。
3. 检查网络：如果代码运行在VPC内的Lambda或EC2中，确保VPC有连接到Bedrock服务终端节点（Endpoint）的路由（通常通过VPC端点或NAT网关）。

问题2：RAG系统返回的答案与提供的上下文无关，甚至“胡言乱语”。

排查：
1. 检查检索结果：首先，打印或记录下每次查询时实际检索到的文本块（source_documents）。看看它们是否真的与问题相关。如果不相关，问题出在检索阶段。
2. 优化检索：尝试调整k值（返回的块数量），增加或减少。尝试使用不同的相似度算法（如search_type=”mmr”最大边际相关性，可以在相关性和多样性间平衡）。检查文本分块策略是否合适，块是否太大或太小。
3. 检查提示词：确认你的提示词模板是否清晰、强硬地要求模型“仅根据上下文回答”。在提示词中加入“如果上下文不包含相关信息，请回答‘我不知道’”，可以强制模型避免幻觉。
4. 检查上下文长度：如果检索到的上下文总长度超过了模型的最大上下文窗口（Context Window），超出的部分会被截断。确保chunk_size * k不超过模型限制。

问题3：应用响应速度慢，用户体验差。

排查：
1. 性能剖析：使用代码计时工具，测量从接收请求到返回答案的每个步骤耗时：检索向量数据库、调用嵌入模型（针对问题）、调用LLM生成答案。找到瓶颈。
2. 向量数据库优化：检查向量数据库的索引类型和配置。对于OpenSearch，确保使用了HNSW等高效的近似最近邻（ANN）算法索引。考虑将向量数据库实例升级到更强大的类型。
3. LLM调用优化：Bedrock的某些模型（如Claude）支持流式响应（Streaming）。对于长文本生成，使用流式可以边生成边返回，让用户感觉更快。同时，设置合理的超时和重试机制。
4. 引入缓存：如前所述，对常见问答对实施缓存是提升性能最有效的手段之一。

问题4：处理长文档或大量文档时，内存不足或超时。

排查：
1. 异步处理：将文档处理流程设计为异步。用户上传文档后，立即返回“处理中”状态，后台触发一个Lambda函数或ECS任务进行耗时的向量化处理，处理完成后再通知用户。避免在Web请求的同步路径中进行大量计算。
2. 分批处理：在代码中，将文档分块、向量化、存入数据库的操作分批进行，每处理一定数量后稍作休眠，避免一次性占用过多内存或触发数据库速率限制。
3. 资源升级：如果是Lambda函数，增加其配置的内存（CPU会随之按比例增加）。如果是容器，调整ECS任务或EKS Pod的内存和CPU限制。

通过深入研究aws-samples/generative-ai-use-cases这个项目，并动手实践其中的示例，你不仅能快速获得一系列可运行的生成式AI应用，更能系统地掌握其背后的设计模式、最佳实践和避坑指南。它就像一位经验丰富的云架构师和AI工程师，将复杂的生成式AI落地之路，拆解成了一个个清晰、可执行的步骤。剩下的，就是结合你自己的业务数据和场景，去改造、优化和创新了。记住，最好的学习方式永远是：克隆代码，运行它，修改它，然后构建属于你自己的东西。

查看全文

http://www.jsqmd.com/news/786655/