当前位置：首页 > news >正文

AI原生应用上下文理解：为智能交互添砖加瓦

news 2026/3/26 22:58:51

AI原生应用的“上下文Sense”：让智能交互从“答非所问”到“心有灵犀”

关键词

摘要

你有没有过这样的经历？问AI“推荐一部科幻电影”，得到答案后接着问“有没有国语版”，AI却回复“请提供具体电影名称”；或者用AI写作时，刚写了一段“科技改变生活”，让它续写却跳出“爱情故事”的内容——这些“答非所问”的背后，是AI缺乏“上下文Sense”。

AI原生应用（AI-Native App）的核心突破，正是把“上下文理解”从“附加功能”变成“底层逻辑”。本文将用生活化的比喻拆解“上下文”的本质，用可落地的代码展示如何让AI“记住”对话历史，用真实场景说明上下文理解如何提升用户体验，最终带你看清“让AI更懂人”的底层逻辑。

无论你是想优化AI产品的开发者、想设计更好交互的产品经理，还是单纯好奇“AI为什么能懂我”的爱好者，这篇文章都会帮你打通“上下文理解”的任督二脉。

一、背景：从“工具”到“助手”，AI需要“懂上下文”

1.1 传统AI的痛点：没有“记忆”的对话机器

在AI原生应用出现前，大多数AI交互更像“一次性工具”——你问一句，它答一句，完全不记得上一句说了什么。比如：

你问：“北京今天下雨吗？”→ AI答：“有小雨，气温18℃。”
你接着问：“需要带伞吗？”→ AI答：“请提供具体城市。”

这不是AI“笨”，而是传统AI的设计逻辑是**“单轮指令执行”**：每一次交互都是独立的，没有“记忆”功能。就像你去便利店买水，每次都要重新说“我要一瓶可乐”——店员不会记得你昨天买过什么。

1.2 AI原生应用的本质：以“上下文”为核心的交互

AI原生应用的定义很简单：从底层架构开始，就为“理解上下文”设计。比如ChatGPT的多轮对话、Notion AI的文档续写、GitHub Copilot的代码补全，它们的共同特点是——能“记住”你之前说的话、做的事，并以此调整响应。

举个例子：用Notion AI写一篇关于“AI上下文理解”的文章，你先写了一句“上下文是AI交互的灵魂”，然后输入“展开讲讲”，Notion AI会自动关联前面的“灵魂”比喻，从“为什么是灵魂”“如何实现”展开，而不是跳到无关的话题。

1.3 核心挑战：让AI“高效管理上下文”

上下文理解的难点，不是“记住”——而是“高效地记住、准确地关联、智能地更新”：

长对话过载：如果AI记住所有对话，会超出模型的token限制（比如GPT-3.5-turbo的4k tokens约等于3000字）；
跨场景迁移：用户从“购物”转到“客服”，AI需要区分“买衣服的退货地址”和“咨询发票的地址”；
歧义消除：用户说“苹果”，是水果还是手机？需要结合历史行为判断。

二、核心概念：用“生活化比喻”看懂上下文

在讲技术前，我们先把“上下文”这个抽象概念“翻译”成生活场景——上下文就是“对话的前情提要+隐藏信息”。

2.1 什么是“上下文”？对话的“隐形说明书”

想象你和朋友聊天：

你说：“昨天的电影太烂了！”→ 朋友立刻懂“昨天的电影”是你们前天约好要去看的《XXXX》（历史对话上下文）；
朋友问：“那你还去看续集吗？”→ 你说：“算了，我对科幻片本来就没兴趣”→ 朋友懂你“没兴趣”是因为“科幻片”（用户偏好上下文）；
你接着说：“今天有点冷”→ 朋友看了眼窗外的雨，立刻递来外套（环境场景上下文）。

AI的“上下文”就是这三类信息的总和：

类型	例子
历史对话上下文	用户之前问过“科幻电影推荐”
用户画像上下文	用户是“科技爱好者”“喜欢国语配音”
环境场景上下文	当前时间是“晚上8点”“用户在手机端”

2.2 AI原生应用的“上下文理解”：不是“记”，是“关联”

传统AI的“记忆”是“死记硬背”——把所有对话存在数据库里，用户问什么就查什么；而AI原生应用的“上下文理解”是**“活的关联”**：

能从历史对话中“提取关键信息”（比如“用户想要8000元的轻薄本”）；
能把新输入和旧信息“自动关联”（比如用户问“它的续航怎么样”，AI知道“它”指“之前推荐的轻薄本”）；
能“动态更新”上下文（比如用户后来改要“游戏本”，AI会替换之前的“轻薄本”信息）。

用比喻来说：传统AI是“只会查字典的学生”，你问“苹果”它就翻“苹果”的词条；AI原生应用是“会听故事的朋友”，你说“苹果”它会先想“你之前说过喜欢吃水果还是买手机”。

2.3 上下文理解的“五步法”：从捕捉到利用

上下文理解的核心流程，可以总结为**“捕捉→表示→存储→更新→利用”**，用Mermaid流程图展示：

渲染错误:Mermaid 渲染失败: Parse error on line 3: ...mbedding把“轻薄本推荐”转成向量[0.8, 0.3, -0.2]] -----------------------^ Expecting 'SQE', 'DOUBLECIRCLEEND', 'PE', '-)', 'STADIUMEND', 'SUBROUTINEEND', 'PIPE', 'CYLINDEREND', 'DIAMOND_STOP', 'TAGEND', 'TRAPEND', 'INVTRAPEND', 'UNICODE_TEXT', 'TEXT', 'TAGSTART', got 'SQS'

三、技术原理：让AI“懂上下文”的底层密码

现在进入“硬核环节”——但不用担心，我们会用“图书馆找书”“翻译机”这样的比喻，把复杂技术讲成“生活故事”。

3.1 第一步：上下文的“翻译”——向量嵌入（Embedding）

AI看不懂文字，只能看懂数字。所以第一步要把“上下文”从“文字”翻译成“数字向量”——这就是向量嵌入（Embedding）。

3.1.1 什么是向量嵌入？文字的“数字DNA”

想象你有一本“文字字典”，每个词都对应一个“坐标点”：

“苹果（水果）”→ 坐标（0.2, -0.5, 0.7）；
“苹果（手机）”→ 坐标（0.8, 0.3, -0.2）；
“香蕉”→ 坐标（0.1, -0.4, 0.6）。

这些坐标点就是“向量”。相似的文字，坐标点离得近（比如“苹果（水果）”和“香蕉”）；不同的文字，坐标点离得远（比如“苹果（水果）”和“苹果（手机）”）。

3.1.2 如何生成向量？用“Embedding模型”做翻译

常用的Embedding模型有：

OpenAI的text-embedding-3-small（适用于通用场景）；
Google的BERT（适用于特定领域，比如医疗、法律）；
Meta的LLaMA（开源，可本地部署）。

用Python代码生成向量的例子（以OpenAI为例）：

fromopenaiimportOpenAI client=OpenAI()# 定义要嵌入的文本（历史对话）texts=["用户问：推荐8000元的轻薄本","AI答：联想小新Pro14、华为MateBook 14s"]# 生成向量response=client.embeddings.create(input=texts,model="text-embedding-3-small")# 输出向量（每个文本对应一个1536维的向量）fori,embeddinginenumerate(response.data):print(f"文本{i+1}的向量：{embedding.embedding[:5]}...")# 只显示前5维

运行结果：

文本1的向量：[-0.0234, 0.0125, -0.0089, 0.0342, 0.0117]... 文本2的向量：[-0.0212, 0.0131, -0.0094, 0.0335, 0.0123]...

3.1.3 为什么向量能表示上下文？相似性的魔法

向量的核心价值是**“用数字衡量相似性”。比如用户输入“它的续航怎么样？”，生成的向量是[-0.022, 0.0128, -0.0091, 0.0338, 0.0120]——和“AI答：联想小新Pro14、华为MateBook 14s”的向量余弦相似度**是0.98（接近1，说明非常相似），所以AI能快速关联到“轻薄本推荐”的上下文。

余弦相似度的公式（用LaTeX表示）：
cos ⁡ ( θ ) = Q ⋅ C ∥ Q ∥ ∥ C ∥ \cos(\theta) = \frac{\mathbf{Q} \cdot \mathbf{C}}{\|\mathbf{Q}\| \|\mathbf{C}\|}cos(θ)=∥Q∥∥C∥Q⋅C

Q \mathbf{Q}Q：用户输入的向量；
C \mathbf{C}C：历史上下文的向量；
Q ⋅ C \mathbf{Q} \cdot \mathbf{C}Q⋅C：向量点积（衡量方向一致性）；
∥ Q ∥ \|\mathbf{Q}\|∥Q∥、∥ C ∥ \|\mathbf{C}\|∥C∥：向量的模长（衡量长度）。

简单来说：余弦相似度越接近1，说明两个向量的“方向”越一致——也就是“上下文越相关”。

3.2 第二步：上下文的“存储”——向量数据库（Vector DB）

生成向量后，需要一个“图书馆”来存储这些向量，方便快速找到“相似的上下文”——这就是向量数据库（Vector Database）。

3.2.1 向量数据库 vs 传统数据库：从“按关键词查”到“按相似性查”

传统数据库（比如MySQL）是“按关键词匹配”——你要查“轻薄本推荐”，必须输入“轻薄本”这三个字；而向量数据库是“按相似性匹配”——你输入“它的续航怎么样”，它能找到“轻薄本推荐”的上下文，因为它们的向量相似。

用比喻来说：传统数据库是“图书馆的分类目录”，你要找“科幻小说”必须去“文学类→科幻”；向量数据库是“图书馆的智能助手”，你说“我想看关于未来的书”，它会直接带你去“科幻小说区”。

3.2.2 常用的向量数据库

名称	特点	适用场景
Pinecone	托管式，支持大规模数据	企业级应用
Weaviate	开源，支持多模态（文本+图像）	自定义需求
Chroma	轻量，适合本地开发	原型验证

3.2.3 用Chroma存储上下文的代码示例

fromlangchain.embeddingsimportOpenAIEmbeddingsfromlangchain.vectorstoresimportChroma# 初始化Embedding模型和向量数据库embeddings=OpenAIEmbeddings(model="text-embedding-3-small")vector_db=Chroma(persist_directory="./chroma_db",# 存储路径embedding_function=embeddings# 用什么模型生成向量)# 要存储的历史上下文history_texts=["用户：我想买8000元的轻薄本","AI：推荐联想小新Pro14、华为MateBook 14s","用户：这些电脑的重量是多少？","AI：小新Pro14约1.3kg，MateBook 14s约1.4kg"]# 存储到向量数据库vector_db.add_texts(texts=history_texts,metadatas=[{"source":"conversation","user_id":"user_123"}for_inhistory_texts]# 元数据（方便过滤）)# 检索相似上下文：用户问“它的续航怎么样？”query="它的续航怎么样？"retrieved_docs=vector_db.similarity_search(query=query,k=2# 取最相似的2条)# 输出检索结果print("检索到的上下文：")fordocinretrieved_docs:print(f"-{doc.page_content}")

运行结果：

检索到的上下文： - AI：推荐联想小新Pro14、华为MateBook 14s - 用户：这些电脑的重量是多少？

3.3 第三步：上下文的“更新”——解决长对话过载

如果对话越长，存储的上下文越多，向量数据库的检索速度会变慢，而且会超出LLM的token限制（比如GPT-3.5-turbo的4k tokens）。这时需要**“上下文压缩”**——保留重要的，删掉无关的。

3.3.1 常用的压缩方法

滑动窗口（Sliding Window）：只保留最近的N轮对话。比如设置窗口大小为5，对话到第6轮时，删掉第1轮的内容。
摘要记忆（Summary Memory）：用LLM把历史对话总结成一段摘要，减少token数量。比如把10轮对话总结成“用户想买8000元的轻薄本，AI推荐了小新Pro14和MateBook 14s，用户问了重量”。
重要性过滤（Importance Filtering）：用注意力机制（Attention）给每轮对话打分，保留分数高的。比如“推荐轻薄本”的分数是0.9，“问重量”的分数是0.8，“闲聊天气”的分数是0.1，只保留前两个。

3.3.2 用LangChain实现摘要记忆的代码示例

LangChain是一个AI应用开发框架，内置了多种“记忆模块”，比如ConversationSummaryMemory：

fromlangchain.chat_modelsimportChatOpenAIfromlangchain.chainsimportConversationChainfromlangchain.memoryimportConversationSummaryMemory# 初始化LLM和记忆模块llm=ChatOpenAI(temperature=0,model_name="gpt-3.5-turbo")memory=ConversationSummaryMemory(llm=llm)# 用LLM生成摘要# 初始化对话链conversation=ConversationChain(llm=llm,memory=memory)# 测试对话print(conversation.predict(input="你好，我叫小明。"))print(conversation.predict(input="我想买8000元的轻薄本。"))print(conversation.predict(input="有没有续航久的推荐？"))print(conversation.predict(input="它的重量是多少？"))# 查看总结后的记忆print("\n总结后的上下文：")print(memory.load_memory_variables({})["history"])

运行结果：

你好小明！有什么可以帮你的吗？ 好的，8000元左右的轻薄本有很多不错的选择，比如联想小新Pro14、华为MateBook 14s、戴尔灵越14 Plus等。这些机型都兼顾轻薄和性能，具体看你的需求～ 根据你的需求，推荐联想小新Pro14（续航约12小时）、华为MateBook 14s（续航约10小时），都是轻薄本中续航表现较好的。 联想小新Pro14约1.3kg，华为MateBook 14s约1.4kg，都很便携～ 总结后的上下文： 小明想买8000元的轻薄本，AI推荐了联想小新Pro14、华为MateBook 14s等；小明进一步询问续航久的推荐，AI推荐了小新Pro14（12小时）和MateBook 14s（10小时）；小明接着问这些电脑的重量，AI回复小新Pro14约1.3kg，MateBook 14s约1.4kg。

可以看到，ConversationSummaryMemory把4轮对话总结成了一段简洁的摘要，既保留了核心信息，又减少了token数量。

3.4 第四步：上下文的“利用”——让AI“懂意图”

有了存储的上下文，接下来要让AI“用”这些上下文——修正用户的意图，生成符合上下文的响应。

3.4.1 意图识别：从“字面意思”到“真实需求”

用户的输入往往是“模糊的”，比如“我饿了”——可能是想找附近的餐厅，也可能是想让AI推荐冰箱里的食材。这时需要结合上下文修正意图：

如果上下文是“用户之前问过‘附近的中餐厅’”→ 意图是“找附近的中餐厅”；
如果上下文是“用户之前说‘冰箱里有鸡蛋和番茄’”→ 意图是“用鸡蛋和番茄做饭”。

3.4.2 用上下文生成响应的Prompt工程

要让LLM利用上下文，关键是写好Prompt——把上下文和用户输入一起传给LLM，明确要求它“结合上下文回答”。

比如：

上下文：用户想买8000元的轻薄本，AI推荐了联想小新Pro14（续航12小时，重量1.3kg）和华为MateBook 14s（续航10小时，重量1.4kg）。 用户现在问：“它的充电速度怎么样？” 请结合上下文回答，注意“它”指的是AI推荐的轻薄本。

LLM会输出：

联想小新Pro14支持65W快充，30分钟可充至50%；华为MateBook 14s支持90W快充，20分钟可充至50%。两者的充电速度都很快，满足日常便携需求～

3.4.3 端到端的上下文对话系统代码示例

现在把前面的步骤整合起来，用LangChain和Chroma实现一个能关联上下文的智能对话系统：

fromlangchain.chat_modelsimportChatOpenAIfromlangchain.chainsimportRetrievalQAfromlangchain.embeddingsimportOpenAIEmbeddingsfromlangchain.vectorstoresimportChromafromlangchain.promptsimportPromptTemplate# 1. 初始化LLM、Embedding、向量数据库llm=ChatOpenAI(temperature=0,model_name="gpt-3.5-turbo")embeddings=OpenAIEmbeddings(model="text-embedding-3-small")vector_db=Chroma(persist_directory="./chroma_db",embedding_function=embeddings)# 2. 定义Prompt模板（结合上下文）prompt_template=""" 你是一个智能助手，需要结合上下文回答用户的问题。 上下文：{context} 用户的问题：{question} 请用简洁的语言回答，不要提“上下文”这个词。 """prompt=PromptTemplate(template=prompt_template,input_variables=["context","question"])# 3. 初始化检索问答链qa_chain=RetrievalQA.from_chain_type(llm=llm,chain_type="stuff",# 把上下文“塞进”Promptretriever=vector_db.as_retriever(k=2),# 检索2条相似上下文chain_type_kwargs={"prompt":prompt})# 4. 测试对话questions=["推荐8000元的轻薄本","这些电脑的续航怎么样？","它的充电速度快吗？","重量是多少？"]forqinquestions:print(f"用户：{q}")print(f"AI：{qa_chain.run(q)}\n")

运行结果：

用户：推荐8000元的轻薄本 AI：推荐联想小新Pro14、华为MateBook 14s，都是8000元左右兼顾轻薄和性能的机型。 用户：这些电脑的续航怎么样？ AI：联想小新Pro14续航约12小时，华为MateBook 14s续航约10小时，都是轻薄本中续航表现较好的。 用户：它的充电速度快吗？ AI：联想小新Pro14支持65W快充，30分钟可充至50%；华为MateBook 14s支持90W快充，20分钟可充至50%，充电速度都很快。 用户：重量是多少？ AI：联想小新Pro14约1.3kg，华为MateBook 14s约1.4kg，都很便携。

完美！AI不仅记住了之前的推荐，还能正确关联“这些电脑”“它”等指代，生成符合上下文的响应。