当前位置：首页 > news >正文

面试 AI Agent 工程师会被问什么？40+ 真题 + 知识图谱全梳理

news 2026/7/17 4:50:25

面试 AI Agent 工程师会被问什么？40+ 真题 + 知识图谱全梳理

AI Agent 工程师已经成了 2025-2026 年最火的岗位之一。OpenAI、Anthropic、Google、字节、百度都在招，薪资也给得很猛。但问题来了——Agent 工程师的面试到底考什么？跟普通后端面试有什么不一样？

我把这个岗位的面试拆成了 5 个维度：推理框架、Agent 架构、工具与协议、系统设计、安全与评估。每个维度给出真题和考察点，最后附一张知识图谱。看完这篇，你基本知道该准备什么了。

本文提纲

Agent 工程师到底在做什么
推理框架：CoT → ReAct → ToT 的递进
Agent 架构：记忆、规划、行动三大组件
工具与协议：Function Calling、MCP、A2A
系统设计题：面试中最高频的 5 道大题
编码实现题：手写 Agent 的核心模块
安全、可控性与评估
各公司面试风格差异
知识图谱：一张图看清准备路径

Agent 工程师到底在做什么

先搞清楚岗位定位。Agent 工程师不是"会调 API 就行"，也不是"搞模型训练的"。它是一个交叉岗位——既需要理解 LLM 的能力边界，又需要工程化的系统设计能力。

典型 JD 要求：

维度	要求
编程语言	Python 必须，TypeScript/Go/Java 加分
LLM 基础	Transformer 架构理解、Tokenizer、上下文窗口管理
Agent 框架	LangChain/LangGraph、CrewAI、AutoGen、Semantic Kernel
RAG	向量数据库、Embedding、Chunking 策略、检索评估
工具调用	Function Calling 协议、MCP 协议、工具编排
Prompt Engineering	CoT、Few-shot、System Prompt 设计、Prompt 注入防御
系统工程	异步编程、流式输出、错误处理、成本优化

推理框架：CoT → ReAct → ToT 的递进

这是面试中最基础也最容易深挖的部分。三个框架不是并列关系，是递进关系。

Chain-of-Thought（CoT）——思维链

论文：Wei et al., 2022 (arXiv:2201.11903)

核心思想：让 LLM 把推理过程一步步写出来，而不是直接给答案。仅用 8 个 CoT 示例提示 540B 参数模型，GSM8K 数学推理就达到了 SOTA。

面试可能问：

CoT 为什么能提升推理能力？在什么条件下 CoT 才会涌现？
Zero-shot CoT（"Let's think step by step"）和 Few-shot CoT 有什么区别？
CoT 的局限性是什么？什么时候 CoT 反而会降低性能？
自动生成 CoT（Auto-CoT）怎么实现？

ReAct——推理 + 行动

论文：Yao et al., 2022 (arXiv:2210.03629)

CoT 只能"想"，不能"做"。ReAct 把推理轨迹（Thought）和具体动作（Action）交错生成，让 Agent 边想边做。每一步的流程：

Thought: 我需要查一下北京今天的天气
Action: call_weather_api("北京")
Observation: 晴，28°C
Thought: 天气不错，可以推荐户外活动
Action: search_activities("北京", "户外")
Observation: ...

关键实验结果：ALFWorld 成功率提升 34%，WebShop 提升 10%。

面试可能问：

ReAct 和纯 CoT 的核心区别是什么？ReAct 怎么解决幻觉问题？
手写一个 ReAct 循环（Thought-Action-Observation），如何处理 Action 失败？
ReAct 的最大步数限制怎么设？如何判断 Agent 陷入死循环？
ReAct 和 Function Calling 的关系是什么？可以结合使用吗？

Tree of Thoughts（ToT）——思维树

论文：Yao et al., 2023 (arXiv:2305.10601)

CoT 是一条线，ToT 是一棵树。允许 LLM 探索多条推理路径，自我评估，回溯。Game of 24 中，CoT 只解决了 4%，ToT 解决了 74%。

面试可能问：

ToT 和 CoT 的本质区别是什么？（线性 vs 树状搜索）
ToT 中 BFS 和 DFS 搜索策略怎么选择？
什么场景下该用 ToT 而不是 CoT？ToT 的计算成本怎么控制？

其他框架速览

框架	核心特点	适用场景
Graph of Thoughts	图结构推理，可合并多条路径	需要综合多条思路的复杂任务
Self-Refine	迭代自反馈精炼	文本生成、代码优化
Reflexion	基于语言反馈的强化学习	决策任务、错误纠正
CodeAct	用可执行代码统一动作空间	编程 Agent

Agent 架构：记忆、规划、行动三大组件

记忆系统

这是面试中区分度最高的部分。能说清楚短期记忆和长期记忆的设计，基本就过了。

短期记忆（Short-term Memory）：
- 当前对话上下文、任务状态
- 实现方式：上下文窗口、滑动窗口、摘要压缩

长期记忆（Long-term Memory）：
- 跨会话的知识和经验
- 实现方式：向量数据库（Pinecone/Chroma/Weaviate）、知识图谱、反思机制

经典参考：斯坦福"小镇实验"（Generative Agents, Park et al., 2023）——25 个 AI Agent 涌现出社交行为，核心就是记忆架构：观察 → 记忆存储 → 反思 → 检索 → 规划。

面试可能问：

请设计一个 Agent 的记忆系统，包括短期记忆和长期记忆
上下文窗口溢出了怎么办？摘要压缩和滑动窗口各有什么问题？
长期记忆怎么避免"记忆污染"（错误的记忆影响后续决策）？
向量检索、关键词检索、混合检索怎么选择？
Generative Agents 中的 Reflection 机制怎么工作？

规划（Planning）

Agent 怎么决定下一步做什么？

面试可能问：

Agent 的 Planning 能力怎么实现？有哪些主流方法？
多步任务的子目标分解怎么做？怎么处理规划失败？
Human-in-the-loop 的介入时机怎么设计？

行动（Action）

Agent 执行动作的机制——调用工具、生成代码、操控 GUI 等。

面试可能问：

Agent 调用工具失败了怎么优雅降级？
多工具并行调用怎么实现？如何处理工具间的依赖关系？
Computer Use Agent 的技术挑战有哪些？（屏幕理解、元素定位、操作序列）

工具与协议：Function Calling、MCP、A2A

Function Calling

模型原生的工具调用能力——定义 JSON Schema 描述工具，模型决定何时调用。

面试可能问：

Function Calling 的 JSON Schema 怎么设计？嵌套参数怎么处理？
工具描述写得好不好直接影响调用准确率，你怎么优化工具描述？
并行 Function Calling 怎么实现？错误重试策略？

MCP（Model Context Protocol）

Anthropic 发起的标准化协议，让 Agent 和工具之间有了通用语言。114 个客户端在用，10 种语言 SDK。

面试可能问：

MCP 解决了什么问题？和 Function Calling 的关系是什么？
MCP 的三种原语（Resources/Tools/Prompts）分别是什么？怎么用？
如何设计一个 MCP Server？安全考量有哪些？
MCP 的远程连接和 OAuth 授权怎么实现？

A2A（Agent-to-Agent Protocol）

Google 发起的 Agent 间通信协议。Agent Card 描述能力，Task 是交互的基本单元。

面试可能问：

A2A 和 MCP 的区别？为什么需要两个协议？
Agent Card 怎么描述一个 Agent 的能力？
跨框架 Agent 互操作的技术挑战是什么？

系统设计题：面试中最高频的 5 道大题

系统设计题是 Agent 面试的重头戏。不是画个架构图就完了，面试官会追问细节。

题目 1：设计一个多 Agent 协作的客户服务系统

考察点：Agent 角色分工、任务路由、上下文共享、错误处理。

回答框架：
- 分层架构：路由 Agent → 专业 Agent（退款/技术支持/账户）→ 升级 Agent
- 共享上下文：会话状态持久化、对话摘要传递
- 降级策略：Agent 超时/失败时回退到规则引擎
- Human-in-the-loop：置信度低于阈值时转人工

题目 2：设计一个 RAG 系统，支持大规模文档库

考察点：Chunking 策略、检索精度、评估指标。

回答框架：
- 文档处理：语义切分 > 固定长度切分
- 检索：混合检索（向量 + 关键词 BM25）+ Reranking
- 生成：引用溯源，标注来源段落
- 评估：Recall@K、MRR、Faithfulness

题目 3：设计一个支持工具调用的 Agent 框架

考察点：工具注册、调度、并行执行、错误处理。

回答框架：
- 工具注册中心：JSON Schema 描述 + 版本管理
- 调度器：依赖分析 → 并行执行 → 结果聚合
- 安全层：权限白名单、沙箱执行、操作审计
- 重试策略：指数退避 + 最大重试次数

题目 4：设计 Agent 的可观测性系统

考察点：Trace 追踪、日志、监控指标。

回答框架：
- 完整的 Thought-Action-Observation 链路追踪
- 关键指标：任务成功率、工具调用频次、Token 消耗、延迟 P99
- 工具：LangSmith / LangFuse / Phoenix
- 错误回放：记录完整上下文，支持复现

题目 5：设计一个 Computer Use Agent

考察点：视觉理解、GUI 操作、安全性。

回答框架：
- 截图 → 视觉模型理解 → 元素定位 → 操作规划 → 鼠标键盘执行
- 安全：操作确认机制、危险操作拦截
- 评估：WebArena / OSWorld 基准

编码实现题：手写 Agent 的核心模块

面试中大概率会让你现场写代码。以下是最可能考的实现题：

手写 ReAct 循环

import jsondef react_loop(llm, tools, query, max_steps=10):messages = [{"role": "user", "content": query}]for step in range(max_steps):# 1. LLM 生成 Thought + Actionresponse = llm.chat(messages, tools=tools)messages.append(response)# 2. 解析 Actionif response.tool_calls:for tool_call in response.tool_calls:# 3. 执行工具，获取 Observationresult = execute_tool(tools, tool_call)messages.append({"role": "tool","tool_call_id": tool_call.id,"content": json.dumps(result)})else:# 没有工具调用，说明 Agent 给出了最终答案return response.contentreturn "Max steps reached without final answer"

手写 RAG Pipeline

def rag_pipeline(query, vector_db, llm, top_k=5):# 1. Embeddingquery_embedding = embed(query)# 2. 检索docs = vector_db.search(query_embedding, top_k=top_k)# 3. 重排序（可选）docs = rerank(query, docs)# 4. 构造 Promptcontext = "\n".join([d.text for d in docs[:3]])prompt = f"""Based on the following context, answer the question.
    Context: {context}
    Question: {query}
    Always cite your sources."""# 5. 生成return llm.chat(prompt)

面试可能问：

ReAct 循环中，如何防止 Agent 陷入死循环？
RAG Pipeline 的 Chunking 策略怎么选择？固定长度 vs 语义切分各有什么优劣？
如何实现流式输出（SSE）？异步工具调用怎么处理？

安全、可控性与评估

安全性

面试可能问：

Prompt Injection 攻击的原理是什么？怎么防御？
Agent 如何防止被诱导执行危险操作？（越狱攻击）
工具调用的安全边界怎么设计？沙箱隔离、权限白名单、人工审批各适用什么场景？

可控性

面试可能问：

Human-in-the-loop 的介入时机怎么设计？哪些操作必须人工确认？
如何防止 Agent 的"目标漂移"（Goal Drift）？
Agent 的护栏（Guardrails）怎么实现？规则约束 vs 模型判断？

评估

面试可能问：

Agent 的评估框架有哪些？AgentBench、WebArena、SWE-bench 各测什么？
如何评估 RAG 系统的检索质量？Faithfulness 和 Relevance 怎么量化？
LLM-as-Judge 的方案怎么设计？有什么偏见问题？

各公司面试风格差异

了解你面试的公司的侧重点，准备效率能翻倍。

OpenAI

流程：Recruiter Call(30min) → 技术电话面试(1h, CoderPad) → 第二轮(1h) → Onsite(4-6h)
特点：偏向实际工程问题，不是纯 LeetCode；Onsite 有 Presentation 环节；禁止在面试中使用 AI 工具
关注：工程能力 + AI 安全理解，"Read their blog!" 是他们的口头禅

Anthropic

特点：全部通过 Google Meet 进行；约一半技术人员没有 ML 背景
文化：高信任、低自我（high-trust, low-ego）；"Do the simple thing that works"
关注：安全赛跑（race to the top on safety）；独立研究和开源贡献放在简历最前面

字节跳动

关注：Coze/豆包 Agent 平台开发、高并发低延迟系统设计、RAG 优化
特点：偏工程落地，喜欢问实际生产环境的问题

Google

关注：Vertex AI Agent Builder、大规模分布式系统、Function Calling 系统设计
特点：偏底层架构设计，对系统规模有要求

知识图谱：一张图看清准备路径

AI Agent 工程师面试知识图谱
│
├── 推理框架
│   ├── CoT（思维链）— 基础，必会
│   ├── ReAct（推理+行动）— 核心，手写实现
│   ├── ToT（思维树）— 进阶，理解原理
│   └── CodeAct / Self-Refine / Reflexion — 了解即可
│
├── Agent 架构
│   ├── 记忆系统（短期/长期/反思）— 高频考点
│   ├── 规划（任务分解/子目标）— 系统设计必考
│   └── 行动（工具调用/GUI操作）— 编码题常考
│
├── 工具与协议
│   ├── Function Calling — 必会
│   ├── MCP — 2025 热点，了解架构
│   └── A2A — 了解概念和与 MCP 的关系
│
├── 系统设计
│   ├── 多 Agent 协作 — 高频大题
│   ├── RAG 系统 — 几乎必考
│   ├── Agent 框架设计 — 中高级岗
│   └── 可观测性 — 生产级 Agent 必问
│
├── 安全与评估
│   ├── Prompt Injection 防御 — 必问
│   ├── Human-in-the-loop — 必问
│   └── 评估框架（AgentBench 等）— 加分项
│
└── 编码实现
    ├── ReAct 循环 — 必须能手写
    ├── RAG Pipeline — 必须能手写
    └── 流式输出/异步处理 — 加分项