面试 AI Agent 工程师会被问什么?40+ 真题 + 知识图谱全梳理
AI Agent 工程师已经成了 2025-2026 年最火的岗位之一。OpenAI、Anthropic、Google、字节、百度都在招,薪资也给得很猛。但问题来了——Agent 工程师的面试到底考什么?跟普通后端面试有什么不一样?
我把这个岗位的面试拆成了 5 个维度:推理框架、Agent 架构、工具与协议、系统设计、安全与评估。每个维度给出真题和考察点,最后附一张知识图谱。看完这篇,你基本知道该准备什么了。
本文提纲
- Agent 工程师到底在做什么
- 推理框架:CoT → ReAct → ToT 的递进
- Agent 架构:记忆、规划、行动三大组件
- 工具与协议:Function Calling、MCP、A2A
- 系统设计题:面试中最高频的 5 道大题
- 编码实现题:手写 Agent 的核心模块
- 安全、可控性与评估
- 各公司面试风格差异
- 知识图谱:一张图看清准备路径
Agent 工程师到底在做什么
先搞清楚岗位定位。Agent 工程师不是"会调 API 就行",也不是"搞模型训练的"。它是一个交叉岗位——既需要理解 LLM 的能力边界,又需要工程化的系统设计能力。
典型 JD 要求:
| 维度 | 要求 |
|---|---|
| 编程语言 | Python 必须,TypeScript/Go/Java 加分 |
| LLM 基础 | Transformer 架构理解、Tokenizer、上下文窗口管理 |
| Agent 框架 | LangChain/LangGraph、CrewAI、AutoGen、Semantic Kernel |
| RAG | 向量数据库、Embedding、Chunking 策略、检索评估 |
| 工具调用 | Function Calling 协议、MCP 协议、工具编排 |
| Prompt Engineering | CoT、Few-shot、System Prompt 设计、Prompt 注入防御 |
| 系统工程 | 异步编程、流式输出、错误处理、成本优化 |
推理框架:CoT → ReAct → ToT 的递进
这是面试中最基础也最容易深挖的部分。三个框架不是并列关系,是递进关系。
Chain-of-Thought(CoT)——思维链
论文:Wei et al., 2022 (arXiv:2201.11903)
核心思想:让 LLM 把推理过程一步步写出来,而不是直接给答案。仅用 8 个 CoT 示例提示 540B 参数模型,GSM8K 数学推理就达到了 SOTA。
面试可能问:
- CoT 为什么能提升推理能力?在什么条件下 CoT 才会涌现?
- Zero-shot CoT("Let's think step by step")和 Few-shot CoT 有什么区别?
- CoT 的局限性是什么?什么时候 CoT 反而会降低性能?
- 自动生成 CoT(Auto-CoT)怎么实现?
ReAct——推理 + 行动
论文:Yao et al., 2022 (arXiv:2210.03629)
CoT 只能"想",不能"做"。ReAct 把推理轨迹(Thought)和具体动作(Action)交错生成,让 Agent 边想边做。每一步的流程:
Thought: 我需要查一下北京今天的天气
Action: call_weather_api("北京")
Observation: 晴,28°C
Thought: 天气不错,可以推荐户外活动
Action: search_activities("北京", "户外")
Observation: ...
关键实验结果:ALFWorld 成功率提升 34%,WebShop 提升 10%。
面试可能问:
- ReAct 和纯 CoT 的核心区别是什么?ReAct 怎么解决幻觉问题?
- 手写一个 ReAct 循环(Thought-Action-Observation),如何处理 Action 失败?
- ReAct 的最大步数限制怎么设?如何判断 Agent 陷入死循环?
- ReAct 和 Function Calling 的关系是什么?可以结合使用吗?
Tree of Thoughts(ToT)——思维树
论文:Yao et al., 2023 (arXiv:2305.10601)
CoT 是一条线,ToT 是一棵树。允许 LLM 探索多条推理路径,自我评估,回溯。Game of 24 中,CoT 只解决了 4%,ToT 解决了 74%。
面试可能问:
- ToT 和 CoT 的本质区别是什么?(线性 vs 树状搜索)
- ToT 中 BFS 和 DFS 搜索策略怎么选择?
- 什么场景下该用 ToT 而不是 CoT?ToT 的计算成本怎么控制?
其他框架速览
| 框架 | 核心特点 | 适用场景 |
|---|---|---|
| Graph of Thoughts | 图结构推理,可合并多条路径 | 需要综合多条思路的复杂任务 |
| Self-Refine | 迭代自反馈精炼 | 文本生成、代码优化 |
| Reflexion | 基于语言反馈的强化学习 | 决策任务、错误纠正 |
| CodeAct | 用可执行代码统一动作空间 | 编程 Agent |
Agent 架构:记忆、规划、行动三大组件
记忆系统
这是面试中区分度最高的部分。能说清楚短期记忆和长期记忆的设计,基本就过了。
短期记忆(Short-term Memory):
- 当前对话上下文、任务状态
- 实现方式:上下文窗口、滑动窗口、摘要压缩
长期记忆(Long-term Memory):
- 跨会话的知识和经验
- 实现方式:向量数据库(Pinecone/Chroma/Weaviate)、知识图谱、反思机制
经典参考:斯坦福"小镇实验"(Generative Agents, Park et al., 2023)——25 个 AI Agent 涌现出社交行为,核心就是记忆架构:观察 → 记忆存储 → 反思 → 检索 → 规划。
面试可能问:
- 请设计一个 Agent 的记忆系统,包括短期记忆和长期记忆
- 上下文窗口溢出了怎么办?摘要压缩和滑动窗口各有什么问题?
- 长期记忆怎么避免"记忆污染"(错误的记忆影响后续决策)?
- 向量检索、关键词检索、混合检索怎么选择?
- Generative Agents 中的 Reflection 机制怎么工作?
规划(Planning)
Agent 怎么决定下一步做什么?
面试可能问:
- Agent 的 Planning 能力怎么实现?有哪些主流方法?
- 多步任务的子目标分解怎么做?怎么处理规划失败?
- Human-in-the-loop 的介入时机怎么设计?
行动(Action)
Agent 执行动作的机制——调用工具、生成代码、操控 GUI 等。
面试可能问:
- Agent 调用工具失败了怎么优雅降级?
- 多工具并行调用怎么实现?如何处理工具间的依赖关系?
- Computer Use Agent 的技术挑战有哪些?(屏幕理解、元素定位、操作序列)
工具与协议:Function Calling、MCP、A2A
Function Calling
模型原生的工具调用能力——定义 JSON Schema 描述工具,模型决定何时调用。
面试可能问:
- Function Calling 的 JSON Schema 怎么设计?嵌套参数怎么处理?
- 工具描述写得好不好直接影响调用准确率,你怎么优化工具描述?
- 并行 Function Calling 怎么实现?错误重试策略?
MCP(Model Context Protocol)
Anthropic 发起的标准化协议,让 Agent 和工具之间有了通用语言。114 个客户端在用,10 种语言 SDK。
面试可能问:
- MCP 解决了什么问题?和 Function Calling 的关系是什么?
- MCP 的三种原语(Resources/Tools/Prompts)分别是什么?怎么用?
- 如何设计一个 MCP Server?安全考量有哪些?
- MCP 的远程连接和 OAuth 授权怎么实现?
A2A(Agent-to-Agent Protocol)
Google 发起的 Agent 间通信协议。Agent Card 描述能力,Task 是交互的基本单元。
面试可能问:
- A2A 和 MCP 的区别?为什么需要两个协议?
- Agent Card 怎么描述一个 Agent 的能力?
- 跨框架 Agent 互操作的技术挑战是什么?
系统设计题:面试中最高频的 5 道大题
系统设计题是 Agent 面试的重头戏。不是画个架构图就完了,面试官会追问细节。
题目 1:设计一个多 Agent 协作的客户服务系统
考察点:Agent 角色分工、任务路由、上下文共享、错误处理。
回答框架:
- 分层架构:路由 Agent → 专业 Agent(退款/技术支持/账户)→ 升级 Agent
- 共享上下文:会话状态持久化、对话摘要传递
- 降级策略:Agent 超时/失败时回退到规则引擎
- Human-in-the-loop:置信度低于阈值时转人工
题目 2:设计一个 RAG 系统,支持大规模文档库
考察点:Chunking 策略、检索精度、评估指标。
回答框架:
- 文档处理:语义切分 > 固定长度切分
- 检索:混合检索(向量 + 关键词 BM25)+ Reranking
- 生成:引用溯源,标注来源段落
- 评估:Recall@K、MRR、Faithfulness
题目 3:设计一个支持工具调用的 Agent 框架
考察点:工具注册、调度、并行执行、错误处理。
回答框架:
- 工具注册中心:JSON Schema 描述 + 版本管理
- 调度器:依赖分析 → 并行执行 → 结果聚合
- 安全层:权限白名单、沙箱执行、操作审计
- 重试策略:指数退避 + 最大重试次数
题目 4:设计 Agent 的可观测性系统
考察点:Trace 追踪、日志、监控指标。
回答框架:
- 完整的 Thought-Action-Observation 链路追踪
- 关键指标:任务成功率、工具调用频次、Token 消耗、延迟 P99
- 工具:LangSmith / LangFuse / Phoenix
- 错误回放:记录完整上下文,支持复现
题目 5:设计一个 Computer Use Agent
考察点:视觉理解、GUI 操作、安全性。
回答框架:
- 截图 → 视觉模型理解 → 元素定位 → 操作规划 → 鼠标键盘执行
- 安全:操作确认机制、危险操作拦截
- 评估:WebArena / OSWorld 基准
编码实现题:手写 Agent 的核心模块
面试中大概率会让你现场写代码。以下是最可能考的实现题:
手写 ReAct 循环
import jsondef react_loop(llm, tools, query, max_steps=10):messages = [{"role": "user", "content": query}]for step in range(max_steps):# 1. LLM 生成 Thought + Actionresponse = llm.chat(messages, tools=tools)messages.append(response)# 2. 解析 Actionif response.tool_calls:for tool_call in response.tool_calls:# 3. 执行工具,获取 Observationresult = execute_tool(tools, tool_call)messages.append({"role": "tool","tool_call_id": tool_call.id,"content": json.dumps(result)})else:# 没有工具调用,说明 Agent 给出了最终答案return response.contentreturn "Max steps reached without final answer"
手写 RAG Pipeline
def rag_pipeline(query, vector_db, llm, top_k=5):# 1. Embeddingquery_embedding = embed(query)# 2. 检索docs = vector_db.search(query_embedding, top_k=top_k)# 3. 重排序(可选)docs = rerank(query, docs)# 4. 构造 Promptcontext = "\n".join([d.text for d in docs[:3]])prompt = f"""Based on the following context, answer the question.
Context: {context}
Question: {query}
Always cite your sources."""# 5. 生成return llm.chat(prompt)
面试可能问:
- ReAct 循环中,如何防止 Agent 陷入死循环?
- RAG Pipeline 的 Chunking 策略怎么选择?固定长度 vs 语义切分各有什么优劣?
- 如何实现流式输出(SSE)?异步工具调用怎么处理?
安全、可控性与评估
安全性
面试可能问:
- Prompt Injection 攻击的原理是什么?怎么防御?
- Agent 如何防止被诱导执行危险操作?(越狱攻击)
- 工具调用的安全边界怎么设计?沙箱隔离、权限白名单、人工审批各适用什么场景?
可控性
面试可能问:
- Human-in-the-loop 的介入时机怎么设计?哪些操作必须人工确认?
- 如何防止 Agent 的"目标漂移"(Goal Drift)?
- Agent 的护栏(Guardrails)怎么实现?规则约束 vs 模型判断?
评估
面试可能问:
- Agent 的评估框架有哪些?AgentBench、WebArena、SWE-bench 各测什么?
- 如何评估 RAG 系统的检索质量?Faithfulness 和 Relevance 怎么量化?
- LLM-as-Judge 的方案怎么设计?有什么偏见问题?
各公司面试风格差异
了解你面试的公司的侧重点,准备效率能翻倍。
OpenAI
- 流程:Recruiter Call(30min) → 技术电话面试(1h, CoderPad) → 第二轮(1h) → Onsite(4-6h)
- 特点:偏向实际工程问题,不是纯 LeetCode;Onsite 有 Presentation 环节;禁止在面试中使用 AI 工具
- 关注:工程能力 + AI 安全理解,"Read their blog!" 是他们的口头禅
Anthropic
- 特点:全部通过 Google Meet 进行;约一半技术人员没有 ML 背景
- 文化:高信任、低自我(high-trust, low-ego);"Do the simple thing that works"
- 关注:安全赛跑(race to the top on safety);独立研究和开源贡献放在简历最前面
字节跳动
- 关注:Coze/豆包 Agent 平台开发、高并发低延迟系统设计、RAG 优化
- 特点:偏工程落地,喜欢问实际生产环境的问题
- 关注:Vertex AI Agent Builder、大规模分布式系统、Function Calling 系统设计
- 特点:偏底层架构设计,对系统规模有要求
知识图谱:一张图看清准备路径
AI Agent 工程师面试知识图谱
│
├── 推理框架
│ ├── CoT(思维链)— 基础,必会
│ ├── ReAct(推理+行动)— 核心,手写实现
│ ├── ToT(思维树)— 进阶,理解原理
│ └── CodeAct / Self-Refine / Reflexion — 了解即可
│
├── Agent 架构
│ ├── 记忆系统(短期/长期/反思)— 高频考点
│ ├── 规划(任务分解/子目标)— 系统设计必考
│ └── 行动(工具调用/GUI操作)— 编码题常考
│
├── 工具与协议
│ ├── Function Calling — 必会
│ ├── MCP — 2025 热点,了解架构
│ └── A2A — 了解概念和与 MCP 的关系
│
├── 系统设计
│ ├── 多 Agent 协作 — 高频大题
│ ├── RAG 系统 — 几乎必考
│ ├── Agent 框架设计 — 中高级岗
│ └── 可观测性 — 生产级 Agent 必问
│
├── 安全与评估
│ ├── Prompt Injection 防御 — 必问
│ ├── Human-in-the-loop — 必问
│ └── 评估框架(AgentBench 等)— 加分项
│
└── 编码实现
├── ReAct 循环 — 必须能手写
├── RAG Pipeline — 必须能手写
└── 流式输出/异步处理 — 加分项
准备 Agent 面试,不用面面俱到。抓住三条主线:ReAct 循环能手写,RAG Pipeline 能讲清楚,系统设计能画出架构图。这三关过了,其他都是加分项。
作者: itech001
来源: 公众号:AI人工智能时代
网站: https://www.theaiera.cn/
每日分享最前沿的AI新闻资讯和技术研究。
本文首发于 AI人工智能时代,转载请注明出处。
