当前位置：首页 > news >正文

字节 AI agent 一面面试题

news 2026/6/16 10:10:31

多模态大模型的具体结构是什么？

(1)视觉编码器（ Vision Encoder )：以 CLIP ViT / SigLIP / EVA - CLIP 为主，图像分为 patch 序列提取视觉特征，通常使用预训练权重（冻结或部分微调）。现代方案（如Qwen2.5- VL ）用2D- RoPE 替代绝对位置编码，支持原生动态分辨率和任意宽高比。

(2)适配器（ Adapter / Connector )：连接视觉特征与 LLM 输入空间，三种主流方案：( a )线性 MLP ( LLaVA 、Qwen2- VL )-﹣简单高效训练稳定，2025年主流；( b ) Q - Former ( BLIP -2)–32个可学习 query 压缩视觉 token ，降低 LLM 计算量，但训练难度高；( c ) Perceiver Resampler ( Flamingo )-长度表示。

(3）语言模型（ LLM )：接受拼接后的「视觉 token +文本 token 」自回归生成。训练分阶段： Stage 1冻结 LLM 只训 Adapter （建立视觉﹣语言语义对齐）, Stage 2 LoRA 或全参微调 LLM （提升指令遵循和对话能力）。

多模态的用户信息怎么存储和使用？

根据个人项目经历作答。涉及用户画像（ KV 存储）、历史对话（向量库）、多模态内容（图像 Embedding ＋元数据）的组合存储与检索策略。

RAG系统流程

(1）离线建库：文档清洗→切分（512 token / chunk , overlap 50-100 token )→ Embedding 模型编码（ BGE /E5)→存入向量库（ FAISS / Milvus )，附带文档来源、时间戳等元数据。

(2）在线检索： Query Embedding → ANN 检索 Top - K →可选混合检索（向量+BM25, RRF 融合）→ Cross - Encoder Reranker 精排取 Top - N 。

(3）增强生成：将检索文档拼接到 Prompt → LLM 生成答案，可选引用来源标注。

LoRA的原理和 QLoRA 的原理， QLoRA 怎么优化显存？

(1) LoRA 原理：对预训练权重 W ，添加旁路△ W = BA ( BER ( dxr ), AER ( rxk ), r << min ( d , k ))，冻结 W 只训练 B 和 A 。可训练参数从 dk 降至 r ( d + k )。 A 用高斯初始化， B 用零初始化（保证训练初始△ W =0)。推理时 W '= W + BA 合并，无额外延迟。 r 通常取8-64。

(2) QLoRA 三招组合：①基础模型用4- bit NormalFloat (NF4）量化存储，显存减少约75%; LoRA 旁路参数和梯度保持BF16高精度，保证训练稳定性（不能量化梯度计算路径）;③分页优化器（ Paged Optimizer )：优化器状态溢出时自动页换到 CPU 内存，消除 GPU 显存峰值尖刺，使单卡可训练65B模型。

(3）三者对比： LoRA ≈节省3x显存（主要省优化器状态）; QLoRA ≈节省10x显存（激进量化基础模型）; QLoRA 训练速度略慢于 LoRA （量化／反量化开销）。

AI辅助开发的实践经验

主观类问题，根据个人实践经历作答。

觉得当前的 agent 达到预期了吗？对 agent 的预期是什么？

主观类问题，根据个人观点和项目经验作答。

怎么进行多模态知识检索？

(1）跨模态 Embedding 检索：用 CLIP 、 SigLIP 等图文共享编码器将图像和文本映射到同一向量空间；图像库预先编码为 image embedding 存入向量库（ Milvus / Qdrant )，检索时用文本 query 的 embedding 做相似度搜索，实现「以文搜图」或「以图搜图」。

(2）混合增强：对图像生成结构化文本描述（ Caption + OCR ）也建文本索引，支持关键词+向量混合检索（ RRF 融合）；多模态 Reranker 对结果重排提升精度。

(3）注意事项：纯文本语义检索不应用 CLIP （改用 BGE /E5，精度高得多）；多模态 RAG 才需要 CLIP 类跨模态模型； Milvus / Qdrant 支持向量＋元数据联合索引，实现时间／类别过滤。

A2A与 MCP 区别？

(1) MCP ( Model Context Protocol )：定位为" Al 的 USB - C 接口"，规范 LLM 与外部工具／数据源（文件系统、数据库、 API ）的调用协议；三层能力暴露： Resources （数据访问）、 Tools （可执行操作）、 Prompts （模板）；基于 JSON - RPC ，支持stdio / HTTP / WebSocket 传输；核心价值：一个 MCP Server 可被所有支持 MCP 的模型复用，消除碎片化集成。

(2)A2A( Agent - to - Agent Protocol ): Google 于2025年4月发布，2025年6月贡献 Linux Foundation 管理，已获150＋组织支持；基于 HTTP + JSON - RPC 2.0+ SSE ,通过. well - known / agent . json 的 Agent Cards 发布智能体能力；支持自然语言任务委派、多模态流式传输、 OAuth 2.0/OIDC认证；解决跨厂商 Agent 互操作问题﹣﹣一个 Agent 可以把子任务委托给另一个 Agent 完成。

(3）核心区别： MCP = Agent 调用工具（纵向，模型→工具，工具是被动服务方）;A2A= Agent 委托 Agent （横向，智能体→智能体，双方都是主动决策者）。同一系统可同时使用：用 MCP 连接工具，用A2A协调多 Agent 分工。

较长较多的上下文怎么解决？

(1）位置编码扩展（训练侧）: YaRN 通过非均匀 RoPE 插值，在少量长文本数据上 continual pretraining 即可从4K扩展到128K+(Qwen2.5、 LLaMA -3.1标配）；核心技巧是调大 RoPE basefrequency (10000→500000+）再加长文本训练； LongRoPE ( Microsoft ,2024）进一步将 Phi -3扩展到2M token ，仅需1K步 fine - tune 。

(2）稀疏注意力（架构侧）：滑动窗口 Attention ( Mistral )只做局部计算， O ( n ）复杂度； Dual Chunk Attention (Qwen2）分块做局部＋跨块全局 Attention ; StreamingLLM 保留初始 token +滑窗，实现理论无限长度推理。

(3) KV Cache 压缩（推理侧）: GQA / MQA 减少 KV 头数直接降低 KV Cache 大小； MLA ( DeepSeek -V2/V3）低维投影压缩 KV 至1/8尺寸；H2O驱逐不重要 KV 只保留20%关键 token ; PagedAttention ( vLLM ）消除碎片化提升内存利用率。

(4) RAG 替代超长上下文：知识密集型任务中，检索相关片段比"塞满上下文"通常更精准且成本低；研究表明超长上下文存在" lost in the middle "﹣中间位置内容注意力弱于头尾。

Agent项目开发的框架

(1) LangChain ：生态最广（数百个工具集成），提供 Tool / Chain / Memory / Agent 模块，适合快速原型和单 Agent 流程；缺点是抽象层多、调试复杂，不适合复杂状态管理。

(2) LangGraph : LangChain 团队出品，用有向图表达 Agent 状态机（节点＝动作，边＝条件转移），天然支持循环／条件分支／人机交互节点；是2025年构建 production - ready Agent 的主流选择，适合复杂的 Agentic 工作流。

(3) Llamalndex ：以 RAG 数据 pipeline 为核心（加载／切分／索引／检索）, Agent 能力相对弱；知识密集型 Agent （文档问答、知识库搜索）首选。

(4) AutoGen ( Microsoft )/ CrewAl ：多 Agent 协作框架。 AutoGen 基于对话式 Agent 互动（内置代码执行沙箱＋人类代理），适合代码生成／研究助手； CrewAI 用角色化分工( Role / Goal / Backstory )，适合流程化多角色协作任务。

(5）低代码平台（ Dify 等）：可视化编排＋内置 RAG + MCP 集成，适合业务快速交付，不适合深度定制。

这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

👇👇扫码免费领取全部内容👇👇