当前位置: 首页 > news >正文

字节 AI agent 一面面试题

Q

多模态大模型的具体结构是什么?

(1)视觉编码器( Vision Encoder ):以 CLIP ViT / SigLIP / EVA - CLIP 为主,图像分为 patch 序列提取视觉特征,通常使用预训练权重(冻结或部分微调)。现代方案(如Qwen2.5- VL )用2D- RoPE 替代绝对位置编码,支持原生动态分辨率和任意宽高比。

(2)适配器( Adapter / Connector ):连接视觉特征与 LLM 输入空间,三种主流方案:( a )线性 MLP ( LLaVA 、Qwen2- VL )-﹣简单高效训练稳定,2025年主流;( b ) Q - Former ( BLIP -2)–32个可学习 query 压缩视觉 token ,降低 LLM 计算量,但训练难度高;( c ) Perceiver Resampler ( Flamingo )-长度表示。

(3)语言模型( LLM ):接受拼接后的「视觉 token +文本 token 」自回归生成。训练分阶段: Stage 1冻结 LLM 只训 Adapter (建立视觉﹣语言语义对齐), Stage 2 LoRA 或全参微调 LLM (提升指令遵循和对话能力)。

A

Q

多模态的用户信息怎么存储和使用?

根据个人项目经历作答。涉及用户画像( KV 存储)、历史对话(向量库)、多模态内容(图像 Embedding +元数据)的组合存储与检索策略。

A

Q

RAG系统流程

(1)离线建库:文档清洗→切分(512 token / chunk , overlap 50-100 token )→ Embedding 模型编码( BGE /E5)→存入向量库( FAISS / Milvus ),附带文档来源、时间戳等元数据。

(2)在线检索: Query Embedding → ANN 检索 Top - K →可选混合检索(向量+BM25, RRF 融合)→ Cross - Encoder Reranker 精排取 Top - N 。

(3)增强生成:将检索文档拼接到 Prompt → LLM 生成答案,可选引用来源标注。

A

Q

LoRA的原理和 QLoRA 的原理, QLoRA 怎么优化显存?

(1) LoRA 原理:对预训练权重 W ,添加旁路△ W = BA ( BER ( dxr ), AER ( rxk ), r << min ( d , k )),冻结 W 只训练 B 和 A 。可训练参数从 dk 降至 r ( d + k )。 A 用高斯初始化, B 用零初始化(保证训练初始△ W =0)。推理时 W '= W + BA 合并,无额外延迟。 r 通常取8-64。

(2) QLoRA 三招组合:①基础模型用4- bit NormalFloat (NF4)量化存储,显存减少约75%; LoRA 旁路参数和梯度保持BF16高精度,保证训练稳定性(不能量化梯度计算路径);③分页优化器( Paged Optimizer ):优化器状态溢出时自动页换到 CPU 内存,消除 GPU 显存峰值尖刺,使单卡可训练65B模型。

(3)三者对比: LoRA ≈节省3x显存(主要省优化器状态); QLoRA ≈节省10x显存(激进量化基础模型); QLoRA 训练速度略慢于 LoRA (量化/反量化开销)。

A

Q

AI辅助开发的实践经验

主观类问题,根据个人实践经历作答。

A

Q

觉得当前的 agent 达到预期了吗?对 agent 的预期是什么?

主观类问题,根据个人观点和项目经验作答。

A

Q

怎么进行多模态知识检索?

(1)跨模态 Embedding 检索:用 CLIP 、 SigLIP 等图文共享编码器将图像和文本映射到同一向量空间;图像库预先编码为 image embedding 存入向量库( Milvus / Qdrant ),检索时用文本 query 的 embedding 做相似度搜索,实现「以文搜图」或「以图搜图」。

(2)混合增强:对图像生成结构化文本描述( Caption + OCR )也建文本索引,支持关键词+向量混合检索( RRF 融合);多模态 Reranker 对结果重排提升精度。

(3)注意事项:纯文本语义检索不应用 CLIP (改用 BGE /E5,精度高得多);多模态 RAG 才需要 CLIP 类跨模态模型; Milvus / Qdrant 支持向量+元数据联合索引,实现时间/类别过滤。

A

Q

A2A与 MCP 区别?

(1) MCP ( Model Context Protocol ):定位为" Al 的 USB - C 接口",规范 LLM 与外部工具/数据源(文件系统、数据库、 API )的调用协议;三层能力暴露: Resources (数据访问)、 Tools (可执行操作)、 Prompts (模板);基于 JSON - RPC ,支持stdio / HTTP / WebSocket 传输;核心价值:一个 MCP Server 可被所有支持 MCP 的模型复用,消除碎片化集成。

(2)A2A( Agent - to - Agent Protocol ): Google 于2025年4月发布,2025年6月贡献 Linux Foundation 管理,已获150+组织支持;基于 HTTP + JSON - RPC 2.0+ SSE ,通过. well - known / agent . json 的 Agent Cards 发布智能体能力;支持自然语言任务委派、多模态流式传输、 OAuth 2.0/OIDC认证;解决跨厂商 Agent 互操作问题﹣﹣一个 Agent 可以把子任务委托给另一个 Agent 完成。

(3)核心区别: MCP = Agent 调用工具(纵向,模型→工具,工具是被动服务方);A2A= Agent 委托 Agent (横向,智能体→智能体,双方都是主动决策者)。同一系统可同时使用:用 MCP 连接工具,用A2A协调多 Agent 分工。

A

Q

较长较多的上下文怎么解决?

(1)位置编码扩展(训练侧): YaRN 通过非均匀 RoPE 插值,在少量长文本数据上 continual pretraining 即可从4K扩展到128K+(Qwen2.5、 LLaMA -3.1标配);核心技巧是调大 RoPE basefrequency (10000→500000+)再加长文本训练; LongRoPE ( Microsoft ,2024)进一步将 Phi -3扩展到2M token ,仅需1K步 fine - tune 。

(2)稀疏注意力(架构侧):滑动窗口 Attention ( Mistral )只做局部计算, O ( n )复杂度; Dual Chunk Attention (Qwen2)分块做局部+跨块全局 Attention ; StreamingLLM 保留初始 token +滑窗,实现理论无限长度推理。

(3) KV Cache 压缩(推理侧): GQA / MQA 减少 KV 头数直接降低 KV Cache 大小; MLA ( DeepSeek -V2/V3)低维投影压缩 KV 至1/8尺寸;H2O驱逐不重要 KV 只保留20%关键 token ; PagedAttention ( vLLM )消除碎片化提升内存利用率。

(4) RAG 替代超长上下文:知识密集型任务中,检索相关片段比"塞满上下文"通常更精准且成本低;研究表明超长上下文存在" lost in the middle "﹣中间位置内容注意力弱于头尾。

A

Q

Agent项目开发的框架

(1) LangChain :生态最广(数百个工具集成),提供 Tool / Chain / Memory / Agent 模块,适合快速原型和单 Agent 流程;缺点是抽象层多、调试复杂,不适合复杂状态管理。

(2) LangGraph : LangChain 团队出品,用有向图表达 Agent 状态机(节点=动作,边=条件转移),天然支持循环/条件分支/人机交互节点;是2025年构建 production - ready Agent 的主流选择,适合复杂的 Agentic 工作流。

(3) Llamalndex :以 RAG 数据 pipeline 为核心(加载/切分/索引/检索), Agent 能力相对弱;知识密集型 Agent (文档问答、知识库搜索)首选。

(4) AutoGen ( Microsoft )/ CrewAl :多 Agent 协作框架。 AutoGen 基于对话式 Agent 互动(内置代码执行沙箱+人类代理),适合代码生成/研究助手; CrewAI 用角色化分工( Role / Goal / Backstory ),适合流程化多角色协作任务。

(5)低代码平台( Dify 等):可视化编排+内置 RAG + MCP 集成,适合业务快速交付,不适合深度定制。

这里给大家精心整理了一份全面的AI大模型学习资源包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

👇👇扫码免费领取全部内容👇👇

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

4. 2026行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

5. 大模型项目实战

学以致用,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

7. 资料领取:全套内容免费抱走,学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:

👇👇扫码免费领取全部内容👇👇

http://www.jsqmd.com/news/601691/

相关文章:

  • PixEz-flutter全链路网络可靠性架构实战:从数据同步到动态优化
  • RIP网络故障排查指南:7个常见问题及解决方案(含实验验证)
  • 塔器设备加工厂哪家性价比高,口碑好的有推荐吗? - 工业设备
  • 数字孪生技术如何通过3D大屏重构智慧港口管理
  • WinUtil:提升Windows系统维护效率的集成化解决方案
  • STM32录音机开发:硬件选型与音频处理实践
  • 生产管理系统厂家常见问题解答(2026最新专家版) - 速递信息
  • Qwen3-TTS-12Hz-1.7B-Base快速部署:基于Jupyter+Gradio的极简开发环境搭建
  • 7个强力工具:Masa Mods中文汉化包让Minecraft模组说中文
  • OpenClaw定时任务实战:用SecGPT-14B实现每日安全简报自动推送
  • Kaggle上最火的3个水稻病害数据集实测:数据质量、标注细节全解析
  • 保姆级教程:AI超清画质增强镜像从部署到应用
  • 最新研究揭秘:楔前叶在阿尔茨海默病早期诊断中的关键作用
  • OpenClaw监控告警方案:Qwen3-14B驱动服务器异常检测
  • 解决STM32CubeMx中DAP下载的SWD/JTAG通信故障
  • 香橙派上编译librealsense 2.55.1:网络依赖拉取失败与手动编译的实战避坑
  • 成都怕电器塞不进去,选全屋定制如何选择性价比高的品牌 - 工业推荐榜
  • 实战指南:基于快马平台生成Playwright动态新闻数据抓取脚本
  • 别再只用皮尔逊了!用Python实战距离相关系数,轻松搞定时间序列中的非线性关系
  • Pixel Dream Workshop实战教程:为像素RPG游戏生成动态天气效果图
  • SpringCloud Alibaba最新版避坑指南:如何优雅解决Nacos 9848端口占用问题
  • OpenClaw安全实践:Phi-3-vision-128k-instruct本地化部署权限管理指南
  • Phi-4-mini-reasoning完整指南:7.2GB模型开机自启+日志监控配置
  • 效率提升:用快马AI一键生成官网基础模板,告别重复编码
  • 2026年3月亲测:海底捞零食加盟攻略 - 界川
  • SIwave串扰分析保姆级教程:从Allegro文件导入到结果解读,手把手教你排查PCB信号问题
  • 革新性抖音直播数据采集工具:全场景弹幕抓取零代码解决方案
  • OpenHarmony 3.2 RK3568 GT911触摸屏驱动调试笔记:HCS配置详解与I2C/中断引脚初始化实战
  • WeChatMsg:数据自主权回归的创新方法
  • 告别混乱注释!Doxygen+Python最佳注释实践指南(含常见错误排查)