大模型面试题
大家好,我是小林。
2026 年开始,AI Agent 开发的浪潮真正席卷整个互联网行业。
不光是 AI 算法、AI 应用工程师这些「天生 AI」的岗位,面试题越问越深;连后端开发、前端开发、数据开发这些原本跟 AI 隔了一道墙的岗位,面试官也开始或多或少地问起 AI 题了。比如:
- 「你的项目里有没有用过 LLM?怎么用的?」
- 「假如让你做一个 Agent,你会怎么设计?」
- 「RAG 工作流程是怎样的?」
- 「MCP 和 SKills 有什么区别?」
这些问题已经悄悄出现在各种岗位的面试里。AI 时代,每个工程师都得懂点大模型,不然很容易掉队。
为了让林友们在 AI 时代不掉队,我从去年开始花了非常多的心思整理这套大模型面试题。
这套题做了四件跟一般八股文不一样的事:
- 题目全部来自大厂真实面经。字节、阿里、快手、腾讯这些公司里被反复问到的高频题,不是我编的,也不是网上抄的八股。
- 每道题开头都有一段「面试现场复盘」。模拟真实对话让你看看「这道题答不好会被怼成什么样」,先感受一下「答不好的代价」,再学知识印象会深得多。
- 每道题都配通俗易懂的手绘风格配图。复杂的架构、流程、对比,光靠文字读起来累,配上图一下子就清楚了,记忆也会更深。
- 每道题都从根子上讲透原理。目标不是让你背标准答案,而是让你不管面试官怎么换问法、怎么追问,都能自己推导出来。
目前一共四个专题,Agent 面试专题,RAG 面试专题,工具调用 面试专题,大模型工程 面试专题,下面分别说说各覆盖了哪些内容。
Agent 面试专题
Agent 现在是 AI 工程里最热的方向,面试里出现频率非常高,但也是最容易答得「听起来没问题、其实没说到点上」的方向。这个专题从最基础的概念一路讲到多 Agent 协作,把面试里最常被追问的几个维度都覆盖到了。
从基础到进阶大概分四块。
第一块是概念和架构,先把 Agent 到底是什么、和普通 LLM 调用有什么本质区别搞清楚,再拆 Agent 的核心组件,以及 Workflow、Agent、Tools 三个概念怎么区分,这是后面所有问题的地基,一定要答利索。
第二块是设计范式,重点就是 ReAct、Plan-and-Execute、Reflection 这三种,每种解决什么问题、有什么代价、适合哪种场景,这是面试里最高频的考点,也是最容易答得半对不对的地方。
第三块是工程实践,这一块问的都是你真正做过 Agent 才会遇到的问题,比如复杂任务怎么拆分、记忆模块怎么设计、规划能力怎么实现、反思机制具体怎么跑,还有一道「为什么有时候要手搓 Agent 而不用框架」,能答好这道题说明你真的踩过坑。
第四块是多 Agent,从什么是 Multi-Agent 讲起,到 Single-Agent 和 Multi-Agent 怎么选,再到多 Agent 之间怎么通信(消息传递还是共享状态)、路由怎么做(静态规则还是 LLM 动态决策),这块是做过复杂系统才会深入思考的问题,答好了印象分很高。
📖 专题完整介绍:Agent 面试专题首页
- 1. 什么是 Agent?与大模型有什么本质不同?
- 2. Agent 的基本架构由哪些核心组件构成?
- 3. Workflow,Agent,Tools 这三个的概念和区别介绍一下?
- 4. 了解哪些其他的 Agent 设计范式?Agent 和 Workflow 的区别是什么?
- 5. Agent 推理模式有哪些?ReAct 是啥?具体是怎么实现的?
- 6. ReAct、Plan-and-Execute、Reflection 三种范式有什么核心区别?实际项目中该如何选型?
- 7. 复杂任务怎么做的任务拆分?为什么要拆分?效果如何提升?
- 8. 请你介绍一下 AI Agent 的记忆机制,并说明在实际开发中应该如何设计记忆模块?
- 9. Agent 的长短期记忆系统怎么做的?记忆是怎么存的?粒度是多少?怎么用的?
- 10. 什么是 Multi-Agent?
- 11. 说说 Single-Agent 和 Multi-Agent 的设计方案?
- 12. Agent 记忆压缩通常有哪些方法?
- 13. 在工程实践中,为什么有时候选择「手搓」Agent,而不是直接用成熟框架?
- 14. 如何赋予 LLM 规划能力?
- 15. 讲讲 Agent 的反思机制?为什么要用反思?具体怎么实现?
- 16. 如何设计多 Agent 的协作与动态切换机制?
RAG 面试专题
RAG 是把外部知识接入大模型最主流的方案,现在几乎所有 AI 应用里都有它的影子,面试里肯定绕不开。这个专题从 RAG 的基础原理一路讲到工程落地,覆盖了整条链路。
第一块是基础,先把 RAG 是什么、解决了大模型哪些根本问题讲清楚,然后对比 RAG 和微调各自该用在什么场景,这是面试开场的必考题,得答出层次来。
第二块是索引构建,文档怎么切割(Chunking)、粒度怎么定、语义被切断了怎么办、Embedding 是什么怎么选、向量数据库怎么选型、怎么用,这一块是 RAG 系统搭起来之前必须搞定的事,问题看着简单,但每道深入问下去都有坑。
第三块是检索优化,这是最容易在面试里拉开差距的部分。一般人能说出「向量检索」,但 Query Rewrite 是什么、为什么要做、多路召回怎么设计、各种检索优化策略是什么、有哪些更复杂的 RAG 范式(比如 Self-RAG、Corrective RAG)、图数据库什么时候用,这些点很多人答不上来,但这恰恰是面试官最爱深挖的地方。
第四块是生产落地,幻觉怎么规避、效果怎么量化、知识库怎么动态更新,最后一道「RAG 落地最难的地方」是个开放题,没有标准答案,但能答好这道题的人,面试官基本就认可你真的做过 RAG 系统了。
📖 专题完整介绍:RAG 面试专题首页
- 1. 什么是 RAG?详细描述一个完整 RAG 系统的详细工作流程?
- 2. 大模型的 RAG 主要用来解决什么问题?
- 3. 相比直接微调 LLM,RAG 解决了什么问题?微调和 RAG 各自的优劣势是什么?
- 4. RAG 中的文档是怎么存的?粒度是多大?详细说说文档切割(Chunking)策略?
- 5. 怎么规避语义被切割掉的问题?
- 6. 在 RAG 中 Embedding 究竟是什么?如何选择和评估一个 Embedding 模型?
- 7. Embedding 有哪几种算法你了解过吗?
- 8. 什么是向量数据库?有没有做过向量数据库的对比选型?
- 9. 讲讲你用的向量数据库?数据量级是多大?性能如何?遇到过性能瓶颈吗?
- 10. 你使用 RAG 给大模型一个输入,系统是怎样的工作流程?
- 11. 请你介绍一下向量检索和关键词检索的区别?
- 12. 如何润色用户的 Query(Query Rewrite)?目的是什么?
- 13. 什么是多路召回?具体怎么做?
- 14. RAG 检索优化策略有哪些?
- 15. 了解哪些更复杂的 RAG 范式?
- 16. 在什么场景下,你会选择使用图数据库来增强传统的向量检索?
- 17. 如何规避 RAG 系统中大模型的幻觉?
- 18. 怎么量化你的 RAG 效果?
- 19. RAG 知识库如何实现动态与持续更新?
- 20. 在实际落地中,你觉得 RAG 最难的地方是哪里?
LLM 工具调用面试专题
做 AI 应用光让模型能聊天是不够的,你得让它能「干活」,能查数据库、能调 API、能操作文件,这些背后就是工具调用。
Function Calling、MCP、Agent Skill 这些概念现在面试问得越来越多,但很多人对它们的理解还停留在「都是调工具的」这个层面,一追问就分不清谁是谁了。涵盖 Function Calling 原理与训练、MCP 协议架构、FC 与 MCP 对比选型、Agent Skill 知识封装、A2A 协议、通信协议对比、LLM 网关等面试题。
也是按模块来聊。前三道是 Function Calling 基础,FC 到底是什么、模型怎么学会调工具的、训练过程是怎样的,这是整个工具调用体系的地基,很多人只知道「模型能调工具」,但说不清模型输出的是什么格式、谁决策谁执行,面试官一追问就露馅。
第 4 到第 5 题是 MCP 协议,MCP 是什么、由哪几部分组成。MCP 现在是 AI 工具生态最热门的话题,理解了 MCP 的架构和组成,后面的对比和选型才有基础。
第 6 到第 8 题是 FC 与 MCP 的对比和选型,两者到底有什么区别、什么场景该用哪个、为什么有些推理模型不支持 MCP。这块最容易拉开差距,大部分人只会单独解释概念,说不清它们的关系和选型依据。
第 9 到第 11 题是 Agent Skill,Skill 是什么、和 MCP 有什么区别、FC/Skill/MCP 三者到底是什么关系。Skill 是 Anthropic 推出并开放为跨平台标准的概念,把使用工具完成任务的知识和流程打包成可复用模块,和 MCP 提供的工具能力形成互补。理解了这三层架构(FC 是语言、MCP 是工具箱、Skill 是操作手册),你对整个工具调用体系就有全局视角了。
第 12 题是 A2A 协议,A2A 是什么、跟 MCP 有什么区别。A2A 是 Google 推出的 Agent 间协作协议,属于进阶内容。第 13 到第 15 题是 通信协议,MCP 的通信方式、SSE 和 WebSocket 的区别、WebRTC 在 AI 对话场景里的角色,偏底层实现,面试官有时会从 MCP 架构往下追问到通信协议层。最后第 16 题聊 LLM 网关,偏工程实践,做过线上项目的同学答起来会很有优势。
📖 专题完整介绍:LLM 工具调用面试专题首页
- 1. 什么是 Function Calling?原理是什么?
- 2. LLM 是如何学会调用外部工具的?
- 3. 大模型的 Function Call 能力是怎么训练出来的?
- 4. 什么是 MCP(模型上下文协议)?讲讲它的核心内容?
- 5. MCP 由哪几部分组成?
- 6. MCP 和 Function Calling 有什么区别?有没有实际跑过 MCP?
- 7. Function Calling 也属于工具调用,请问什么场景下使用 Function Calling,什么场景下使用 MCP?
- 8. 为什么有些特定的推理模型不支持 MCP 协议?
- 9. Skill 是什么?
- 10. MCP 和 Agent Skill 的区别是什么?
- 11. Function Calling、Skill、MCP 这三个有什么区别?
- 12. 什么是 A2A 协议?它和 MCP 协议的区别是什么?
- 13. MCP 协议通常采用什么通信方式?
- 14. 说说 WebSocket 和 SSE 通信的区别及局限性?
- 15. 为什么要用 WebRTC 协议?它和 WebSocket 在 AI 对话流中的核心差异是什么?
- 16. 有没有用过大模型的网关框架?网关层解决了什么问题?
大模型工程面试专题
LLM 现在基本是 AI 工程的「地基」了,不管你做的是 Agent、RAG 还是工具调用,上面跑的都是 LLM。所以只要你面 AI 工程方向的岗位,LLM 底层原理几乎都会被问,问得也越来越深。
这个专题聚焦的是「大模型本身」的底层技术,整理了 22 道高频题,按六块组织。
前 5 道是认知与基础原理,LLM 是什么、Transformer 架构、MHA 优化(MQA/GQA/Flash Attention)、位置编码(RoPE 等)、分词器。这五道是底层原理的地基,搞不清楚后面所有的东西都讲不透。
第 6-11 道是训练全景与微调,从「大模型怎么训练出来」这个全景题开始,展开 Scaling Law、微调方案(LoRA/QLoRA)、Post-Training 家族(RLHF/DPO/GRPO/拒绝采样)、DPO vs PPO 对比。这一块偏理论,Agent 开发短期可以略读。
第 12-15 道是推理与生成,讲清楚解码策略(贪心、Beam Search、采样)、采样参数(温度/Top-P/Top-K)、KV Cache + Prompt Caching、量化(INT4/AWQ/GPTQ)。这一块是部署优化的核心,Agent 调用次数多,Prompt Caching 能省 90% 输入 token 费用。
第 16-18 道是应用与 Prompt 工程,讲 Prompt 怎么写好(五要素 + 进阶技巧)、CoT 怎么用、幻觉为什么会出现以及怎么缓解。这一块是所有 LLM 应用岗的必问基础。
第 19-20 道是架构演进与部署,MoE 混合专家模型(DeepSeek V3 为什么便宜)、推理框架对比(vLLM / SGLang / TGI / llama.cpp 怎么选)。
最后 21-22 道是评测与选型,学术 Benchmark 的局限、业务测试集怎么建、实际项目选型逻辑,「你们项目为什么选这个模型不选那个」是几乎每场面试都会有的开放题。
📖 专题完整介绍:大模型工程面试专题首页
- 1. 什么是大语言模型?和传统 NLP 模型有什么区别?
- 2. 讲讲 Transformer 架构基本原理?Encoder 和 Decoder 是什么?
- 3. 多头注意力(MHA)有哪些局限?MQA、GQA、Flash Attention 怎么解决?
- 4. 大模型的位置编码是干什么用的?sin/cos、RoPE、ALiBi 有什么区别?
- 5. 什么是大模型项目的分词器?原理是什么?
- 6. 大模型是怎么训练出来的?
- 7. 什么是 Scaling Law?大模型的「涌现能力」是怎么回事?
- 8. 大模型微调的方案有哪些?
- 9. 请讲一下 LoRA 技术,除了减少参数量,它还有哪些优点?
- 10. SFT 之后还有哪些 Post-Training?RLHF、DPO、GRPO、拒绝采样什么关系?
- 11. 大模型的 DPO 和 PPO 的区别是什么?
- 12. 大模型生成文本时的解码策略有哪些?贪心、Beam Search、采样分别什么时候用?
- 13. 大模型的参数:温度值、Top-P、Top-K 分别是什么?各个场景下的最佳设置是什么?
- 14. KV Cache 是什么?Prompt Caching 的原理是什么?
- 15. 大模型量化是什么?INT8/INT4/AWQ/GPTQ 怎么选?
- 16. 如何写好 Prompt?分享下 Prompt 工程实践经验?
- 17. 什么是 CoT?为啥效果好?它有什么缺点或局限性?
- 18. 大模型为什么会出现幻觉?怎么缓解?
- 19. MoE 混合专家模型是什么?DeepSeek V3、Qwen 为什么用 MoE?
- 20. 大模型部署有哪些主流方案?vLLM、TGI、llama.cpp、SGLang 实际项目里怎么选?
- 21. 大模型能力评测指标有哪些?
- 22. 对比使用过哪些主流大模型?你们项目中最终选用了哪个模型?为什么?
对了,大模型面试题会在「公众号@小林面试笔记题」持续更新,林友们赶紧关注起来,别错过最新干货哦!


