跳至主要內容
小林面试笔记
首页
大模型面试题
Agent项目
Agent训练营
后端图解
搜索文档
Ctrl
K
03| 大模型工程面试题
公众号@小林面试笔记
LLM
小于 1 分钟
约 32 字
目录
1. 什么是大语言模型?和传统 NLP 模型有什么区别?
10. SFT 之后还有哪些 Post-Training?RLHF、DPO、GRPO、拒绝采样什么关系?
11. 大模型的 DPO 和 PPO 的区别是什么?
12. 大模型生成文本时的解码策略有哪些?贪心、Beam Search、采样分别什么时候用?
13. 大模型的参数:温度值、Top-P、Top-K 分别是什么?各个场景下的最佳设置是什么?
14. KV Cache 是什么?Prompt Caching 的原理是什么?
15. 大模型量化是什么?INT8/INT4/AWQ/GPTQ 怎么选?
16. 如何写好 Prompt?分享下 Prompt 工程实践经验?
17. 什么是 CoT?为啥效果好?它有什么缺点或局限性?
18. 大模型为什么会出现幻觉?怎么缓解?
19. MoE 混合专家模型是什么?DeepSeek V3、Qwen 为什么用 MoE?
2. 讲讲 Transformer 架构基本原理?Encoder 和 Decoder 是什么?
20. 大模型部署有哪些主流方案?vLLM、TGI、llama.cpp、SGLang 实际项目里怎么选?
21. 大模型能力评测指标有哪些?
22. 对比使用过哪些主流大模型?你们项目中最终选用了哪个模型?为什么?
3. 多头注意力(MHA)有哪些局限?MQA、GQA、Flash Attention 怎么解决?
4. 大模型的位置编码是干什么用的?sin/cos、RoPE、ALiBi 有什么区别?
5. 什么是大模型项目的分词器?原理是什么?
6. 大模型是怎么训练出来的?
8. 大模型微调的方案有哪些?
大模型工程面试题介绍
7. 什么是 Scaling Law?大模型的「涌现能力」是怎么回事?
9. 请讲一下 LoRA 技术,除了减少参数量,它还有哪些优点?
上一页
03| LLM工具调用面试题
下一页
05| LangChain框架面试题