#高频追问题 Top 15
下面这些问题出现频率非常高,几乎可以当作“大模型面试最小必会集”:
- Transformer 为什么有效?
- Self-Attention 怎么算,复杂度是多少?
- 为什么主流 LLM 多是 Decoder-only?
- BPE / WordPiece / SentencePiece 有什么区别?
- RoPE 为什么好,用久了又会遇到什么问题?
- SFT 和 Continue Pretraining 分别解决什么问题?
- LoRA / QLoRA / Full Fine-Tuning 怎么选?
- RLHF 和 DPO 到底差在哪?
- KV cache 为什么能加速,又为什么吃显存?
- RAG 的链路怎么拆,问题怎么定位?
- reranker 为什么重要?
- Agent 和 workflow 的边界是什么?
- hallucination 从哪里来,怎么缓解?
- 怎么评估一个大模型系统,不只是评估模型?
- 如果让你做一个线上 LLM 应用,你会怎么控成本、控风险、保效果?
#就地速答
- 问:Transformer 为什么有效?
答:因为它同时具备强表达能力、并行训练友好和大规模扩展能力,既能直接建模长距离依赖,又能很好适配现代 GPU 集群。
- 问:Self-Attention 怎么算,复杂度是多少?
答:先把输入投影成
Q/K/V,再算QK^T / sqrt(d_k)、做 softmax,并对V加权求和;核心时间和注意力矩阵空间复杂度通常都随序列长度呈O(n^2)增长。 - 问:为什么主流 LLM 多是 Decoder-only?
答:因为它和自回归预训练目标天然一致,数据组织简单、生成任务统一、生态成熟,所以在通用大模型里最常见。
- 问:BPE / WordPiece / SentencePiece 有什么区别?
答:三者都是子词切分方法,区别在于词表构建规则和是否依赖预分词,其中
SentencePiece更适合多语言和原始文本场景。 - 问:RoPE 为什么好,用久了又会遇到什么问题?
答:它能把相对位置信息直接融入 attention 计算,对自回归模型很友好;但超长上下文下仍会遇到训练分布外退化、注意力稀释和位置外推问题。
- 问:SFT 和 Continue Pretraining 分别解决什么问题?
答:Continue Pretraining 主要补领域知识和分布,SFT 主要补任务行为和输出格式,前者让模型“更懂”,后者让模型“更会答”。
- 问:LoRA / QLoRA / Full Fine-Tuning 怎么选?
答:任务差异大、资源充足时可考虑全参微调;资源受限且希望快速适配时优先
LoRA/QLoRA,其中QLoRA更省显存;如果知识频繁更新,甚至可能不该先微调而该先做 RAG。 - 问:RLHF 和 DPO 到底差在哪?
答:
RLHF通常先训练奖励模型再做强化学习优化,链路更完整但更复杂;DPO直接把偏好对写进目标函数,工程更简单、更稳。 - 问:KV cache 为什么能加速,又为什么吃显存?
答:它缓存历史 token 的
K/V,避免每步重算,从而提速;但序列越长、batch 越大、层越多,缓存也会快速膨胀,占用大量显存。 - 问:RAG 的链路怎么拆,问题怎么定位?
答:一般拆成入库、切块、表征、召回、重排、上下文拼装、生成和评测;定位问题时就按这条链一层层看,而不是一句话说“模型不行”。
- 问:reranker 为什么重要?
答:因为 retriever 主要负责别漏掉,reranker 决定最关键证据能不能排到前面,而生成模型通常只真正用好前几个 chunk。
- 问:hallucination 从哪里来,怎么缓解?
答:来源可能是参数知识不足、检索失败、证据利用失败或解码过度补全;缓解要结合 RAG、约束生成、引用校验、评测和安全策略一起做。
- 问:怎么评估一个大模型系统,不只是评估模型?
答:要同时看离线基准、任务级人工评估、线上行为指标、延迟、成本、安全和工具调用成功率,而不是只看 benchmark 分数。
- 问:如果让你做一个线上 LLM 应用,你会怎么控成本、控风险、保效果?
答:通常要做模型分级、缓存、RAG 提效、限流和安全审核,同时保留监控、AB 实验、回滚和人工兜底,做到效果、成本和风险三者平衡。