30. 高频追问题 Top 15 - 大模型面试题库

#高频追问题 Top 15

下面这些问题出现频率非常高，几乎可以当作“大模型面试最小必会集”：

Transformer 为什么有效？
Self-Attention 怎么算，复杂度是多少？
为什么主流 LLM 多是 Decoder-only？
BPE / WordPiece / SentencePiece 有什么区别？
RoPE 为什么好，用久了又会遇到什么问题？
SFT 和 Continue Pretraining 分别解决什么问题？
LoRA / QLoRA / Full Fine-Tuning 怎么选？
RLHF 和 DPO 到底差在哪？
KV cache 为什么能加速，又为什么吃显存？
RAG 的链路怎么拆，问题怎么定位？
reranker 为什么重要？
Agent 和 workflow 的边界是什么？
hallucination 从哪里来，怎么缓解？
怎么评估一个大模型系统，不只是评估模型？
如果让你做一个线上 LLM 应用，你会怎么控成本、控风险、保效果？

#就地速答

问：Transformer 为什么有效？
答：因为它同时具备强表达能力、并行训练友好和大规模扩展能力，既能直接建模长距离依赖，又能很好适配现代 GPU 集群。
问：Self-Attention 怎么算，复杂度是多少？
答：先把输入投影成 Q/K/V，再算 QK^T / sqrt(d_k)、做 softmax，并对 V 加权求和；核心时间和注意力矩阵空间复杂度通常都随序列长度呈 O(n^2) 增长。
问：为什么主流 LLM 多是 Decoder-only？
答：因为它和自回归预训练目标天然一致，数据组织简单、生成任务统一、生态成熟，所以在通用大模型里最常见。
问：BPE / WordPiece / SentencePiece 有什么区别？
答：三者都是子词切分方法，区别在于词表构建规则和是否依赖预分词，其中 SentencePiece 更适合多语言和原始文本场景。
问：RoPE 为什么好，用久了又会遇到什么问题？
答：它能把相对位置信息直接融入 attention 计算，对自回归模型很友好；但超长上下文下仍会遇到训练分布外退化、注意力稀释和位置外推问题。
问：SFT 和 Continue Pretraining 分别解决什么问题？
答：Continue Pretraining 主要补领域知识和分布，SFT 主要补任务行为和输出格式，前者让模型“更懂”，后者让模型“更会答”。
问：LoRA / QLoRA / Full Fine-Tuning 怎么选？
答：任务差异大、资源充足时可考虑全参微调；资源受限且希望快速适配时优先 LoRA/QLoRA，其中 QLoRA 更省显存；如果知识频繁更新，甚至可能不该先微调而该先做 RAG。
问：RLHF 和 DPO 到底差在哪？
答：RLHF 通常先训练奖励模型再做强化学习优化，链路更完整但更复杂；DPO 直接把偏好对写进目标函数，工程更简单、更稳。
问：KV cache 为什么能加速，又为什么吃显存？
答：它缓存历史 token 的 K/V，避免每步重算，从而提速；但序列越长、batch 越大、层越多，缓存也会快速膨胀，占用大量显存。
问：RAG 的链路怎么拆，问题怎么定位？
答：一般拆成入库、切块、表征、召回、重排、上下文拼装、生成和评测；定位问题时就按这条链一层层看，而不是一句话说“模型不行”。
问：reranker 为什么重要？
答：因为 retriever 主要负责别漏掉，reranker 决定最关键证据能不能排到前面，而生成模型通常只真正用好前几个 chunk。
问：hallucination 从哪里来，怎么缓解？
答：来源可能是参数知识不足、检索失败、证据利用失败或解码过度补全；缓解要结合 RAG、约束生成、引用校验、评测和安全策略一起做。
问：怎么评估一个大模型系统，不只是评估模型？
答：要同时看离线基准、任务级人工评估、线上行为指标、延迟、成本、安全和工具调用成功率，而不是只看 benchmark 分数。
问：如果让你做一个线上 LLM 应用，你会怎么控成本、控风险、保效果？
答：通常要做模型分级、缓存、RAG 提效、限流和安全审核，同时保留监控、AB 实验、回滚和人工兜底，做到效果、成本和风险三者平衡。