#高频追问题 Top 15

下面这些问题出现频率非常高,几乎可以当作“大模型面试最小必会集”:

  1. Transformer 为什么有效?
  2. Self-Attention 怎么算,复杂度是多少?
  3. 为什么主流 LLM 多是 Decoder-only?
  4. BPE / WordPiece / SentencePiece 有什么区别?
  5. RoPE 为什么好,用久了又会遇到什么问题?
  6. SFT 和 Continue Pretraining 分别解决什么问题?
  7. LoRA / QLoRA / Full Fine-Tuning 怎么选?
  8. RLHF 和 DPO 到底差在哪?
  9. KV cache 为什么能加速,又为什么吃显存?
  10. RAG 的链路怎么拆,问题怎么定位?
  11. reranker 为什么重要?
  12. Agent 和 workflow 的边界是什么?
  13. hallucination 从哪里来,怎么缓解?
  14. 怎么评估一个大模型系统,不只是评估模型?
  15. 如果让你做一个线上 LLM 应用,你会怎么控成本、控风险、保效果?

#就地速答

  • 问:Transformer 为什么有效?

    答:因为它同时具备强表达能力、并行训练友好和大规模扩展能力,既能直接建模长距离依赖,又能很好适配现代 GPU 集群。

  • 问:Self-Attention 怎么算,复杂度是多少?

    答:先把输入投影成 Q/K/V,再算 QK^T / sqrt(d_k)、做 softmax,并对 V 加权求和;核心时间和注意力矩阵空间复杂度通常都随序列长度呈 O(n^2) 增长。

  • 问:为什么主流 LLM 多是 Decoder-only?

    答:因为它和自回归预训练目标天然一致,数据组织简单、生成任务统一、生态成熟,所以在通用大模型里最常见。

  • 问:BPE / WordPiece / SentencePiece 有什么区别?

    答:三者都是子词切分方法,区别在于词表构建规则和是否依赖预分词,其中 SentencePiece 更适合多语言和原始文本场景。

  • 问:RoPE 为什么好,用久了又会遇到什么问题?

    答:它能把相对位置信息直接融入 attention 计算,对自回归模型很友好;但超长上下文下仍会遇到训练分布外退化、注意力稀释和位置外推问题。

  • 问:SFT 和 Continue Pretraining 分别解决什么问题?

    答:Continue Pretraining 主要补领域知识和分布,SFT 主要补任务行为和输出格式,前者让模型“更懂”,后者让模型“更会答”。

  • 问:LoRA / QLoRA / Full Fine-Tuning 怎么选?

    答:任务差异大、资源充足时可考虑全参微调;资源受限且希望快速适配时优先 LoRA/QLoRA,其中 QLoRA 更省显存;如果知识频繁更新,甚至可能不该先微调而该先做 RAG。

  • 问:RLHF 和 DPO 到底差在哪?

    答:RLHF 通常先训练奖励模型再做强化学习优化,链路更完整但更复杂;DPO 直接把偏好对写进目标函数,工程更简单、更稳。

  • 问:KV cache 为什么能加速,又为什么吃显存?

    答:它缓存历史 token 的 K/V,避免每步重算,从而提速;但序列越长、batch 越大、层越多,缓存也会快速膨胀,占用大量显存。

  • 问:RAG 的链路怎么拆,问题怎么定位?

    答:一般拆成入库、切块、表征、召回、重排、上下文拼装、生成和评测;定位问题时就按这条链一层层看,而不是一句话说“模型不行”。

  • 问:reranker 为什么重要?

    答:因为 retriever 主要负责别漏掉,reranker 决定最关键证据能不能排到前面,而生成模型通常只真正用好前几个 chunk。

  • 问:hallucination 从哪里来,怎么缓解?

    答:来源可能是参数知识不足、检索失败、证据利用失败或解码过度补全;缓解要结合 RAG、约束生成、引用校验、评测和安全策略一起做。

  • 问:怎么评估一个大模型系统,不只是评估模型?

    答:要同时看离线基准、任务级人工评估、线上行为指标、延迟、成本、安全和工具调用成功率,而不是只看 benchmark 分数。

  • 问:如果让你做一个线上 LLM 应用,你会怎么控成本、控风险、保效果?

    答:通常要做模型分级、缓存、RAG 提效、限流和安全审核,同时保留监控、AB 实验、回滚和人工兜底,做到效果、成本和风险三者平衡。