#十五、最新架构面试最爱怎么问

如果把 2025-2026 年架构类问题单独拎出来,最爱问的其实不是某一篇论文的细枝末节,而是“为什么要往这个方向演化”。

#高频问题簇 A:从经典 Transformer 到现代开源基座

  1. 为什么 LLaMA/Qwen 这一代模型常见组合是 Decoder-only + RoPE + RMSNorm + SwiGLU + GQA
  2. 这些改动里,哪些主要提高效果,哪些主要提高稳定性,哪些主要优化推理?
  3. 如果必须删掉其中一个组件,你最不想删哪个,为什么?

#就地速答

  • 问:为什么 LLaMA/Qwen 这一代模型常见组合是 Decoder-only + RoPE + RMSNorm + SwiGLU + GQA

    答:因为这套组合分别覆盖位置建模、训练稳定性、FFN 表达能力和推理缓存效率四个目标,所以在效果、稳定性和部署成本之间形成了很均衡的工程解。详见后文“### 21. 为什么现代开源 LLM 经常采用 RoPE + RMSNorm + SwiGLU + GQA 这套组合?”。

  • 问:这些改动里,哪些主要提高效果,哪些主要提高稳定性,哪些主要优化推理?

    答:SwiGLU 更偏提升表达能力和效果,RMSNorm 更偏稳定训练,GQA 更偏优化推理缓存与带宽,RoPE 则主要服务位置建模与长度泛化。

  • 问:如果必须删掉其中一个组件,你最不想删哪个,为什么?

    答:我最不想先删位置编码路线,比如 RoPE,因为一旦失去稳定的位置建模,整个自回归 Transformer 的顺序感就会明显受损,后续很多能力都会一起塌。

#高频问题簇 B:后 Transformer 时代探索

  1. MoEMLAMamba/SSMlinear attention 各自想解决什么瓶颈?
  2. 这些路线里,哪一类更偏“提升容量”,哪一类更偏“提升长序列效率”,哪一类更偏“降低缓存成本”?
  3. 为什么今天行业仍以 Transformer 主干为主,而不是已经全面切到新架构?

#就地速答

  • 问:MoEMLAMamba/SSMlinear attention 各自想解决什么瓶颈?

    答:MoE 主要扩容量,MLA 主要压缩推理缓存与带宽,Mamba/SSM 主要提高长序列状态建模效率,linear attention 则试图缓解标准 attention 的二次复杂度。

  • 问:这些路线里,哪一类更偏“提升容量”,哪一类更偏“提升长序列效率”,哪一类更偏“降低缓存成本”?

    答:提升容量最典型的是 MoE;提升长序列效率更多是 Mamba/SSM 和一些 linear attention 路线;降低缓存成本则更接近 MLA/GQA/MQA 这类设计。

  • 问:为什么今天行业仍以 Transformer 主干为主,而不是已经全面切到新架构?

    答:因为 Transformer 在规模扩展、训练稳定性、推理内核、工具链和生态成熟度上仍然最强,很多新路线是在补某个瓶颈,但还没在全链路上全面胜出。

#高频问题簇 C:你是否真的理解“最新”

面试官很多时候不是要你背最新论文,而是看你能不能把新路线放回老问题里:

  • MoE,本质是在问“如何扩大容量”;
  • GQA/MLA,本质是在问“如何压推理缓存”;
  • Mamba/SSM,本质是在问“如何做长序列高效建模”;
  • FlashAttention,本质是在问“如何让同一架构跑得更快”。