21. 十五、最新架构面试最爱怎么问 - 大模型面试题库

#十五、最新架构面试最爱怎么问

如果把 2025-2026 年架构类问题单独拎出来，最爱问的其实不是某一篇论文的细枝末节，而是“为什么要往这个方向演化”。

#高频问题簇 A：从经典 Transformer 到现代开源基座

为什么 LLaMA/Qwen 这一代模型常见组合是 Decoder-only + RoPE + RMSNorm + SwiGLU + GQA？
这些改动里，哪些主要提高效果，哪些主要提高稳定性，哪些主要优化推理？
如果必须删掉其中一个组件，你最不想删哪个，为什么？

#就地速答

问：为什么 LLaMA/Qwen 这一代模型常见组合是 Decoder-only + RoPE + RMSNorm + SwiGLU + GQA？
答：因为这套组合分别覆盖位置建模、训练稳定性、FFN 表达能力和推理缓存效率四个目标，所以在效果、稳定性和部署成本之间形成了很均衡的工程解。详见后文“### 21. 为什么现代开源 LLM 经常采用 RoPE + RMSNorm + SwiGLU + GQA 这套组合？”。
问：这些改动里，哪些主要提高效果，哪些主要提高稳定性，哪些主要优化推理？
答：SwiGLU 更偏提升表达能力和效果，RMSNorm 更偏稳定训练，GQA 更偏优化推理缓存与带宽，RoPE 则主要服务位置建模与长度泛化。
问：如果必须删掉其中一个组件，你最不想删哪个，为什么？
答：我最不想先删位置编码路线，比如 RoPE，因为一旦失去稳定的位置建模，整个自回归 Transformer 的顺序感就会明显受损，后续很多能力都会一起塌。

#高频问题簇 B：后 Transformer 时代探索

MoE、MLA、Mamba/SSM、linear attention 各自想解决什么瓶颈？
这些路线里，哪一类更偏“提升容量”，哪一类更偏“提升长序列效率”，哪一类更偏“降低缓存成本”？
为什么今天行业仍以 Transformer 主干为主，而不是已经全面切到新架构？

#就地速答

问：MoE、MLA、Mamba/SSM、linear attention 各自想解决什么瓶颈？
答：MoE 主要扩容量，MLA 主要压缩推理缓存与带宽，Mamba/SSM 主要提高长序列状态建模效率，linear attention 则试图缓解标准 attention 的二次复杂度。
问：这些路线里，哪一类更偏“提升容量”，哪一类更偏“提升长序列效率”，哪一类更偏“降低缓存成本”？
答：提升容量最典型的是 MoE；提升长序列效率更多是 Mamba/SSM 和一些 linear attention 路线；降低缓存成本则更接近 MLA/GQA/MQA 这类设计。
问：为什么今天行业仍以 Transformer 主干为主，而不是已经全面切到新架构？
答：因为 Transformer 在规模扩展、训练稳定性、推理内核、工具链和生态成熟度上仍然最强，很多新路线是在补某个瓶颈，但还没在全链路上全面胜出。

#高频问题簇 C：你是否真的理解“最新”

面试官很多时候不是要你背最新论文，而是看你能不能把新路线放回老问题里：

问 MoE，本质是在问“如何扩大容量”；
问 GQA/MLA，本质是在问“如何压推理缓存”；
问 Mamba/SSM，本质是在问“如何做长序列高效建模”；
问 FlashAttention，本质是在问“如何让同一架构跑得更快”。