#十五、最新架构面试最爱怎么问
如果把 2025-2026 年架构类问题单独拎出来,最爱问的其实不是某一篇论文的细枝末节,而是“为什么要往这个方向演化”。
#高频问题簇 A:从经典 Transformer 到现代开源基座
- 为什么
LLaMA/Qwen这一代模型常见组合是Decoder-only + RoPE + RMSNorm + SwiGLU + GQA? - 这些改动里,哪些主要提高效果,哪些主要提高稳定性,哪些主要优化推理?
- 如果必须删掉其中一个组件,你最不想删哪个,为什么?
#就地速答
- 问:为什么
LLaMA/Qwen这一代模型常见组合是Decoder-only + RoPE + RMSNorm + SwiGLU + GQA?答:因为这套组合分别覆盖位置建模、训练稳定性、FFN 表达能力和推理缓存效率四个目标,所以在效果、稳定性和部署成本之间形成了很均衡的工程解。详见后文“### 21. 为什么现代开源 LLM 经常采用
RoPE + RMSNorm + SwiGLU + GQA这套组合?”。 - 问:这些改动里,哪些主要提高效果,哪些主要提高稳定性,哪些主要优化推理?
答:
SwiGLU更偏提升表达能力和效果,RMSNorm更偏稳定训练,GQA更偏优化推理缓存与带宽,RoPE则主要服务位置建模与长度泛化。 - 问:如果必须删掉其中一个组件,你最不想删哪个,为什么?
答:我最不想先删位置编码路线,比如
RoPE,因为一旦失去稳定的位置建模,整个自回归 Transformer 的顺序感就会明显受损,后续很多能力都会一起塌。
#高频问题簇 B:后 Transformer 时代探索
MoE、MLA、Mamba/SSM、linear attention各自想解决什么瓶颈?- 这些路线里,哪一类更偏“提升容量”,哪一类更偏“提升长序列效率”,哪一类更偏“降低缓存成本”?
- 为什么今天行业仍以 Transformer 主干为主,而不是已经全面切到新架构?
#就地速答
- 问:
MoE、MLA、Mamba/SSM、linear attention各自想解决什么瓶颈?答:
MoE主要扩容量,MLA主要压缩推理缓存与带宽,Mamba/SSM主要提高长序列状态建模效率,linear attention则试图缓解标准 attention 的二次复杂度。 - 问:这些路线里,哪一类更偏“提升容量”,哪一类更偏“提升长序列效率”,哪一类更偏“降低缓存成本”?
答:提升容量最典型的是
MoE;提升长序列效率更多是Mamba/SSM和一些linear attention路线;降低缓存成本则更接近MLA/GQA/MQA这类设计。 - 问:为什么今天行业仍以 Transformer 主干为主,而不是已经全面切到新架构?
答:因为 Transformer 在规模扩展、训练稳定性、推理内核、工具链和生态成熟度上仍然最强,很多新路线是在补某个瓶颈,但还没在全链路上全面胜出。
#高频问题簇 C:你是否真的理解“最新”
面试官很多时候不是要你背最新论文,而是看你能不能把新路线放回老问题里:
- 问
MoE,本质是在问“如何扩大容量”; - 问
GQA/MLA,本质是在问“如何压推理缓存”; - 问
Mamba/SSM,本质是在问“如何做长序列高效建模”; - 问
FlashAttention,本质是在问“如何让同一架构跑得更快”。