15. 十一、模型架构专项题库

#十一、模型架构专项题库

这一部分是最近两年越来越容易单独拿出来考的，因为很多公司已经不满足于问“Transformer 是什么”，而会继续追问“为什么现在的主流架构已经不是最初那版 Transformer 了”。

#1. 必会架构分类题

#高频笔试题

Encoder-only、Decoder-only、Encoder-Decoder 三种架构分别适合什么任务？
为什么大语言模型大多采用 Decoder-only？
BERT、T5、GPT 代表了哪三类典型架构？
MoE 架构和 dense（稠密）架构的差异是什么？
MHA、MQA、GQA 分别是什么？

#就地速答

问：Encoder-only、Decoder-only、Encoder-Decoder 三种架构分别适合什么任务？
答：它们分别适合三类问题：Encoder-only 更适合理解类任务，Decoder-only 更适合自回归生成，Encoder-Decoder 更适合翻译、摘要这类条件生成任务。
问：为什么大语言模型大多采用 Decoder-only？
答：因为它和 next-token prediction 目标天然一致，数据组织简单、生成任务统一、推理缓存成熟，所以最适合作为通用 LLM 基座。
问：BERT、T5、GPT 代表了哪三类典型架构？
答：它们分别代表 Encoder-only、Encoder-Decoder、Decoder-only 三条典型路线：BERT 强表示学习，T5 强条件生成，GPT 强统一自回归生成。
问：MoE 架构和 dense（稠密）架构的差异是什么？
答：dense 是每个 token 都走完整参数路径，MoE 是每个 token 只激活少数专家，所以 MoE 更擅长扩大容量，但会引入路由、负载均衡和跨卡通信复杂度。
问：MHA、MQA、GQA 分别是什么？
答：MHA 是每个注意力头都有独立 K/V，MQA 是多个 query 头共享一组 K/V，GQA 则是在两者之间做分组共享，用较小质量损失换更低缓存成本。

#高频面试题

如果让你从零选一个基础架构做企业通用 LLM，你为什么会优先考虑 Decoder-only？
Encoder-Decoder 为什么在翻译、摘要里历史上很强，但在超大规模通用 LLM 上不是绝对主流？
dense 模型和 MoE 模型在训练成本、推理成本、路由稳定性上的 trade-off 是什么？
为什么很多新模型在注意力头设计上从 MHA 转向 GQA / MQA？

#就地速答

问：如果让你从零选一个基础架构做企业通用 LLM，你为什么会优先考虑 Decoder-only？
答：因为企业通用 LLM 通常要统一处理问答、写作、代码、Agent 等生成任务，Decoder-only 在预训练目标、推理缓存、生态工具链和规模扩展上最顺，综合工程成本最低。
问：Encoder-Decoder 为什么在翻译、摘要里历史上很强，但在超大规模通用 LLM 上不是绝对主流？
答：因为它对条件生成很自然，但在海量通用数据预训练、统一任务范式、推理生态和工程复杂度上不如 Decoder-only 简洁，所以在通用基座模型上没有形成压倒性优势。
问：dense 模型和 MoE 模型在训练成本、推理成本、路由稳定性上的 trade-off 是什么？
答：dense 更稳定、实现更简单，但容量提升往往意味着每 token 计算同步变大；MoE 能用稀疏激活换更大总容量，却要承担路由器训练、热点专家、负载不均和通信放大等代价。
问：为什么很多新模型在注意力头设计上从 MHA 转向 GQA / MQA？
答：核心原因是推理阶段 KV cache 太贵，GQA/MQA 通过共享 K/V 显著降低缓存和带宽压力，只用较小质量代价换来更好的长上下文与高并发可部署性。

#2. 最新架构趋势题

这里的“最新”不是指一定会考某篇最新论文，而是指最近行业问得越来越多的架构方向。

#高频方向 A：MoE（Mixture of Experts，混合专家）

#常见问法

MoE 为什么能在总参数量变大的同时，把单 token 激活计算量控制住？
top-k expert routing（Top-k 专家路由）是怎么做的？
expert imbalance（专家负载不均）为什么是个问题？
为什么 MoE 模型训练和部署都更复杂？

#答题要点

MoE 的核心不是“参数更多”，而是“每个 token 只激活一小部分专家”，因此总容量大，但单步计算不一定线性变大。
真正难点在路由：负载均衡、通信开销、expert specialization（专家专门化）是否稳定。
要能区分“参数量大”和“每 token FLOPs 大”不是一回事。

#高频方向 B：GQA / MQA（Grouped / Multi-Query Attention）

#常见问法

为什么 GQA / MQA 对推理尤其重要？
它们和标准 MHA 相比主要节省了什么？
为什么它们通常对质量有轻微影响，但工程上仍然值得？

#答题要点

关键是减少 KV cache 的存储量与带宽压力。
MHA 是每个 query 头都有独立 K/V；MQA 是多个 query 头共享同一组 K/V；GQA 介于两者之间，用分组共享来平衡质量与成本。

#高频方向 C：MLA（Multi-head Latent Attention，多头潜变量注意力）

#常见问法

为什么会出现 MLA 这类设计？
它和传统 KV cache 优化路线有什么关系？
它想解决的是参数问题、计算问题，还是缓存问题？

#答题要点

这类设计的核心目标通常不是“让 attention 更准确”，而是“进一步压缩推理阶段的缓存与带宽成本”。
面试里如果被问到，不一定要求你会公式，但要知道它属于“为长上下文和高吞吐服务的 attention/缓存优化路线”。

#高频方向 D：SSM / Mamba / 混合架构

#常见问法

为什么会有人尝试用 SSM（State Space Model，状态空间模型）或 Mamba 一类架构替代 attention？
它们相比 Transformer 的理论优势是什么？
为什么它们还没有在通用 LLM 里完全替代 Transformer？

#答题要点

它们主要试图缓解长序列下 attention 的二次复杂度与缓存压力。
理论卖点通常是线性复杂度、长序列建模效率更高。
现实问题是：生态、训练稳定性、通用性、与现有工具链兼容性还没有完全压过 Transformer。

#高频方向 E：FlashAttention / PagedAttention / 线性注意力

#常见问法

FlashAttention 解决的是模型架构问题，还是 kernel 实现问题？
FlashAttention 为什么能提速、省显存？
PagedAttention 想解决的核心瓶颈是什么？
线性注意力为什么一直有人研究，但主流 LLM 仍以标准 attention 及其变体为主？

#答题要点

FlashAttention 本质上更偏 attention kernel 与内存访问优化，不是重新发明 Transformer 架构。
它的核心价值是减少中间 attention matrix 的显式落地与高带宽显存访问，提高 IO 效率。
PagedAttention 更像是“推理缓存管理”优化，重点是让 KV cache 像分页内存一样更高效复用，适合 serving 场景。
线性注意力一直重要，因为大家都想摆脱 O(n^2)；但真实落地里还要同时满足稳定性、效果、工具链兼容和生态成熟度。

#高频方向 F：RWKV / RetNet / 混合 Attention-SSM

#常见问法

RWKV 这类架构为什么会被拿来和 Transformer 比？
混合架构为什么越来越多，而不是彻底 all-in 单一路线？

#答题要点

这类路线共同目标是：尽量保留 Transformer 的训练友好性，同时吸收 RNN/SSM 在线性时序建模上的优势。
面试时不一定要求你精确背论文细节，但至少要知道它们代表的是“后 Transformer 时代的候选路线”，核心命题是长序列效率与状态压缩。

#3. 架构细节高频题

#高频笔试题

为什么很多现代 LLM 使用 RMSNorm 而不是 LayerNorm？
为什么很多模型用 SwiGLU / GeGLU 替代普通 ReLU FFN？
为什么 Pre-Norm 更适合深层训练？
residual connection（残差连接）对训练深层网络的作用是什么？

#就地速答

问：为什么很多现代 LLM 使用 RMSNorm 而不是 LayerNorm？
答：RMSNorm 不做显式去均值，计算更简单，在现代 LLM 里通常已经足够稳定，所以常被用来换取更低实现成本和更好的训练实践表现。
问：为什么很多模型用 SwiGLU / GeGLU 替代普通 ReLU FFN？
答：因为门控 FFN 比普通 ReLU FFN 表达能力更强，能让不同通道的信息流更有选择性，通常能以适度计算代价换来更好的效果。
问：为什么 Pre-Norm 更适合深层训练？
答：因为它把归一化放到子层前，能让残差主路径更像稳定的恒等映射，深层网络里的梯度传递更顺，更不容易训练发散。
问：residual connection（残差连接）对训练深层网络的作用是什么？
答：残差连接给信息和梯度提供了近似直通路径，让深层网络不必每层都重新学完整变换，因此更容易优化、也更不容易出现梯度消失。

#高频面试题

RMSNorm + SwiGLU + RoPE + GQA 这类组合为什么会在现代开源模型里反复出现？
一个结构改动到底是“提高上限”，还是“提高训练稳定性 / 推理效率”，你怎么区分？

#就地速答

问：RMSNorm + SwiGLU + RoPE + GQA 这类组合为什么会在现代开源模型里反复出现？
答：因为这组组件分别覆盖了位置建模、训练稳定性、FFN 表达能力和推理缓存效率四个核心目标，整体上是在效果、稳定性和部署成本之间较均衡的工程组合。
问：一个结构改动到底是“提高上限”，还是“提高训练稳定性 / 推理效率”，你怎么区分？
答：看它主要改善哪类指标：如果显著提高同规模 benchmark 或下游效果，更像抬上限；如果主要改善收敛、梯度稳定、显存、延迟和吞吐，更像在补训练稳定性或推理效率。

#4. 架构题作答模板

回答模型架构题时，建议固定成：

这个结构要解决什么问题；
它怎么改了信息流或计算图；
它带来了什么收益；
它付出的代价是什么；
它在今天的主流模型里处于什么位置。