#十一、模型架构专项题库
这一部分是最近两年越来越容易单独拿出来考的,因为很多公司已经不满足于问“Transformer 是什么”,而会继续追问“为什么现在的主流架构已经不是最初那版 Transformer 了”。
#1. 必会架构分类题
#高频笔试题
Encoder-only、Decoder-only、Encoder-Decoder三种架构分别适合什么任务?- 为什么大语言模型大多采用
Decoder-only? BERT、T5、GPT代表了哪三类典型架构?MoE架构和 dense(稠密)架构的差异是什么?MHA、MQA、GQA分别是什么?
#就地速答
- 问:
Encoder-only、Decoder-only、Encoder-Decoder三种架构分别适合什么任务?答:它们分别适合三类问题:
Encoder-only更适合理解类任务,Decoder-only更适合自回归生成,Encoder-Decoder更适合翻译、摘要这类条件生成任务。 - 问:为什么大语言模型大多采用
Decoder-only?答:因为它和 next-token prediction 目标天然一致,数据组织简单、生成任务统一、推理缓存成熟,所以最适合作为通用 LLM 基座。
- 问:
BERT、T5、GPT代表了哪三类典型架构?答:它们分别代表
Encoder-only、Encoder-Decoder、Decoder-only三条典型路线:BERT强表示学习,T5强条件生成,GPT强统一自回归生成。 - 问:
MoE架构和 dense(稠密)架构的差异是什么?答:
dense是每个 token 都走完整参数路径,MoE是每个 token 只激活少数专家,所以MoE更擅长扩大容量,但会引入路由、负载均衡和跨卡通信复杂度。 - 问:
MHA、MQA、GQA分别是什么?答:
MHA是每个注意力头都有独立K/V,MQA是多个 query 头共享一组K/V,GQA则是在两者之间做分组共享,用较小质量损失换更低缓存成本。
#高频面试题
- 如果让你从零选一个基础架构做企业通用 LLM,你为什么会优先考虑
Decoder-only? Encoder-Decoder为什么在翻译、摘要里历史上很强,但在超大规模通用 LLM 上不是绝对主流?- dense 模型和
MoE模型在训练成本、推理成本、路由稳定性上的 trade-off 是什么? - 为什么很多新模型在注意力头设计上从
MHA转向GQA/MQA?
#就地速答
- 问:如果让你从零选一个基础架构做企业通用 LLM,你为什么会优先考虑
Decoder-only?答:因为企业通用 LLM 通常要统一处理问答、写作、代码、Agent 等生成任务,
Decoder-only在预训练目标、推理缓存、生态工具链和规模扩展上最顺,综合工程成本最低。 - 问:
Encoder-Decoder为什么在翻译、摘要里历史上很强,但在超大规模通用 LLM 上不是绝对主流?答:因为它对条件生成很自然,但在海量通用数据预训练、统一任务范式、推理生态和工程复杂度上不如
Decoder-only简洁,所以在通用基座模型上没有形成压倒性优势。 - 问:dense 模型和
MoE模型在训练成本、推理成本、路由稳定性上的 trade-off 是什么?答:
dense更稳定、实现更简单,但容量提升往往意味着每 token 计算同步变大;MoE能用稀疏激活换更大总容量,却要承担路由器训练、热点专家、负载不均和通信放大等代价。 - 问:为什么很多新模型在注意力头设计上从
MHA转向GQA/MQA?答:核心原因是推理阶段
KV cache太贵,GQA/MQA通过共享K/V显著降低缓存和带宽压力,只用较小质量代价换来更好的长上下文与高并发可部署性。
#2. 最新架构趋势题
这里的“最新”不是指一定会考某篇最新论文,而是指最近行业问得越来越多的架构方向。
#高频方向 A:MoE(Mixture of Experts,混合专家)
#常见问法
MoE为什么能在总参数量变大的同时,把单 token 激活计算量控制住?- top-k expert routing(Top-k 专家路由)是怎么做的?
- expert imbalance(专家负载不均)为什么是个问题?
- 为什么
MoE模型训练和部署都更复杂?
#答题要点
MoE的核心不是“参数更多”,而是“每个 token 只激活一小部分专家”,因此总容量大,但单步计算不一定线性变大。- 真正难点在路由:负载均衡、通信开销、expert specialization(专家专门化)是否稳定。
- 要能区分“参数量大”和“每 token FLOPs 大”不是一回事。
#高频方向 B:GQA / MQA(Grouped / Multi-Query Attention)
#常见问法
- 为什么
GQA/MQA对推理尤其重要? - 它们和标准
MHA相比主要节省了什么? - 为什么它们通常对质量有轻微影响,但工程上仍然值得?
#答题要点
- 关键是减少
KV cache的存储量与带宽压力。 MHA是每个 query 头都有独立K/V;MQA是多个 query 头共享同一组K/V;GQA介于两者之间,用分组共享来平衡质量与成本。
#高频方向 C:MLA(Multi-head Latent Attention,多头潜变量注意力)
#常见问法
- 为什么会出现
MLA这类设计? - 它和传统
KV cache优化路线有什么关系? - 它想解决的是参数问题、计算问题,还是缓存问题?
#答题要点
- 这类设计的核心目标通常不是“让 attention 更准确”,而是“进一步压缩推理阶段的缓存与带宽成本”。
- 面试里如果被问到,不一定要求你会公式,但要知道它属于“为长上下文和高吞吐服务的 attention/缓存优化路线”。
#高频方向 D:SSM / Mamba / 混合架构
#常见问法
- 为什么会有人尝试用
SSM(State Space Model,状态空间模型)或Mamba一类架构替代 attention? - 它们相比 Transformer 的理论优势是什么?
- 为什么它们还没有在通用 LLM 里完全替代 Transformer?
#答题要点
- 它们主要试图缓解长序列下 attention 的二次复杂度与缓存压力。
- 理论卖点通常是线性复杂度、长序列建模效率更高。
- 现实问题是:生态、训练稳定性、通用性、与现有工具链兼容性还没有完全压过 Transformer。
#高频方向 E:FlashAttention / PagedAttention / 线性注意力
#常见问法
FlashAttention解决的是模型架构问题,还是 kernel 实现问题?FlashAttention为什么能提速、省显存?PagedAttention想解决的核心瓶颈是什么?- 线性注意力为什么一直有人研究,但主流 LLM 仍以标准 attention 及其变体为主?
#答题要点
FlashAttention本质上更偏 attention kernel 与内存访问优化,不是重新发明 Transformer 架构。- 它的核心价值是减少中间 attention matrix 的显式落地与高带宽显存访问,提高 IO 效率。
PagedAttention更像是“推理缓存管理”优化,重点是让KV cache像分页内存一样更高效复用,适合 serving 场景。- 线性注意力一直重要,因为大家都想摆脱
O(n^2);但真实落地里还要同时满足稳定性、效果、工具链兼容和生态成熟度。
#高频方向 F:RWKV / RetNet / 混合 Attention-SSM
#常见问法
RWKV这类架构为什么会被拿来和 Transformer 比?- 混合架构为什么越来越多,而不是彻底 all-in 单一路线?
#答题要点
- 这类路线共同目标是:尽量保留 Transformer 的训练友好性,同时吸收 RNN/SSM 在线性时序建模上的优势。
- 面试时不一定要求你精确背论文细节,但至少要知道它们代表的是“后 Transformer 时代的候选路线”,核心命题是长序列效率与状态压缩。
#3. 架构细节高频题
#高频笔试题
- 为什么很多现代 LLM 使用
RMSNorm而不是LayerNorm? - 为什么很多模型用
SwiGLU/GeGLU替代普通ReLU FFN? - 为什么
Pre-Norm更适合深层训练? - residual connection(残差连接)对训练深层网络的作用是什么?
#就地速答
- 问:为什么很多现代 LLM 使用
RMSNorm而不是LayerNorm?答:
RMSNorm不做显式去均值,计算更简单,在现代 LLM 里通常已经足够稳定,所以常被用来换取更低实现成本和更好的训练实践表现。 - 问:为什么很多模型用
SwiGLU/GeGLU替代普通ReLU FFN?答:因为门控 FFN 比普通
ReLU FFN表达能力更强,能让不同通道的信息流更有选择性,通常能以适度计算代价换来更好的效果。 - 问:为什么
Pre-Norm更适合深层训练?答:因为它把归一化放到子层前,能让残差主路径更像稳定的恒等映射,深层网络里的梯度传递更顺,更不容易训练发散。
- 问:residual connection(残差连接)对训练深层网络的作用是什么?
答:残差连接给信息和梯度提供了近似直通路径,让深层网络不必每层都重新学完整变换,因此更容易优化、也更不容易出现梯度消失。
#高频面试题
RMSNorm + SwiGLU + RoPE + GQA这类组合为什么会在现代开源模型里反复出现?- 一个结构改动到底是“提高上限”,还是“提高训练稳定性 / 推理效率”,你怎么区分?
#就地速答
- 问:
RMSNorm + SwiGLU + RoPE + GQA这类组合为什么会在现代开源模型里反复出现?答:因为这组组件分别覆盖了位置建模、训练稳定性、FFN 表达能力和推理缓存效率四个核心目标,整体上是在效果、稳定性和部署成本之间较均衡的工程组合。
- 问:一个结构改动到底是“提高上限”,还是“提高训练稳定性 / 推理效率”,你怎么区分?
答:看它主要改善哪类指标:如果显著提高同规模 benchmark 或下游效果,更像抬上限;如果主要改善收敛、梯度稳定、显存、延迟和吞吐,更像在补训练稳定性或推理效率。
#4. 架构题作答模板
回答模型架构题时,建议固定成:
- 这个结构要解决什么问题;
- 它怎么改了信息流或计算图;
- 它带来了什么收益;
- 它付出的代价是什么;
- 它在今天的主流模型里处于什么位置。