#十一、模型架构专项题库

这一部分是最近两年越来越容易单独拿出来考的,因为很多公司已经不满足于问“Transformer 是什么”,而会继续追问“为什么现在的主流架构已经不是最初那版 Transformer 了”。

#1. 必会架构分类题

#高频笔试题

  1. Encoder-onlyDecoder-onlyEncoder-Decoder 三种架构分别适合什么任务?
  2. 为什么大语言模型大多采用 Decoder-only
  3. BERTT5GPT 代表了哪三类典型架构?
  4. MoE 架构和 dense(稠密)架构的差异是什么?
  5. MHAMQAGQA 分别是什么?

#就地速答

  • 问:Encoder-onlyDecoder-onlyEncoder-Decoder 三种架构分别适合什么任务?

    答:它们分别适合三类问题:Encoder-only 更适合理解类任务,Decoder-only 更适合自回归生成,Encoder-Decoder 更适合翻译、摘要这类条件生成任务。

  • 问:为什么大语言模型大多采用 Decoder-only

    答:因为它和 next-token prediction 目标天然一致,数据组织简单、生成任务统一、推理缓存成熟,所以最适合作为通用 LLM 基座。

  • 问:BERTT5GPT 代表了哪三类典型架构?

    答:它们分别代表 Encoder-onlyEncoder-DecoderDecoder-only 三条典型路线:BERT 强表示学习,T5 强条件生成,GPT 强统一自回归生成。

  • 问:MoE 架构和 dense(稠密)架构的差异是什么?

    答:dense 是每个 token 都走完整参数路径,MoE 是每个 token 只激活少数专家,所以 MoE 更擅长扩大容量,但会引入路由、负载均衡和跨卡通信复杂度。

  • 问:MHAMQAGQA 分别是什么?

    答:MHA 是每个注意力头都有独立 K/VMQA 是多个 query 头共享一组 K/VGQA 则是在两者之间做分组共享,用较小质量损失换更低缓存成本。

#高频面试题

  1. 如果让你从零选一个基础架构做企业通用 LLM,你为什么会优先考虑 Decoder-only
  2. Encoder-Decoder 为什么在翻译、摘要里历史上很强,但在超大规模通用 LLM 上不是绝对主流?
  3. dense 模型和 MoE 模型在训练成本、推理成本、路由稳定性上的 trade-off 是什么?
  4. 为什么很多新模型在注意力头设计上从 MHA 转向 GQA / MQA

#就地速答

  • 问:如果让你从零选一个基础架构做企业通用 LLM,你为什么会优先考虑 Decoder-only

    答:因为企业通用 LLM 通常要统一处理问答、写作、代码、Agent 等生成任务,Decoder-only 在预训练目标、推理缓存、生态工具链和规模扩展上最顺,综合工程成本最低。

  • 问:Encoder-Decoder 为什么在翻译、摘要里历史上很强,但在超大规模通用 LLM 上不是绝对主流?

    答:因为它对条件生成很自然,但在海量通用数据预训练、统一任务范式、推理生态和工程复杂度上不如 Decoder-only 简洁,所以在通用基座模型上没有形成压倒性优势。

  • 问:dense 模型和 MoE 模型在训练成本、推理成本、路由稳定性上的 trade-off 是什么?

    答:dense 更稳定、实现更简单,但容量提升往往意味着每 token 计算同步变大;MoE 能用稀疏激活换更大总容量,却要承担路由器训练、热点专家、负载不均和通信放大等代价。

  • 问:为什么很多新模型在注意力头设计上从 MHA 转向 GQA / MQA

    答:核心原因是推理阶段 KV cache 太贵,GQA/MQA 通过共享 K/V 显著降低缓存和带宽压力,只用较小质量代价换来更好的长上下文与高并发可部署性。

#2. 最新架构趋势题

这里的“最新”不是指一定会考某篇最新论文,而是指最近行业问得越来越多的架构方向。

#高频方向 A:MoE(Mixture of Experts,混合专家)

#常见问法
  • MoE 为什么能在总参数量变大的同时,把单 token 激活计算量控制住?
  • top-k expert routing(Top-k 专家路由)是怎么做的?
  • expert imbalance(专家负载不均)为什么是个问题?
  • 为什么 MoE 模型训练和部署都更复杂?
#答题要点
  • MoE 的核心不是“参数更多”,而是“每个 token 只激活一小部分专家”,因此总容量大,但单步计算不一定线性变大。
  • 真正难点在路由:负载均衡、通信开销、expert specialization(专家专门化)是否稳定。
  • 要能区分“参数量大”和“每 token FLOPs 大”不是一回事。

#高频方向 B:GQA / MQA(Grouped / Multi-Query Attention)

#常见问法
  • 为什么 GQA / MQA 对推理尤其重要?
  • 它们和标准 MHA 相比主要节省了什么?
  • 为什么它们通常对质量有轻微影响,但工程上仍然值得?
#答题要点
  • 关键是减少 KV cache 的存储量与带宽压力。
  • MHA 是每个 query 头都有独立 K/VMQA 是多个 query 头共享同一组 K/VGQA 介于两者之间,用分组共享来平衡质量与成本。

#高频方向 C:MLA(Multi-head Latent Attention,多头潜变量注意力)

#常见问法
  • 为什么会出现 MLA 这类设计?
  • 它和传统 KV cache 优化路线有什么关系?
  • 它想解决的是参数问题、计算问题,还是缓存问题?
#答题要点
  • 这类设计的核心目标通常不是“让 attention 更准确”,而是“进一步压缩推理阶段的缓存与带宽成本”。
  • 面试里如果被问到,不一定要求你会公式,但要知道它属于“为长上下文和高吞吐服务的 attention/缓存优化路线”。

#高频方向 D:SSM / Mamba / 混合架构

#常见问法
  • 为什么会有人尝试用 SSM(State Space Model,状态空间模型)或 Mamba 一类架构替代 attention?
  • 它们相比 Transformer 的理论优势是什么?
  • 为什么它们还没有在通用 LLM 里完全替代 Transformer?
#答题要点
  • 它们主要试图缓解长序列下 attention 的二次复杂度与缓存压力。
  • 理论卖点通常是线性复杂度、长序列建模效率更高。
  • 现实问题是:生态、训练稳定性、通用性、与现有工具链兼容性还没有完全压过 Transformer。

#高频方向 E:FlashAttention / PagedAttention / 线性注意力

#常见问法
  • FlashAttention 解决的是模型架构问题,还是 kernel 实现问题?
  • FlashAttention 为什么能提速、省显存?
  • PagedAttention 想解决的核心瓶颈是什么?
  • 线性注意力为什么一直有人研究,但主流 LLM 仍以标准 attention 及其变体为主?
#答题要点
  • FlashAttention 本质上更偏 attention kernel 与内存访问优化,不是重新发明 Transformer 架构。
  • 它的核心价值是减少中间 attention matrix 的显式落地与高带宽显存访问,提高 IO 效率。
  • PagedAttention 更像是“推理缓存管理”优化,重点是让 KV cache 像分页内存一样更高效复用,适合 serving 场景。
  • 线性注意力一直重要,因为大家都想摆脱 O(n^2);但真实落地里还要同时满足稳定性、效果、工具链兼容和生态成熟度。

#高频方向 F:RWKV / RetNet / 混合 Attention-SSM

#常见问法
  • RWKV 这类架构为什么会被拿来和 Transformer 比?
  • 混合架构为什么越来越多,而不是彻底 all-in 单一路线?
#答题要点
  • 这类路线共同目标是:尽量保留 Transformer 的训练友好性,同时吸收 RNN/SSM 在线性时序建模上的优势。
  • 面试时不一定要求你精确背论文细节,但至少要知道它们代表的是“后 Transformer 时代的候选路线”,核心命题是长序列效率与状态压缩。

#3. 架构细节高频题

#高频笔试题

  1. 为什么很多现代 LLM 使用 RMSNorm 而不是 LayerNorm
  2. 为什么很多模型用 SwiGLU / GeGLU 替代普通 ReLU FFN
  3. 为什么 Pre-Norm 更适合深层训练?
  4. residual connection(残差连接)对训练深层网络的作用是什么?

#就地速答

  • 问:为什么很多现代 LLM 使用 RMSNorm 而不是 LayerNorm

    答:RMSNorm 不做显式去均值,计算更简单,在现代 LLM 里通常已经足够稳定,所以常被用来换取更低实现成本和更好的训练实践表现。

  • 问:为什么很多模型用 SwiGLU / GeGLU 替代普通 ReLU FFN

    答:因为门控 FFN 比普通 ReLU FFN 表达能力更强,能让不同通道的信息流更有选择性,通常能以适度计算代价换来更好的效果。

  • 问:为什么 Pre-Norm 更适合深层训练?

    答:因为它把归一化放到子层前,能让残差主路径更像稳定的恒等映射,深层网络里的梯度传递更顺,更不容易训练发散。

  • 问:residual connection(残差连接)对训练深层网络的作用是什么?

    答:残差连接给信息和梯度提供了近似直通路径,让深层网络不必每层都重新学完整变换,因此更容易优化、也更不容易出现梯度消失。

#高频面试题

  1. RMSNorm + SwiGLU + RoPE + GQA 这类组合为什么会在现代开源模型里反复出现?
  2. 一个结构改动到底是“提高上限”,还是“提高训练稳定性 / 推理效率”,你怎么区分?

#就地速答

  • 问:RMSNorm + SwiGLU + RoPE + GQA 这类组合为什么会在现代开源模型里反复出现?

    答:因为这组组件分别覆盖了位置建模、训练稳定性、FFN 表达能力和推理缓存效率四个核心目标,整体上是在效果、稳定性和部署成本之间较均衡的工程组合。

  • 问:一个结构改动到底是“提高上限”,还是“提高训练稳定性 / 推理效率”,你怎么区分?

    答:看它主要改善哪类指标:如果显著提高同规模 benchmark 或下游效果,更像抬上限;如果主要改善收敛、梯度稳定、显存、延迟和吞吐,更像在补训练稳定性或推理效率。

#4. 架构题作答模板

回答模型架构题时,建议固定成:

  1. 这个结构要解决什么问题;
  2. 它怎么改了信息流或计算图;
  3. 它带来了什么收益;
  4. 它付出的代价是什么;
  5. 它在今天的主流模型里处于什么位置。