#模块一:基础与 Transformer 架构知识点

  • Q1 Transformer 的核心组成模块有哪些?:知识点包括 embedding -> position -> attention -> FFN -> residual -> norm -> output head 的完整数据流;Encoder/Decoder 子层差异;自回归 mask 的作用。
  • Q2 Self-Attention 的时间复杂度和空间复杂度分别是什么?:知识点包括 QK^T 带来的 O(n^2);参数量和序列长度无关;训练显存和推理缓存不是同一个问题。
  • Q3 为什么 Self-Attention 里要除以 sqrt(d_k)?:知识点包括内积方差随维度增大;softmax 饱和导致梯度变差;数值缩放是稳定训练而不是经验魔法。
  • Q4 Encoder-only、Decoder-only、Encoder-Decoder 分别适合什么任务?:知识点包括表示学习 vs 自回归生成 vs 条件生成;典型模型 BERT/GPT/T5;输入输出结构和任务类型的对应关系。
  • Q5 Multi-Head Attention 相比单头注意力的优势是什么?:知识点包括多子空间建模;不同头学习不同模式;多头不是简单并行复制,而是提升表达分解能力。
  • Q6 为什么现在大语言模型大多采用 Decoder-only 架构?:知识点包括 next-token prediction 统一训练目标;数据构造简单;预训练到指令跟随的统一性;生成推理链路成熟。
  • Q7 你一步一步讲一下 Self-Attention 是怎么计算的?:知识点包括 X -> Q/K/V -> score -> mask -> softmax -> weighted sum -> output projection;多头拆分和拼接;padding mask 与 causal mask 区别。
  • Q8 为什么 LLM 时代 Decoder-only 压过了 Encoder-Decoder?它付出了什么代价?:知识点包括扩展性、生成兼容性、训练统一性;代价是推理串行、条件编码不够结构化、部分任务不如 Encoder-Decoder 自然。
  • Q9 Pre-Norm 和 Post-Norm 有什么区别?为什么现代大模型更偏向 Pre-Norm?:知识点包括 norm 在残差前后的位置;梯度稳定性;深层网络训练难度;为何现代 LLM 重视可扩展训练而非最浅层表达差异。
  • Q10 长上下文下 Attention 会成为什么瓶颈?有哪些替代思路?:知识点包括二次复杂度、attention map、HBM 带宽、KV cache;替代路线 FlashAttention/GQA/稀疏注意力/线性注意力/SSM/RAG
  • Q11 MHA、MQA、GQA 的 trade-off 是什么?:知识点包括 query heads 与 kv heads 关系;缓存占用;质量 vs 推理成本;为什么 GQA 是工程折中。
  • Q12 如何向外行解释注意力机制?:知识点包括动态选择上下文证据;不是固定窗口平均;“关注重点”类比;回答时避免堆公式。