49. 模块一：基础与 Transformer 架构知识点

#模块一：基础与 Transformer 架构知识点

Q1 Transformer 的核心组成模块有哪些？：知识点包括 embedding -> position -> attention -> FFN -> residual -> norm -> output head 的完整数据流；Encoder/Decoder 子层差异；自回归 mask 的作用。
Q2 Self-Attention 的时间复杂度和空间复杂度分别是什么？：知识点包括 QK^T 带来的 O(n^2)；参数量和序列长度无关；训练显存和推理缓存不是同一个问题。
Q3 为什么 Self-Attention 里要除以 sqrt(d_k)？：知识点包括内积方差随维度增大；softmax 饱和导致梯度变差；数值缩放是稳定训练而不是经验魔法。
Q4 Encoder-only、Decoder-only、Encoder-Decoder 分别适合什么任务？：知识点包括表示学习 vs 自回归生成 vs 条件生成；典型模型 BERT/GPT/T5；输入输出结构和任务类型的对应关系。
Q5 Multi-Head Attention 相比单头注意力的优势是什么？：知识点包括多子空间建模；不同头学习不同模式；多头不是简单并行复制，而是提升表达分解能力。
Q6 为什么现在大语言模型大多采用 Decoder-only 架构？：知识点包括 next-token prediction 统一训练目标；数据构造简单；预训练到指令跟随的统一性；生成推理链路成熟。
Q7 你一步一步讲一下 Self-Attention 是怎么计算的？：知识点包括 X -> Q/K/V -> score -> mask -> softmax -> weighted sum -> output projection；多头拆分和拼接；padding mask 与 causal mask 区别。
Q8 为什么 LLM 时代 Decoder-only 压过了 Encoder-Decoder？它付出了什么代价？：知识点包括扩展性、生成兼容性、训练统一性；代价是推理串行、条件编码不够结构化、部分任务不如 Encoder-Decoder 自然。
Q9 Pre-Norm 和 Post-Norm 有什么区别？为什么现代大模型更偏向 Pre-Norm？：知识点包括 norm 在残差前后的位置；梯度稳定性；深层网络训练难度；为何现代 LLM 重视可扩展训练而非最浅层表达差异。
Q10 长上下文下 Attention 会成为什么瓶颈？有哪些替代思路？：知识点包括二次复杂度、attention map、HBM 带宽、KV cache；替代路线 FlashAttention/GQA/稀疏注意力/线性注意力/SSM/RAG。
Q11 MHA、MQA、GQA 的 trade-off 是什么？：知识点包括 query heads 与 kv heads 关系；缓存占用；质量 vs 推理成本；为什么 GQA 是工程折中。
Q12 如何向外行解释注意力机制？：知识点包括动态选择上下文证据；不是固定窗口平均；“关注重点”类比；回答时避免堆公式。