50. 模块二：Tokenizer、Embedding、位置编码与上下文窗口知识点

#模块二：Tokenizer、Embedding、位置编码与上下文窗口知识点

Q13 BPE、WordPiece、SentencePiece 的主要区别是什么？：知识点包括三种子词切分目标；是否依赖预分词；多语言适配；词表构建规则不同。
Q14 什么是 tokenization，为什么不能简单按词来切？：知识点包括 OOV、跨语言、代码和符号混杂、词表爆炸；子词切分如何平衡泛化与长度。
Q15 什么是 contextual embedding，它和 Word2Vec 有什么区别？：知识点包括静态向量 vs 上下文相关向量；一词多义；Transformer 表示学习。
Q16 位置编码分为哪几类？绝对位置编码和相对位置编码的差别是什么？：知识点包括 absolute/relative/RoPE/ALiBi；“第几个位置”与“相距多远”的差异；长上下文友好性。
Q17 RoPE 的核心思想是什么？：知识点包括对 Q/K 做旋转；attention 分数内生相对位置；不是直接把位置加到 token embedding 上。
Q18 context window 指什么，它为什么重要？：知识点包括一次推理可见 token 上限；长文理解、RAG、Agent 记忆依赖；窗口大小不等于有效利用能力。
Q19 为什么 RoPE 会成为主流？：知识点包括自回归友好；相对位置表达自然；长度扩展性相对更好；工程生态成熟。
Q20 长度外推为什么难？RoPE 在长上下文下会遇到什么问题？：知识点包括训练分布外长度；数值相位问题；注意力稀释；长距离信息利用下降。
Q21 窗口从 8K 扩到 128K 会带来哪些问题？：知识点包括 attention FLOPs、KV cache、带宽压力、训练数据长度覆盖、lost in the middle、位置编码缩放。
Q22 Lost in the Middle 是什么？为什么在 RAG 里致命？：知识点包括中间证据利用率差；长上下文排序策略；RAG 证据布局和重排的重要性。
Q23 中英文混合系统为什么不能随便更换 tokenizer？：知识点包括词表和 embedding 对齐；训练分布依赖；token 长度分布变化；部署兼容与增量训练成本。
Q24 你怎么理解 token 数、上下文长度、KV cache 占用之间的关系？：知识点包括 batch * seq * layers * kv_heads * head_dim；长上下文首先打爆缓存；上下文成本不只是参数成本。