#模块二:Tokenizer、Embedding、位置编码与上下文窗口知识点
Q13 BPE、WordPiece、SentencePiece 的主要区别是什么?:知识点包括三种子词切分目标;是否依赖预分词;多语言适配;词表构建规则不同。
Q14 什么是 tokenization,为什么不能简单按词来切?:知识点包括 OOV、跨语言、代码和符号混杂、词表爆炸;子词切分如何平衡泛化与长度。
Q15 什么是 contextual embedding,它和 Word2Vec 有什么区别?:知识点包括静态向量 vs 上下文相关向量;一词多义;Transformer 表示学习。
Q16 位置编码分为哪几类?绝对位置编码和相对位置编码的差别是什么?:知识点包括 absolute/relative/RoPE/ALiBi;“第几个位置”与“相距多远”的差异;长上下文友好性。
Q17 RoPE 的核心思想是什么?:知识点包括对 Q/K 做旋转;attention 分数内生相对位置;不是直接把位置加到 token embedding 上。
Q18 context window 指什么,它为什么重要?:知识点包括一次推理可见 token 上限;长文理解、RAG、Agent 记忆依赖;窗口大小不等于有效利用能力。
Q19 为什么 RoPE 会成为主流?:知识点包括自回归友好;相对位置表达自然;长度扩展性相对更好;工程生态成熟。
Q20 长度外推为什么难?RoPE 在长上下文下会遇到什么问题?:知识点包括训练分布外长度;数值相位问题;注意力稀释;长距离信息利用下降。
Q21 窗口从 8K 扩到 128K 会带来哪些问题?:知识点包括 attention FLOPs、KV cache、带宽压力、训练数据长度覆盖、lost in the middle、位置编码缩放。
Q22 Lost in the Middle 是什么?为什么在 RAG 里致命?:知识点包括中间证据利用率差;长上下文排序策略;RAG 证据布局和重排的重要性。
Q23 中英文混合系统为什么不能随便更换 tokenizer?:知识点包括词表和 embedding 对齐;训练分布依赖;token 长度分布变化;部署兼容与增量训练成本。
Q24 你怎么理解 token 数、上下文长度、KV cache 占用之间的关系?:知识点包括 batch * seq * layers * kv_heads * head_dim;长上下文首先打爆缓存;上下文成本不只是参数成本。