53. 模块五：推理优化、Serving 与部署工程知识点

#模块五：推理优化、Serving 与部署工程知识点

Q49 什么是 KV cache？：知识点包括缓存历史 K/V；避免重复计算；仅新 token 参与 decode 计算。
Q50 为什么推理显存会越用越多？：知识点包括生成越长缓存越大；并发请求叠加；权重常驻外还要存请求态状态。
Q51 量化的核心作用是什么？：知识点包括减少权重和激活字节数；省显存和带宽；可能带来精度损失。
Q52 batching 为什么能提吞吐但不一定降延迟？：知识点包括并行处理提高设备利用率；排队等待会增加单请求时延；吞吐和延迟不是同一目标。
Q53 speculative decoding 的基本思想是什么？：知识点包括小模型草拟、大模型验证；串行 decode 加速；命中率决定收益。
Q54 continuous batching 和静态 batching 的区别是什么？：知识点包括在线插拔请求；动态调度活跃 batch；与 paged KV 管理强耦合。
Q55 Prefill 和 Decode 两个阶段瓶颈为什么不同？：知识点包括 prefill 偏大矩阵高并行；decode 偏 memory-bound 和串行 token 生成；优化手段不同。
Q56 KV cache 为什么既能提速又能成显存灾难？如何优化？：知识点包括显存换时间；优化手段 GQA/MQA/PagedAttention/压缩/分层淘汰。
Q57 vLLM、TGI、TensorRT-LLM、SGLang 如何比较？：知识点包括内存管理、调度能力、硬件绑定、图优化、易用性；不存在绝对最优引擎。
Q58 首 token 延迟低但吞吐也不能差，如何折中？：知识点包括模型分级；prefill 优化；小 batch 快路径和大 batch 慢路径并存；缓存与排队策略。
Q59 量化为什么有时几乎不掉效果，有时明显掉点？：知识点包括模型层敏感性；激活分布；权重量化与 KV/激活量化差异；任务容错程度。
Q60 如何给 7B、32B、70B 做路由和部署？：知识点包括成本分层；简单请求走小模型；高风险高价值请求走大模型；fallback 与 gateway 策略。