#模块五:推理优化、Serving 与部署工程知识点
Q49 什么是 KV cache?:知识点包括缓存历史 K/V;避免重复计算;仅新 token 参与 decode 计算。
Q50 为什么推理显存会越用越多?:知识点包括生成越长缓存越大;并发请求叠加;权重常驻外还要存请求态状态。
Q51 量化的核心作用是什么?:知识点包括减少权重和激活字节数;省显存和带宽;可能带来精度损失。
Q52 batching 为什么能提吞吐但不一定降延迟?:知识点包括并行处理提高设备利用率;排队等待会增加单请求时延;吞吐和延迟不是同一目标。
Q53 speculative decoding 的基本思想是什么?:知识点包括小模型草拟、大模型验证;串行 decode 加速;命中率决定收益。
Q54 continuous batching 和静态 batching 的区别是什么?:知识点包括在线插拔请求;动态调度活跃 batch;与 paged KV 管理强耦合。
Q55 Prefill 和 Decode 两个阶段瓶颈为什么不同?:知识点包括 prefill 偏大矩阵高并行;decode 偏 memory-bound 和串行 token 生成;优化手段不同。
Q56 KV cache 为什么既能提速又能成显存灾难?如何优化?:知识点包括显存换时间;优化手段 GQA/MQA/PagedAttention/压缩/分层淘汰。
Q57 vLLM、TGI、TensorRT-LLM、SGLang 如何比较?:知识点包括内存管理、调度能力、硬件绑定、图优化、易用性;不存在绝对最优引擎。
Q58 首 token 延迟低但吞吐也不能差,如何折中?:知识点包括模型分级;prefill 优化;小 batch 快路径和大 batch 慢路径并存;缓存与排队策略。
Q59 量化为什么有时几乎不掉效果,有时明显掉点?:知识点包括模型层敏感性;激活分布;权重量化与 KV/激活量化差异;任务容错程度。
Q60 如何给 7B、32B、70B 做路由和部署?:知识点包括成本分层;简单请求走小模型;高风险高价值请求走大模型;fallback 与 gateway 策略。