58. 模块十：系统设计、业务落地与成本权衡知识点

#模块十：系统设计、业务落地与成本权衡知识点

Q109 设计一个基于 LLM 的客服系统，最核心的模块有哪些？：知识点包括接入网关、会话管理、RAG、模型层、审核、日志评测、人工兜底。
Q110 如何降低 LLM API 成本？：知识点包括模型分级、缓存、上下文裁剪、RAG 提效、请求过滤、批处理与小模型前置。
Q111 流式输出的价值是什么？：知识点包括降低感知延迟；用户体验；长回答中途可打断；并不总能降低总 wall-clock。
Q112 模型路由通常想解决什么问题？：知识点包括不同请求匹配不同成本和能力；供应商切换；风险分级；故障回退。
Q113 什么是 rate limiting，它为什么对 LLM 服务特别重要？：知识点包括保护资源和预算；防止滥用；大模型单请求成本高，限流更关键。
Q114 线上服务为什么需要缓存？哪些地方可以缓存？：知识点包括 prompt cache、embedding cache、检索结果 cache、prefix cache、最终答案 cache。
Q115 设计一个支持 1 万并发用户的企业知识问答系统，你会怎么拆架构？：知识点包括异步网关、弹性扩容、检索服务拆层、模型池、监控与隔离、SLA。
Q116 老板要效果尽量好但预算砍一半，你会从哪些地方动刀？：知识点包括先看流量分布；砍无效昂贵计算；不是简单全局降配；先做路由与缓存。
Q117 如何做一个 LLM gateway，把请求路由到不同模型和供应商？：知识点包括统一协议、鉴权、路由规则、回退、成本核算、观测和版本管理。
Q118 如何设计 prompt 管理、版本管理、AB 实验和回滚？：知识点包括配置化、灰度发布、指标绑定、实验可回溯、坏版本快速回滚。
Q119 如果线上投诉激增，你会先看哪些指标，先排查哪几层？：知识点包括先看系统级变化，再逐层定位接入/RAG/模型/工具/安全；不要一开始就盯 prompt。
Q120 如何判断某个业务该上纯 LLM、RAG、Agent，还是传统规则 + 小模型？：知识点包括知识更新频率、任务路径稳定性、风险等级、工具依赖、成本约束；最终往往是混合方案。