#模块十:系统设计、业务落地与成本权衡知识点
Q109 设计一个基于 LLM 的客服系统,最核心的模块有哪些?:知识点包括接入网关、会话管理、RAG、模型层、审核、日志评测、人工兜底。
Q110 如何降低 LLM API 成本?:知识点包括模型分级、缓存、上下文裁剪、RAG 提效、请求过滤、批处理与小模型前置。
Q111 流式输出的价值是什么?:知识点包括降低感知延迟;用户体验;长回答中途可打断;并不总能降低总 wall-clock。
Q112 模型路由通常想解决什么问题?:知识点包括不同请求匹配不同成本和能力;供应商切换;风险分级;故障回退。
Q113 什么是 rate limiting,它为什么对 LLM 服务特别重要?:知识点包括保护资源和预算;防止滥用;大模型单请求成本高,限流更关键。
Q114 线上服务为什么需要缓存?哪些地方可以缓存?:知识点包括 prompt cache、embedding cache、检索结果 cache、prefix cache、最终答案 cache。
Q115 设计一个支持 1 万并发用户的企业知识问答系统,你会怎么拆架构?:知识点包括异步网关、弹性扩容、检索服务拆层、模型池、监控与隔离、SLA。
Q116 老板要效果尽量好但预算砍一半,你会从哪些地方动刀?:知识点包括先看流量分布;砍无效昂贵计算;不是简单全局降配;先做路由与缓存。
Q117 如何做一个 LLM gateway,把请求路由到不同模型和供应商?:知识点包括统一协议、鉴权、路由规则、回退、成本核算、观测和版本管理。
Q118 如何设计 prompt 管理、版本管理、AB 实验和回滚?:知识点包括配置化、灰度发布、指标绑定、实验可回溯、坏版本快速回滚。
Q119 如果线上投诉激增,你会先看哪些指标,先排查哪几层?:知识点包括先看系统级变化,再逐层定位接入/RAG/模型/工具/安全;不要一开始就盯 prompt。
Q120 如何判断某个业务该上纯 LLM、RAG、Agent,还是传统规则 + 小模型?:知识点包括知识更新频率、任务路径稳定性、风险等级、工具依赖、成本约束;最终往往是混合方案。