#八、评测、幻觉、安全与可观测性
#代表笔试题
- perplexity 是什么?它为什么不能代表一切?
- hallucination 的常见来源有哪些?
- faithfulness 和 helpfulness 有什么区别?
- 什么是 LLM-as-a-Judge?
- 什么是 red teaming?
- guardrail 在大模型系统中指什么?
#就地速答
- 问:perplexity 是什么?它为什么不能代表一切?
答:perplexity 可以理解为模型在预测测试文本下一个 token 时的平均不确定性,数值越低,说明模型越“觉得这些文本像自己熟悉的分布”。它是经典语言建模指标,很适合衡量一个模型在 token 预测意义上的拟合程度。详见后文“### 85. perplexity 是什么?它为什么不能代表一切?”。
- 问:hallucination 的常见来源有哪些?
答:hallucination 的来源最好分层讲。第一类是参数知识不足:模型本来就没学到相关事实;第二类是外部知识链路出错,比如 RAG 没召回到正确证据;第三类是证据利用失败,材料给到了,但模型没有忠实使用;第四类是解码导致的过度补全,模型为了连贯性瞎补缺口;第五类是任务定义本身模糊,用户问题就逼着模型猜。详见后文“### 86. hallucination 的常见来源有哪些?”。
- 问:faithfulness 和 helpfulness 有什么区别?
答:faithfulness 关心的是回答是否忠实于给定证据,也就是“你说的话是不是能在证据里找到依据”;helpfulness 关心的是回答是否真正帮助用户解决问题,包括完整性、清晰度、可执行性和表达质量。详见后文“### 87. faithfulness 和 helpfulness 有什么区别?”。
- 问:什么是 LLM-as-a-Judge?
答:LLM-as-a-Judge 指的是用一个大模型去评估另一个模型生成结果的质量,例如比较两个答案谁更好、判断回答是否有帮助、是否忠于证据、是否符合风格要求等。它之所以流行,是因为人工评测很贵、很慢,而很多生成任务又难以用单一自动指标覆盖。详见后文“### 88. 什么是 LLM-as-a-Judge?”。
- 问:什么是 red teaming?
答:red teaming 是一种主动对抗式测试方法,核心不是看系统在正常场景下表现多好,而是故意用极端、恶意、边界、越狱、误导输入去打系统,看看它在哪些地方会失守。对于大模型系统来说,red teaming 常用于发现不安全输出、提示注入、越权工具调用、隐私泄露和规避策略等问题。详见后文“### 89. 什么是 red teaming?”。
- 问:guardrail 在大模型系统中指什么?
答:guardrail 可以理解成围绕模型系统搭的一圈保护栏。它不只是一个输出过滤器,而是一整套机制:输入侧可以做风险检测、越狱识别、提示注入防护;执行侧可以做工具权限控制、敏感操作拦截;输出侧可以做安全审查、结构约束和高风险内容复核。详见后文“### 90. guardrail 在大模型系统中指什么?”。
#代表面试题
- 为什么一个模型离线 benchmark 很强,线上用户体验却不一定好?
- 如果用户说你的模型“经常胡说”,你如何定位是模型问题、RAG 问题还是提示问题?
- 你怎么看 LLM-as-a-Judge 的优点和风险?
- 一个生产系统要做哪些线上监控,才算真正“可观测”?
- 如何处理 prompt injection、数据泄露、不安全输出这些问题?
- 如果要为企业内部知识助手建立评测集,你会怎么设计?
#就地速答
- 问:为什么一个模型离线 benchmark 很强,线上用户体验却不一定好?
答:因为离线 benchmark 测到的通常只是某一小块能力,而线上用户体验是“模型能力 + 系统设计 + 产品交互 + 流量分布”共同作用的结果。离线题集往往分布干净、答案标准、上下文有限,但线上请求会有脏输入、超长上下文、模糊指令、频繁工具失败、RAG 噪声和延迟约束。详见后文“### 91. 为什么一个模型离线 benchmark 很强,线上用户体验却不一定好?”。
- 问:如果用户说你的模型“经常胡说”,你如何定位是模型问题、RAG 问题还是提示问题?
答:这类问题要先抽 bad case,再做分层诊断。第一步看有没有正确证据:如果知识库里根本没有,或本轮任务本来就不该靠 RAG,那问题可能是模型参数知识不足或产品边界没定义清楚;第二步看证据是否被召回:若知识库有答案但 top-k 没命中,问题在检索;第三步看提示和上下文组织:证据进了 prompt,但是否明确要求引用、是否被噪声淹没;第四步再看生成层:模型是不是忽略证据、强行补全。详见后文“### 92. 如果用户说你的模型“经常胡说”,你如何定位是模型问题、RAG 问题还是提示问题?”。
- 问:你怎么看 LLM-as-a-Judge 的优点和风险?
答:它的优点很明确:便宜、快、可批量扩展,尤其适合开放式生成、摘要、风格评估、偏好比较这类难以写规则指标的任务。相比全人工,它能显著降低评测成本,让团队更频繁地做实验和 A/B 迭代。详见后文“### 93. 你怎么看 LLM-as-a-Judge 的优点和风险?”。
- 问:一个生产系统要做哪些线上监控,才算真正“可观测”?
答:真正可观测,至少要覆盖三层。第一层是系统层:QPS、时延、错误率、超时、资源占用、token 消耗、成本;第二层是模型链路层:模型路由命中、缓存命中、RAG 召回率、工具调用成功率、重试率、结构化输出合规率;第三层是业务层:用户满意度、人工转接率、投诉率、坏例聚类、安全告警、关键任务完成率。详见后文“### 94. 一个生产系统要做哪些线上监控,才算真正“可观测”?”。
- 问:如何处理 prompt injection、数据泄露、不安全输出这些问题?
答:处理这类问题不能寄希望于“一条更强的 system prompt”,而要做多层防线。输入侧要检测 prompt injection、恶意内容、越狱尝试;上下文侧要隔离外部文档和系统指令,避免检索结果反向污染控制提示;工具侧要坚持最小权限原则,避免模型一旦被诱导就能执行高风险操作;输出侧要做安全审查、敏感信息过滤和高风险任务拦截。详见后文“### 95. 如何处理 prompt injection、数据泄露、不安全输出这些问题?”。
- 问:如果要为企业内部知识助手建立评测集,你会怎么设计?
答:企业内部知识助手的评测集,不能只从公开 benchmark 抄题,而要从真实业务流量和高价值任务里抽样。题目应覆盖高频任务、长尾难题、模糊提问、跨文档问题、时效性问题和高风险场景;同时最好给出标准证据、参考答案、允许的容错范围,以及失败类型标签,比如“没召回到”“引用错”“答非所问”“泄露敏感信息”。详见后文“### 96. 如果要为企业内部知识助手建立评测集,你会怎么设计?”。
#这一块真正考什么
- 是否明白“模型强”与“系统可靠”不是一回事。
- 是否能把安全、评测、观测说成一条闭环,而不是几个独立名词。
#作答抓手
回答评测题时,可以拆成三层:离线基准、任务级人工评测、线上真实行为指标。