#模块六:RAG、检索、重排与知识增强知识点

  • Q61 什么是 RAG,为什么它能缓解幻觉?:知识点包括外部检索补知识;生成受证据约束;缓解参数知识不足但不能自动消灭幻觉。
  • Q62 标准 RAG pipeline 包含哪些环节?:知识点包括采集、清洗、切块、表征、索引、召回、重排、拼接、生成、评测。
  • Q63 embedding model 在 RAG 中的作用是什么?:知识点包括把 query/doc 映射到向量空间;决定召回语义匹配质量;领域 embedding 很关键。
  • Q64 chunk size 和 overlap 如何影响召回质量?:知识点包括块太小语义断裂;块太大噪声太多;overlap 保留跨句证据但会增加冗余。
  • Q65 什么是 hybrid retrieval?:知识点包括稀疏检索 + 稠密检索;关键词精确匹配与语义匹配结合;召回覆盖更稳。
  • Q66 reranker 和 retriever 有什么不同?:知识点包括 retriever 做粗召回;reranker 做精排序;前者追求速度和 recall,后者追求 precision。
  • Q67 你做过的 RAG 为什么效果不好?:知识点包括按链路分层定位:切块、召回、重排、上下文拼装、生成利用;不要只说“模型不行”。
  • Q68 为什么不是所有知识注入问题都应该用 RAG?:知识点包括高频稳定行为更适合微调;RAG 有检索成本、延迟和引用依赖;不是所有任务都需要外部知识。
  • Q69 百万文档知识库如何做索引、召回、重排和增量更新?:知识点包括分层索引、分桶、异步更新、向量库维护、冷热数据、重排成本控制。
  • Q70 GraphRAG 解决的是什么问题?:知识点包括实体关系和多跳推理;普通向量检索对结构化关系建模弱;图结构适合复杂知识依赖。
  • Q71 Lost in the Middle 在 RAG 中怎么缓解?:知识点包括重排、证据摘要、分段回答、关键证据前置;不是单纯加长上下文。
  • Q72 如何评估 RAG,不只是看最终答案对不对?:知识点包括 retrieval recall、rerank 质量、citation faithfulness、answer correctness、线上用户反馈。