13. 九、多模态（图文音视频）

#九、多模态（图文音视频）

#代表笔试题

CLIP 的核心思想是什么？
VLM 和纯文本 LLM 的最大区别是什么？
diffusion model 的前向和反向过程分别是什么？
图像编码器与语言模型对齐通常怎么做？
多模态任务中常见 benchmark 有哪些类型？
视频理解相比图像理解多了哪些难点？

#就地速答

问：CLIP 的核心思想是什么？
答：CLIP 的核心思想，是通过对比学习把图像和文本映射到同一个表示空间里：配对的图文应该彼此靠近，不相关的图文应该彼此远离。模型不是直接学“这张图属于哪个固定类别”，而是学“这张图和这段文本是不是同一个语义”。详见后文“### 97. CLIP 的核心思想是什么？”。
问：VLM 和纯文本 LLM 的最大区别是什么？
答：VLM（Vision-Language Model）和纯文本 LLM 的最大区别，不只是多了图像输入，而是必须先解决“非文本模态如何表示”和“不同模态如何对齐”这两个问题。文本天生已经是离散 token，而图像、视频、音频都不是，必须先经过编码器转成模型能消费的表示。详见后文“### 98. VLM 和纯文本 LLM 的最大区别是什么？”。
问：diffusion model 的前向和反向过程分别是什么？
答：扩散模型的前向过程，是从真实数据开始，逐步加入噪声，直到样本接近纯噪声分布；反向过程则是学习怎样一步步把噪声去掉，最终还原成结构化样本。训练时模型学的是这个去噪逆过程，推理生成时就从随机噪声出发，按多步去噪链把样本生成出来。详见后文“### 99. diffusion model 的前向和反向过程分别是什么？”。
问：图像编码器与语言模型对齐通常怎么做？
答：常见做法是先用视觉编码器把图像转成一串视觉特征，再用投影层、adapter、Q-Former 或 cross-attention 模块，把这些视觉特征映射到语言模型可以消费的表示空间。换句话说，不是让语言模型直接“看像素”，而是让前面的视觉模块先把图像压缩成高层语义特征。详见后文“### 100. 图像编码器与语言模型对齐通常怎么做？”。
问：多模态任务中常见 benchmark 有哪些类型？
答：多模态 benchmark 常见可以分成几类：图文检索，考跨模态对齐；视觉问答，考图像理解和语言推理结合；图像描述，考视觉信息到自然语言生成；OCR 与文档理解，考细粒度文本读取和版面感知；视频问答、视频摘要，考时序建模；音视频理解，则考模态同步与事件抽取；还有更综合的多模态推理 benchmark，考的是关系、因果和常识。详见后文“### 101. 多模态任务中常见 benchmark 有哪些类型？”。
问：视频理解相比图像理解多了哪些难点？
答：视频理解比图像理解多出来的最大难点，是它不只是空间理解，还要做时间理解。你不仅要知道每一帧里有什么，还要知道事件先后顺序、动作变化、跨帧关系，以及哪些瞬间才是真正关键。于是采样策略、长序列压缩、时序建模、关键帧选择都会变成核心问题。详见后文“### 102. 视频理解相比图像理解多了哪些难点？”。

#代表面试题

为什么多模态系统常常不是“把图像特征接到 LLM 后面”这么简单？
视频理解为什么难，难在时序、采样、压缩还是标注？
图文检索、视觉问答、视频摘要这三类任务的模型需求有什么差异？
如果做一个短视频内容理解系统，你会怎样设计输入采样与时序建模？
扩散模型和自回归生成模型各自更适合什么类型的生成任务？
多模态系统在线上落地时，成本和时延通常比文本系统多出哪些问题？

#就地速答

问：为什么多模态系统常常不是“把图像特征接到 LLM 后面”这么简单？
答：因为真正困难的不只是“接进去”，而是“接进去以后模型能不能真的用好”。图像特征和语言表示来自完全不同的空间，如何对齐、如何压缩、如何保留细粒度关键信息，本身就是难题。再往上，还有长视频时序压缩、多模态噪声、模态缺失和标注成本等问题。详见后文“### 103. 为什么多模态系统常常不是“把图像特征接到 LLM 后面”这么简单？”。
问：视频理解为什么难，难在时序、采样、压缩还是标注？
答：这几个都难，而且是叠加关系。时序难，是因为很多答案依赖动作顺序、因果和跨片段联系；采样难，是因为视频太长，不可能逐帧全看，必须决定哪些帧值得保留；压缩难，是因为长视频会把计算和显存迅速拉高；标注难，是因为视频标注远比单图昂贵，还常涉及多事件、多角色和跨模态对齐。详见后文“### 104. 视频理解为什么难，难在时序、采样、压缩还是标注？”。
问：图文检索、视觉问答、视频摘要这三类任务的模型需求有什么差异？
答：图文检索最看重的是跨模态表示对齐，也就是图和文能不能落在同一语义空间里；视觉问答则要求模型既看懂图像内容，又能把问题理解和视觉证据结合起来做语言推理；视频摘要更进一步，重点变成如何压缩长时序、筛选关键事件、组织叙事结构。详见后文“### 105. 图文检索、视觉问答、视频摘要这三类任务的模型需求有什么差异？”。
问：如果做一个短视频内容理解系统，你会怎样设计输入采样与时序建模？
答：更稳的设计通常是分层采样。先做稀疏全局采样，保证整段视频的覆盖；再对关键片段做加密采样，比如场景切换点、动作高峰段、对白密集段；如果有 ASR 或字幕，也可以用文本信号辅助决定哪些时间段值得重点看。这样做是为了在有限计算预算下尽量保留关键事件。详见后文“### 106. 如果做一个短视频内容理解系统，你会怎样设计输入采样与时序建模？”。
问：扩散模型和自回归生成模型各自更适合什么类型的生成任务？
答：扩散模型通常更适合图像这类连续空间生成任务，因为它通过逐步去噪的方式，可以在高维连续分布里稳定生成高质量样本；自回归模型则更适合文本、代码、结构化 token 序列，因为这类任务天然就是一个 token 接一个 token 地展开。详见后文“### 107. 扩散模型和自回归生成模型各自更适合什么类型的生成任务？”。
问：多模态系统在线上落地时，成本和时延通常比文本系统多出哪些问题？
答：多模态系统在线上落地时，首先多出的是前处理成本：图像要编码、视频要采样并编码、音频要转写或提特征，这些步骤在模型真正开始推理前就已经消耗了不少时间和显存。其次，多模态输入往往更长、更重，导致上下文构造、显存占用和带宽压力都比纯文本大。详见后文“### 108. 多模态系统在线上落地时，成本和时延通常比文本系统多出哪些问题？”。

#这一块真正考什么

是否理解多模态不是“换个模态输入”，而是表示空间、对齐方式、时序结构和数据成本都发生了变化。

#作答抓手

回答多模态题时，优先说清 输入如何编码、模态如何对齐、输出目标是什么、评测怎么做。