#九、多模态(图文音视频)

#代表笔试题

  1. CLIP 的核心思想是什么?
  2. VLM 和纯文本 LLM 的最大区别是什么?
  3. diffusion model 的前向和反向过程分别是什么?
  4. 图像编码器与语言模型对齐通常怎么做?
  5. 多模态任务中常见 benchmark 有哪些类型?
  6. 视频理解相比图像理解多了哪些难点?

#就地速答

  • 问:CLIP 的核心思想是什么?

    答:CLIP 的核心思想,是通过对比学习把图像和文本映射到同一个表示空间里:配对的图文应该彼此靠近,不相关的图文应该彼此远离。模型不是直接学“这张图属于哪个固定类别”,而是学“这张图和这段文本是不是同一个语义”。详见后文“### 97. CLIP 的核心思想是什么?”。

  • 问:VLM 和纯文本 LLM 的最大区别是什么?

    答:VLM(Vision-Language Model)和纯文本 LLM 的最大区别,不只是多了图像输入,而是必须先解决“非文本模态如何表示”和“不同模态如何对齐”这两个问题。文本天生已经是离散 token,而图像、视频、音频都不是,必须先经过编码器转成模型能消费的表示。详见后文“### 98. VLM 和纯文本 LLM 的最大区别是什么?”。

  • 问:diffusion model 的前向和反向过程分别是什么?

    答:扩散模型的前向过程,是从真实数据开始,逐步加入噪声,直到样本接近纯噪声分布;反向过程则是学习怎样一步步把噪声去掉,最终还原成结构化样本。训练时模型学的是这个去噪逆过程,推理生成时就从随机噪声出发,按多步去噪链把样本生成出来。详见后文“### 99. diffusion model 的前向和反向过程分别是什么?”。

  • 问:图像编码器与语言模型对齐通常怎么做?

    答:常见做法是先用视觉编码器把图像转成一串视觉特征,再用投影层、adapter、Q-Former 或 cross-attention 模块,把这些视觉特征映射到语言模型可以消费的表示空间。换句话说,不是让语言模型直接“看像素”,而是让前面的视觉模块先把图像压缩成高层语义特征。详见后文“### 100. 图像编码器与语言模型对齐通常怎么做?”。

  • 问:多模态任务中常见 benchmark 有哪些类型?

    答:多模态 benchmark 常见可以分成几类:图文检索,考跨模态对齐;视觉问答,考图像理解和语言推理结合;图像描述,考视觉信息到自然语言生成;OCR 与文档理解,考细粒度文本读取和版面感知;视频问答、视频摘要,考时序建模;音视频理解,则考模态同步与事件抽取;还有更综合的多模态推理 benchmark,考的是关系、因果和常识。详见后文“### 101. 多模态任务中常见 benchmark 有哪些类型?”。

  • 问:视频理解相比图像理解多了哪些难点?

    答:视频理解比图像理解多出来的最大难点,是它不只是空间理解,还要做时间理解。你不仅要知道每一帧里有什么,还要知道事件先后顺序、动作变化、跨帧关系,以及哪些瞬间才是真正关键。于是采样策略、长序列压缩、时序建模、关键帧选择都会变成核心问题。详见后文“### 102. 视频理解相比图像理解多了哪些难点?”。

#代表面试题

  1. 为什么多模态系统常常不是“把图像特征接到 LLM 后面”这么简单?
  2. 视频理解为什么难,难在时序、采样、压缩还是标注?
  3. 图文检索、视觉问答、视频摘要这三类任务的模型需求有什么差异?
  4. 如果做一个短视频内容理解系统,你会怎样设计输入采样与时序建模?
  5. 扩散模型和自回归生成模型各自更适合什么类型的生成任务?
  6. 多模态系统在线上落地时,成本和时延通常比文本系统多出哪些问题?

#就地速答

  • 问:为什么多模态系统常常不是“把图像特征接到 LLM 后面”这么简单?

    答:因为真正困难的不只是“接进去”,而是“接进去以后模型能不能真的用好”。图像特征和语言表示来自完全不同的空间,如何对齐、如何压缩、如何保留细粒度关键信息,本身就是难题。再往上,还有长视频时序压缩、多模态噪声、模态缺失和标注成本等问题。详见后文“### 103. 为什么多模态系统常常不是“把图像特征接到 LLM 后面”这么简单?”。

  • 问:视频理解为什么难,难在时序、采样、压缩还是标注?

    答:这几个都难,而且是叠加关系。时序难,是因为很多答案依赖动作顺序、因果和跨片段联系;采样难,是因为视频太长,不可能逐帧全看,必须决定哪些帧值得保留;压缩难,是因为长视频会把计算和显存迅速拉高;标注难,是因为视频标注远比单图昂贵,还常涉及多事件、多角色和跨模态对齐。详见后文“### 104. 视频理解为什么难,难在时序、采样、压缩还是标注?”。

  • 问:图文检索、视觉问答、视频摘要这三类任务的模型需求有什么差异?

    答:图文检索最看重的是跨模态表示对齐,也就是图和文能不能落在同一语义空间里;视觉问答则要求模型既看懂图像内容,又能把问题理解和视觉证据结合起来做语言推理;视频摘要更进一步,重点变成如何压缩长时序、筛选关键事件、组织叙事结构。详见后文“### 105. 图文检索、视觉问答、视频摘要这三类任务的模型需求有什么差异?”。

  • 问:如果做一个短视频内容理解系统,你会怎样设计输入采样与时序建模?

    答:更稳的设计通常是分层采样。先做稀疏全局采样,保证整段视频的覆盖;再对关键片段做加密采样,比如场景切换点、动作高峰段、对白密集段;如果有 ASR 或字幕,也可以用文本信号辅助决定哪些时间段值得重点看。这样做是为了在有限计算预算下尽量保留关键事件。详见后文“### 106. 如果做一个短视频内容理解系统,你会怎样设计输入采样与时序建模?”。

  • 问:扩散模型和自回归生成模型各自更适合什么类型的生成任务?

    答:扩散模型通常更适合图像这类连续空间生成任务,因为它通过逐步去噪的方式,可以在高维连续分布里稳定生成高质量样本;自回归模型则更适合文本、代码、结构化 token 序列,因为这类任务天然就是一个 token 接一个 token 地展开。详见后文“### 107. 扩散模型和自回归生成模型各自更适合什么类型的生成任务?”。

  • 问:多模态系统在线上落地时,成本和时延通常比文本系统多出哪些问题?

    答:多模态系统在线上落地时,首先多出的是前处理成本:图像要编码、视频要采样并编码、音频要转写或提特征,这些步骤在模型真正开始推理前就已经消耗了不少时间和显存。其次,多模态输入往往更长、更重,导致上下文构造、显存占用和带宽压力都比纯文本大。详见后文“### 108. 多模态系统在线上落地时,成本和时延通常比文本系统多出哪些问题?”。

#这一块真正考什么

  • 是否理解多模态不是“换个模态输入”,而是表示空间、对齐方式、时序结构和数据成本都发生了变化。

#作答抓手

回答多模态题时,优先说清 输入如何编码模态如何对齐输出目标是什么评测怎么做