#模块九:多模态(图文音视频)知识点
Q97 CLIP 的核心思想是什么?:知识点包括图文对比学习;共享语义空间;检索与零样本分类能力。
Q98 VLM 和纯文本 LLM 的最大区别是什么?:知识点包括多模态编码器;跨模态对齐;输入空间和噪声复杂度更高。
Q99 diffusion model 的前向和反向过程分别是什么?:知识点包括前向逐步加噪;反向逐步去噪生成;训练目标是预测噪声或重建。
Q100 图像编码器与语言模型对齐通常怎么做?:知识点包括投影层、adapter、cross-attention、对齐训练数据;不是简单拼接特征。
Q101 多模态任务中常见 benchmark 有哪些类型?:知识点包括检索、VQA、caption、grounding、视频问答、OCR、文档理解。
Q102 视频理解相比图像理解多了哪些难点?:知识点包括时序建模、采样策略、长视频压缩、音视频同步、标注成本。
Q103 为什么多模态系统常常不是“把图像特征接到 LLM 后面”这么简单?:知识点包括模态对齐、分辨率压缩、时序信息保留、训练目标匹配。
Q104 视频理解为什么难,难在时序、采样、压缩还是标注?:知识点包括这四者都难;核心是信息密度高但计算预算有限;采样和时序建模一起决定效果上限。
Q105 图文检索、视觉问答、视频摘要三类任务的模型需求有什么差异?:知识点包括匹配、推理、生成三种目标;上下文长度和对齐精度要求不同。
Q106 如果做一个短视频内容理解系统,你会怎样设计输入采样与时序建模?:知识点包括关键帧 + 均匀采样;动作片段覆盖;必要时引入音频线索;成本控制。
Q107 扩散模型和自回归生成模型各自更适合什么任务?:知识点包括高保真图像生成 vs 逐步文本/序列生成;并行性与控制方式差异。
Q108 多模态系统在线上落地时,成本和时延通常比文本系统多出哪些问题?:知识点包括编码器额外开销;大分辨率/长视频输入;多模态缓存与数据传输成本。