1. 材料核验
阅读对象为 Chenghao Xiao、Hou Pong Chan、Hao Zhang、Weiwen Xu、Mahani Aljunied、Yu Rong 的论文 Scaling Language-Centric Omnimodal Representation Learning,arXiv 编号 2510.11693v1,PDF 元数据核验为 25 页,题名与作者一致。论文页面标注为 NeurIPS 2025,官方资源包括 GitHub 仓库 LCO-Embedding/LCO-Embedding 与 Hugging Face 的 LCO-Embedding 组织和模型卡。
本报告主要依据本地 PDF 全文抽取文本和主文/附录表格:language-centric-omnimodal-embedding-paper/refs/2510.11693.pdf 与 language-centric-omnimodal-embedding-paper/refs/2510.11693.txt。
2. 一句话理解
论文认为:MLLM 之所以适合作为多模态 embedding backbone,不是因为后续 contrastive learning 重新学会了所有跨模态对齐,而是因为生成式预训练已经让语言 decoder 学会把图像、视频、音频等信号投到一个可被语言消费的共享语义空间;后续轻量 LoRA + 对比学习更像是把这个空间整理成“适合相似度检索”的 embedding 空间。
3. 论文要解决什么问题
多模态 embedding 的目标是把文本、图像、视频、音频、文档页面或交错多模态输入编码成向量,使语义相近的输入在向量空间中距离更近。这个能力用于检索、分类、聚类、视觉文档问答、跨语言图像检索等任务。
传统路线是 CLIP-style:收集大量跨模态配对数据,例如图像-文本对,通过 contrastive learning 把匹配对拉近、不匹配对推远。这条路线在零样本分类、线性探测上很成功,但在更复杂任务上容易平台化,包括:
- 视觉文本表示:模型要读懂图片里的文字,而不是只理解自然图像语义。
- 多语言图像检索:查询可能是低资源语言或跨语言文本。
- 视觉文档检索:页面包含排版、表格、OCR、上下文结构。
- 交错多模态输入:输入不是单张图或一句话,而是图文混合的复杂上下文。
近年的 MLLM-based embedding 方法,例如 E5-V、VLM2Vec、GME、mmE5,把 autoregressive MLLM 当 backbone,再做对比学习,效果常常超过 CLIP-style 模型。但问题是:它们为什么更强?是因为后续 CL 数据更多、更好,还是因为 MLLM 的生成式预训练已经学到了某种隐含对齐?这篇论文的核心贡献就是回答这个机制问题。
4. 方法机制:LCO-Emb 到底怎么做
4.1 先证明 MLLM 内部已有 latent cross-modal alignment
作者没有一开始就训练模型,而是先做诊断实验:从一个 MLLM 里把语言 decoder,也就是 LLM 部分,单独拿出来;只用文本 NLI 数据做 LoRA 对比学习;训练后把 LoRA 权重合并回语言 decoder,再把 decoder 插回原来的 MLLM。视觉、音频、视频 encoder 和 projector 都不训练。
如果只训练文本 decoder,却让图像、音频、视频 embedding 的几何性质也变好,那说明这些模态本来就和语言 decoder 的表示空间存在某种绑定关系。否则,文本训练不应该系统性改善非文本模态。
4.2 诊断一:anisotropy
Anisotropy 可以理解为“向量是否挤在同一个方向附近”。如果随机抽两个输入,它们的 cosine similarity 也很高,就说明 embedding 空间塌缩、区分性差。论文用随机样本两两余弦相似度的均值估计 anisotropy:
结果是:Qwen2.5-Omni-3B 原始表示在文本、图像、音频、视频上都有塌缩;只做文本 contrastive learning 后,非文本模态也变得更 isotropic。这里的关键不是“数值变好”本身,而是文本训练的几何改善迁移到了未直接训练的模态。
4.3 诊断二:kernel-level similarity
Kernel-level similarity 看的是“相似性结构是否一致”。举例:一批图像和对应 caption,如果图像 embedding 认为 A、B、C 彼此最相近,而文本 embedding 也认为对应 caption 的 A、B、C 最相近,那么图像空间和文本空间不只是单点对齐,而是在局部邻域结构上对齐。
论文用 mutual kNN:对每个样本,分别在图像特征集合和文本特征集合里找 top-k 最近邻,然后看两个最近邻集合的重合比例:
结果显示,文本-only CL 后,Qwen2.5-VL 的 vision-language kernel alignment 提升;7B 比 3B 更强。这支持一个判断:更强/更大的 MLLM 更容易在生成式预训练中形成可迁移的跨模态结构。
4.4 LCO-Emb 的训练流程
- 选择 MLLM backbone:LLaVA-Next、Qwen2.5-VL、Qwen2.5-Omni。VL 主要支持图像/视频-文本,Omni 支持文本、图像、视频、音频。
- 取语言 decoder 做 LoRA:text-only 版本冻结 modality encoder 和 projector,只对语言 decoder 做 LoRA 对比学习;训练后合并 LoRA 并插回 MLLM。
- 构造训练对:all-NLI 使用 MNLI + SNLI,约 276k triplets,把 entailment 当 positive,contradiction 当 hard negative;Scale-1M 从 20M 多语言平行语料中采样 1M 句对。
- 可选加入少量多模态数据:在 all-NLI 基础上加入约 94k 多模态 triplets,包括约 23k visual document、3k MS-COCO、若干 Scale-1M、多种合成 interleaved/instruction 数据,形成约 370k triplets。
- 训练设置:AdamW,cosine learning-rate schedule,peak LR 4e-4,batch size 768,训练 2 epochs;text-only 默认 LoRA rank=64、alpha=16,multimodal 默认 rank=64、alpha=128。
5. 评估到底测什么
这篇论文的评估不只是“图文检索”。它主要使用 MIEB-Lite、MIEB-Sub18,以及音频/视频检索任务。
| 评估类别 | 输入/输出 | 指标含义 | 为什么重要 |
|---|---|---|---|
| Visual STS | 把文本渲染成图片,比较图片中的文本语义相似度 | Spearman correlation:模型相似度排序与人工相似度排序的一致性 | 测试模型是否真的能从视觉中读语义,而不是只识别自然图像类别 |
| Visual Document Retrieval | 给 query,检索包含答案或相关信息的文档页面图片 | nDCG@5:正确页面排在前面得分更高,位置越靠前权重越大 | 测试 OCR、版面理解、图文交错对齐 |
| Image Linear Probing | 冻结 embedding,用少量标注训练线性分类器 | Accuracy | 衡量冻结视觉表示是否有可迁移判别信息 |
| Compositionality | 图像与细粒度 caption 互检索 | Accuracy | 测试对象、属性、关系组合是否精确对齐 |
| Vision-centric QA | 图像条件问题,检索正确答案 | Accuracy | 把 QA 转成 retrieval,测试视觉理解和推理表征 |
| Multilingual Image Retrieval | 多语言文本查询检索图像 | nDCG@10 | 测试语言空间和图像空间在跨语言情况下是否对齐 |
| Clustering | 把图像 embedding 聚类 | NMI:聚类结果与真实类别的一致性 | 看 embedding 空间的整体结构是否清晰 |
| Audio/Video Retrieval | 音频/视频和文本互检索 | Recall@1:正确匹配是否排第 1 | 验证方法是否扩展到视觉之外的模态 |
6. 主要实验结果
6.1 MIEB-Lite 主结果
在 51 个 MIEB-Lite 任务上,LCO-Emb 多模态版本达到新的强结果。代表性均值如下:
| 模型 | 训练数据规模 | Mean(en) | Mean(m) | 解读 |
|---|---|---|---|---|
| GME 7B | 8.0M | 63.4 | 64.5 | 强 MLLM embedding baseline,数据量大 |
| mmE5 11B | 2.1M | 57.7 | 61.8 | 多模态多语言 embedding baseline |
| LCO-Emb-VL 7B text-only | 276k | 57.5 | 60.4 | 仅文本对比学习就接近或超过多个强 baseline |
| LCO-Emb-VL 7B multimodal | 370k | 66.2 | 67.6 | 只加约 94k 多模态数据,显著校准任务格式 |
| LCO-Emb-Omni 7B multimodal | 370k | 67.6 | 68.8 | 主表最好结果;比 GME 用少约 21 倍数据 |
6.2 MIEB-Sub18:text-only 版本也很强
作者在 MIEB-Sub18 上专门看 text-only 版本,目的是证明“不是因为偷偷喂了大量图文数据”。论文报告 text-only LCO-Emb 相比 E5-V 和 Voyage Multimodal 3 的平均提升分别约 21.69 和 13.00 分;在线性探测、跨语言 Visual STS、多语言图像检索上提升尤其明显。
6.3 all-NLI 与 Scale-1M 的互补性
all-NLI 更擅长 Visual STS 和 Document Understanding,因为 NLI 训练强化了“语义相似/蕴含/矛盾”的判断;Scale-1M 更擅长 Linear Probing 和 Multilingual Image Retrieval,因为多语言描述性句对更像弱化版 caption pretraining。model soup 合并两个 checkpoint 后平均最好,说明不同文本数据激活的是不同能力侧面。
6.4 训练策略消融:LoRA 明显优于替代方案
| Qwen2.5-VL-7B 策略 | GPU Hours | Average | 核心解释 |
|---|---|---|---|
| 原始模型 | n/a | 52.92 | 原始 generative 表示不适合直接相似度匹配 |
| CLIP-style CL on 800k PixmoCaps | 约 550 | 50.02 | 贵且差,说明简单图文 CL 可能破坏或不能利用 MLLM 结构 |
| Linear Projection text-only | 约 8.8 | 56.22 | 浅层投影改进有限 |
| Full Finetune text-only | 约 17.3 | 66.49 | 有效但可能扰动过大 |
| LoRA text-only | 约 9.3 | 71.98 | 最佳,符合“保留预训练对齐 + 激活相似度空间”的解释 |
LoRA 超参也体现这个逻辑:rank/alpha 没有全局最优;过大的 alpha 会让 compositionality 和 vision-centric QA 这类 OOD 能力下降;rank=256、alpha=512 出现不可恢复 loss spike。这说明“改得越多越强”并不成立。
7. Generation-Representation Scaling Law
GRSL 是论文第二个大贡献:经过同样的轻量 contrastive learning 后,模型最终 representation 能力和它在 CL 前的 generative 能力正相关。作者在三类任务上观察这个关系:
- OCR-based image-text:representation 用 Visual STS-English + Document Understanding;generation 用 TextVQA、DocVQA、OCRBench、ChartQA。
- Video-text:representation 用 MSR-VTT 与 ActivityNet 的 Recall@1;generation 用 Video-MME 和 MVBench。
- Audio-text:representation 用 Clotho 与 AudioCaps 的 Recall@1;generation 用 MMAU 和 VoiceBench。
作者的理论解释用了 PAC-Bayes bound。可以把它翻译成三句话:
- 预训练 MLLM 是 contrastive fine-tuning 的 prior;如果 prior 生成能力强,说明它捕获了更多输入 X 与输出 Y 的 mutual information。
- InfoNCE 的经验损失可以被 \(\log N - I_P(X;Y) + \epsilon_P\) 上界控制;生成 prior 捕获的信息越多,理论上 contrastive 学习越容易做到低损失。
- PAC-Bayes 还会惩罚 posterior Q 偏离 prior P 的程度,即
KL(Q||P);LoRA 的好处是让 Q 离 P 近,保留强生成 prior 的优势。
这个 bound 不是严格证明“生成能力一定导致 embedding 更好”的因果定理,因为关键 Hypothesis 1 仍是假设;但它给出一个清晰解释:强生成模型提供 warm start,LoRA 控制别偏离太远,contrastive learning 负责把空间转成 similarity-matching 形式。
8. SeaDoc:用低资源视觉文档检索验证 GRSL
SeaDoc 是作者构造的低资源东南亚语言视觉文档检索 benchmark。任务是:给英文 query,从 5,055 页泰语、越南语、马来语、老挝语文档页面中检索对应页面。文档来自 29 本书,领域包括经济、自然科学、技术、历史、政治、艺术、心理、教育、国家报告等。
数据构造流程:
- 用 Gemini-2.5-Flash 对每页做 OCR、英文翻译,并生成只能由该页回答的英文 query,得到 5,055 个初始 triplets。
- 用 Qwen2.5-7B-Instruct 过滤 title page、目录等功能页,剩 4,491 页内容页。
- 再用模型打 Quality 与 Groundedness 分,只保留质量 >= 9 且 groundedness = 10 的 query。
- 内部语言专家复核,最终得到 1,001 个高质量 query。
为了验证“增强生成能力能提高 representation 上限”,作者先对 Qwen2.5-VL-3B 做 OCR-intensive generative SFT,再做同样的 CL。结果显示:只用低分辨率 SeaDoc OCR SFT 会造成能力坍塌;高分辨率训练能部分缓解;加入 PixmoCaps caption 后效果更好,因为通用 caption 数据帮助保留图文 latent alignment。这个实验很重要,因为它说明 GRSL 不是“随便做 SFT 就好”,而是要提升目标生成能力,同时不能破坏通用跨模态对齐。
9. 局限与需要谨慎的地方
- 因果性仍不完全:GRSL 的经验相关性很有启发,但严格因果还需要更干净的控制变量,例如同架构、同数据、只改变 generative loss 的系列模型。
- 理论依赖强假设:PAC-Bayes bound 的核心 Hypothesis 1 把 warm start 写成经验损失上界,但这本身不是从基础假设推出的定理。
- benchmark 可能偏向 MLLM 能力:MIEB 中的文档理解、视觉文本、多语言、interleaved retrieval 本来就更接近 MLLM 预训练和指令能力,不能简单外推到所有视觉 representation 任务。
- 少量多模态数据的配方很关键:论文强调大规模 visual document 数据若不平衡会伤 generalization;这意味着方法不是“随便加点多模态数据”就有效。
- 生成能力与 embedding 能力的目标并不完全一致:一个会回答问题的模型不一定有好的全局度量空间;CL 仍然不可替代,只是角色变成校准和激活。
10. 我的判断
这篇论文真正有价值的地方,是把 MLLM embedding 的成功从“经验 recipe”提升成一个相对统一的解释:生成式多模态模型先学会把多模态信息翻译成语言可用的 latent space,embedding 训练再把这个 latent space 改造成可排序、可检索的 metric space。
我认为它对实践的启发很明确:
- 如果你要做复杂多模态检索,优先选择 generative capability 强、目标模态理解好的 MLLM backbone,而不是只盯着 CL 数据规模。
- 后训练要保守,LoRA 这类小扰动方法在这里不是妥协,而是方法论核心。
- 训练数据不一定要大,但要能激活目标能力:NLI 激活语义相似判断,Scale-1M 激活多语言/描述性表示,少量 visual document/interleaved 数据校准下游格式。
- 如果目标任务是低资源 OCR 文档检索,先提升生成式 OCR/翻译/grounding 能力,再做 CL,比直接堆检索 triplet 更有潜力。