《Scaling Language-Centric Omnimodal Representation Learning》深读报告

这篇论文的核心不是“又训练了一个更大的多模态 embedding 模型”,而是提出一个更强的解释框架:MLLM 的生成式预训练已经在语言解码器内部形成隐式跨模态对齐,contrastive learning 主要是在激活和整理这个已有空间。

arXiv:2510.11693v1 NeurIPS 2025 LCO-Emb GRSL SeaDoc

1. 材料核验

阅读对象为 Chenghao Xiao、Hou Pong Chan、Hao Zhang、Weiwen Xu、Mahani Aljunied、Yu Rong 的论文 Scaling Language-Centric Omnimodal Representation Learning,arXiv 编号 2510.11693v1,PDF 元数据核验为 25 页,题名与作者一致。论文页面标注为 NeurIPS 2025,官方资源包括 GitHub 仓库 LCO-Embedding/LCO-Embedding 与 Hugging Face 的 LCO-Embedding 组织和模型卡。

本报告主要依据本地 PDF 全文抽取文本和主文/附录表格:language-centric-omnimodal-embedding-paper/refs/2510.11693.pdflanguage-centric-omnimodal-embedding-paper/refs/2510.11693.txt

2. 一句话理解

论文认为:MLLM 之所以适合作为多模态 embedding backbone,不是因为后续 contrastive learning 重新学会了所有跨模态对齐,而是因为生成式预训练已经让语言 decoder 学会把图像、视频、音频等信号投到一个可被语言消费的共享语义空间;后续轻量 LoRA + 对比学习更像是把这个空间整理成“适合相似度检索”的 embedding 空间。

最重要的范式变化:传统 CLIP 路线把“跨模态对齐”主要寄托在海量图文对比学习上;这篇论文把“跨模态对齐”的主要来源前移到 MLLM 的生成式预训练,把 CL 降级为后处理式的 representation activation。

3. 论文要解决什么问题

多模态 embedding 的目标是把文本、图像、视频、音频、文档页面或交错多模态输入编码成向量,使语义相近的输入在向量空间中距离更近。这个能力用于检索、分类、聚类、视觉文档问答、跨语言图像检索等任务。

传统路线是 CLIP-style:收集大量跨模态配对数据,例如图像-文本对,通过 contrastive learning 把匹配对拉近、不匹配对推远。这条路线在零样本分类、线性探测上很成功,但在更复杂任务上容易平台化,包括:

  • 视觉文本表示:模型要读懂图片里的文字,而不是只理解自然图像语义。
  • 多语言图像检索:查询可能是低资源语言或跨语言文本。
  • 视觉文档检索:页面包含排版、表格、OCR、上下文结构。
  • 交错多模态输入:输入不是单张图或一句话,而是图文混合的复杂上下文。

近年的 MLLM-based embedding 方法,例如 E5-V、VLM2Vec、GME、mmE5,把 autoregressive MLLM 当 backbone,再做对比学习,效果常常超过 CLIP-style 模型。但问题是:它们为什么更强?是因为后续 CL 数据更多、更好,还是因为 MLLM 的生成式预训练已经学到了某种隐含对齐?这篇论文的核心贡献就是回答这个机制问题。

4. 方法机制:LCO-Emb 到底怎么做

4.1 先证明 MLLM 内部已有 latent cross-modal alignment

作者没有一开始就训练模型,而是先做诊断实验:从一个 MLLM 里把语言 decoder,也就是 LLM 部分,单独拿出来;只用文本 NLI 数据做 LoRA 对比学习;训练后把 LoRA 权重合并回语言 decoder,再把 decoder 插回原来的 MLLM。视觉、音频、视频 encoder 和 projector 都不训练。

如果只训练文本 decoder,却让图像、音频、视频 embedding 的几何性质也变好,那说明这些模态本来就和语言 decoder 的表示空间存在某种绑定关系。否则,文本训练不应该系统性改善非文本模态。

4.2 诊断一:anisotropy

Anisotropy 可以理解为“向量是否挤在同一个方向附近”。如果随机抽两个输入,它们的 cosine similarity 也很高,就说明 embedding 空间塌缩、区分性差。论文用随机样本两两余弦相似度的均值估计 anisotropy:

\[ \operatorname{Anisotropy} := \mathbb{E}_{\mathbf{h}_i,\mathbf{h}_j\sim\mathcal{D}} [\cos(\theta_{ij})] = \mathbb{E}_{\mathbf{h}_i,\mathbf{h}_j\sim\mathcal{D}} \left[ \frac{\mathbf{h}_i^\top \mathbf{h}_j} {\|\mathbf{h}_i\|\,\|\mathbf{h}_j\|} \right]. \] TeX: \operatorname{Anisotropy} := \mathbb{E}_{\mathbf{h}_i,\mathbf{h}_j\sim\mathcal{D}}[\cos(\theta_{ij})] = \mathbb{E}[(\mathbf{h}_i^\top\mathbf{h}_j)/(\|\mathbf{h}_i\|\|\mathbf{h}_j\|)]

结果是:Qwen2.5-Omni-3B 原始表示在文本、图像、音频、视频上都有塌缩;只做文本 contrastive learning 后,非文本模态也变得更 isotropic。这里的关键不是“数值变好”本身,而是文本训练的几何改善迁移到了未直接训练的模态

4.3 诊断二:kernel-level similarity

Kernel-level similarity 看的是“相似性结构是否一致”。举例:一批图像和对应 caption,如果图像 embedding 认为 A、B、C 彼此最相近,而文本 embedding 也认为对应 caption 的 A、B、C 最相近,那么图像空间和文本空间不只是单点对齐,而是在局部邻域结构上对齐。

论文用 mutual kNN:对每个样本,分别在图像特征集合和文本特征集合里找 top-k 最近邻,然后看两个最近邻集合的重合比例:

\[ m_{\mathrm{NN}}(\phi_i,\psi_i) = \frac{1}{k} \left|\mathcal{S}(\phi_i)\cap\mathcal{S}(\psi_i)\right|. \] TeX: m_{\mathrm{NN}}(\phi_i,\psi_i)=\frac{1}{k}|\mathcal{S}(\phi_i)\cap\mathcal{S}(\psi_i)|

结果显示,文本-only CL 后,Qwen2.5-VL 的 vision-language kernel alignment 提升;7B 比 3B 更强。这支持一个判断:更强/更大的 MLLM 更容易在生成式预训练中形成可迁移的跨模态结构。

4.4 LCO-Emb 的训练流程

  1. 选择 MLLM backbone:LLaVA-Next、Qwen2.5-VL、Qwen2.5-Omni。VL 主要支持图像/视频-文本,Omni 支持文本、图像、视频、音频。
  2. 取语言 decoder 做 LoRA:text-only 版本冻结 modality encoder 和 projector,只对语言 decoder 做 LoRA 对比学习;训练后合并 LoRA 并插回 MLLM。
  3. 构造训练对:all-NLI 使用 MNLI + SNLI,约 276k triplets,把 entailment 当 positive,contradiction 当 hard negative;Scale-1M 从 20M 多语言平行语料中采样 1M 句对。
  4. 可选加入少量多模态数据:在 all-NLI 基础上加入约 94k 多模态 triplets,包括约 23k visual document、3k MS-COCO、若干 Scale-1M、多种合成 interleaved/instruction 数据,形成约 370k triplets。
  5. 训练设置:AdamW,cosine learning-rate schedule,peak LR 4e-4,batch size 768,训练 2 epochs;text-only 默认 LoRA rank=64、alpha=16,multimodal 默认 rank=64、alpha=128。
为什么 LoRA 很关键:在这里 LoRA 不只是省显存,而是“少改一点,少忘一点”。如果 full finetune 过度改动 decoder,可能破坏预训练阶段形成的跨模态绑定;如果只加线性 projection,又太浅,不能真正激活 decoder 内部的语义结构。

5. 评估到底测什么

这篇论文的评估不只是“图文检索”。它主要使用 MIEB-Lite、MIEB-Sub18,以及音频/视频检索任务。

评估类别输入/输出指标含义为什么重要
Visual STS把文本渲染成图片,比较图片中的文本语义相似度Spearman correlation:模型相似度排序与人工相似度排序的一致性测试模型是否真的能从视觉中读语义,而不是只识别自然图像类别
Visual Document Retrieval给 query,检索包含答案或相关信息的文档页面图片nDCG@5:正确页面排在前面得分更高,位置越靠前权重越大测试 OCR、版面理解、图文交错对齐
Image Linear Probing冻结 embedding,用少量标注训练线性分类器Accuracy衡量冻结视觉表示是否有可迁移判别信息
Compositionality图像与细粒度 caption 互检索Accuracy测试对象、属性、关系组合是否精确对齐
Vision-centric QA图像条件问题,检索正确答案Accuracy把 QA 转成 retrieval,测试视觉理解和推理表征
Multilingual Image Retrieval多语言文本查询检索图像nDCG@10测试语言空间和图像空间在跨语言情况下是否对齐
Clustering把图像 embedding 聚类NMI:聚类结果与真实类别的一致性看 embedding 空间的整体结构是否清晰
Audio/Video Retrieval音频/视频和文本互检索Recall@1:正确匹配是否排第 1验证方法是否扩展到视觉之外的模态

6. 主要实验结果

6.1 MIEB-Lite 主结果

在 51 个 MIEB-Lite 任务上,LCO-Emb 多模态版本达到新的强结果。代表性均值如下:

模型训练数据规模Mean(en)Mean(m)解读
GME 7B8.0M63.464.5强 MLLM embedding baseline,数据量大
mmE5 11B2.1M57.761.8多模态多语言 embedding baseline
LCO-Emb-VL 7B text-only276k57.560.4仅文本对比学习就接近或超过多个强 baseline
LCO-Emb-VL 7B multimodal370k66.267.6只加约 94k 多模态数据,显著校准任务格式
LCO-Emb-Omni 7B multimodal370k67.668.8主表最好结果;比 GME 用少约 21 倍数据

6.2 MIEB-Sub18:text-only 版本也很强

作者在 MIEB-Sub18 上专门看 text-only 版本,目的是证明“不是因为偷偷喂了大量图文数据”。论文报告 text-only LCO-Emb 相比 E5-V 和 Voyage Multimodal 3 的平均提升分别约 21.69 和 13.00 分;在线性探测、跨语言 Visual STS、多语言图像检索上提升尤其明显。

6.3 all-NLI 与 Scale-1M 的互补性

all-NLI 更擅长 Visual STS 和 Document Understanding,因为 NLI 训练强化了“语义相似/蕴含/矛盾”的判断;Scale-1M 更擅长 Linear Probing 和 Multilingual Image Retrieval,因为多语言描述性句对更像弱化版 caption pretraining。model soup 合并两个 checkpoint 后平均最好,说明不同文本数据激活的是不同能力侧面。

6.4 训练策略消融:LoRA 明显优于替代方案

Qwen2.5-VL-7B 策略GPU HoursAverage核心解释
原始模型n/a52.92原始 generative 表示不适合直接相似度匹配
CLIP-style CL on 800k PixmoCaps约 55050.02贵且差,说明简单图文 CL 可能破坏或不能利用 MLLM 结构
Linear Projection text-only约 8.856.22浅层投影改进有限
Full Finetune text-only约 17.366.49有效但可能扰动过大
LoRA text-only约 9.371.98最佳,符合“保留预训练对齐 + 激活相似度空间”的解释

LoRA 超参也体现这个逻辑:rank/alpha 没有全局最优;过大的 alpha 会让 compositionality 和 vision-centric QA 这类 OOD 能力下降;rank=256、alpha=512 出现不可恢复 loss spike。这说明“改得越多越强”并不成立。

7. Generation-Representation Scaling Law

GRSL 是论文第二个大贡献:经过同样的轻量 contrastive learning 后,模型最终 representation 能力和它在 CL 前的 generative 能力正相关。作者在三类任务上观察这个关系:

  • OCR-based image-text:representation 用 Visual STS-English + Document Understanding;generation 用 TextVQA、DocVQA、OCRBench、ChartQA。
  • Video-text:representation 用 MSR-VTT 与 ActivityNet 的 Recall@1;generation 用 Video-MME 和 MVBench。
  • Audio-text:representation 用 Clotho 与 AudioCaps 的 Recall@1;generation 用 MMAU 和 VoiceBench。

作者的理论解释用了 PAC-Bayes bound。可以把它翻译成三句话:

  1. 预训练 MLLM 是 contrastive fine-tuning 的 prior;如果 prior 生成能力强,说明它捕获了更多输入 X 与输出 Y 的 mutual information。
  2. InfoNCE 的经验损失可以被 \(\log N - I_P(X;Y) + \epsilon_P\) 上界控制;生成 prior 捕获的信息越多,理论上 contrastive 学习越容易做到低损失。
  3. PAC-Bayes 还会惩罚 posterior Q 偏离 prior P 的程度,即 KL(Q||P);LoRA 的好处是让 Q 离 P 近,保留强生成 prior 的优势。
\[ \mathbb{E}_{\theta\sim Q} \left[L_c^{\mathrm{pop}}(\theta)\right] \le \log N - I_P(X;Y) + \epsilon_P + \sqrt{ \frac{\operatorname{KL}(Q\|P)+\log(1/\delta)} {2n} }. \] TeX: \mathbb{E}_{\theta\sim Q}[L_c^{\mathrm{pop}}(\theta)] \le \log N - I_P(X;Y)+\epsilon_P+\sqrt{(\operatorname{KL}(Q\|P)+\log(1/\delta))/(2n)}

这个 bound 不是严格证明“生成能力一定导致 embedding 更好”的因果定理,因为关键 Hypothesis 1 仍是假设;但它给出一个清晰解释:强生成模型提供 warm start,LoRA 控制别偏离太远,contrastive learning 负责把空间转成 similarity-matching 形式。

8. SeaDoc:用低资源视觉文档检索验证 GRSL

SeaDoc 是作者构造的低资源东南亚语言视觉文档检索 benchmark。任务是:给英文 query,从 5,055 页泰语、越南语、马来语、老挝语文档页面中检索对应页面。文档来自 29 本书,领域包括经济、自然科学、技术、历史、政治、艺术、心理、教育、国家报告等。

数据构造流程:

  1. 用 Gemini-2.5-Flash 对每页做 OCR、英文翻译,并生成只能由该页回答的英文 query,得到 5,055 个初始 triplets。
  2. 用 Qwen2.5-7B-Instruct 过滤 title page、目录等功能页,剩 4,491 页内容页。
  3. 再用模型打 Quality 与 Groundedness 分,只保留质量 >= 9 且 groundedness = 10 的 query。
  4. 内部语言专家复核,最终得到 1,001 个高质量 query。

为了验证“增强生成能力能提高 representation 上限”,作者先对 Qwen2.5-VL-3B 做 OCR-intensive generative SFT,再做同样的 CL。结果显示:只用低分辨率 SeaDoc OCR SFT 会造成能力坍塌;高分辨率训练能部分缓解;加入 PixmoCaps caption 后效果更好,因为通用 caption 数据帮助保留图文 latent alignment。这个实验很重要,因为它说明 GRSL 不是“随便做 SFT 就好”,而是要提升目标生成能力,同时不能破坏通用跨模态对齐。

9. 局限与需要谨慎的地方

  • 因果性仍不完全:GRSL 的经验相关性很有启发,但严格因果还需要更干净的控制变量,例如同架构、同数据、只改变 generative loss 的系列模型。
  • 理论依赖强假设:PAC-Bayes bound 的核心 Hypothesis 1 把 warm start 写成经验损失上界,但这本身不是从基础假设推出的定理。
  • benchmark 可能偏向 MLLM 能力:MIEB 中的文档理解、视觉文本、多语言、interleaved retrieval 本来就更接近 MLLM 预训练和指令能力,不能简单外推到所有视觉 representation 任务。
  • 少量多模态数据的配方很关键:论文强调大规模 visual document 数据若不平衡会伤 generalization;这意味着方法不是“随便加点多模态数据”就有效。
  • 生成能力与 embedding 能力的目标并不完全一致:一个会回答问题的模型不一定有好的全局度量空间;CL 仍然不可替代,只是角色变成校准和激活。

10. 我的判断

这篇论文真正有价值的地方,是把 MLLM embedding 的成功从“经验 recipe”提升成一个相对统一的解释:生成式多模态模型先学会把多模态信息翻译成语言可用的 latent space,embedding 训练再把这个 latent space 改造成可排序、可检索的 metric space。

我认为它对实践的启发很明确:

  • 如果你要做复杂多模态检索,优先选择 generative capability 强、目标模态理解好的 MLLM backbone,而不是只盯着 CL 数据规模。
  • 后训练要保守,LoRA 这类小扰动方法在这里不是妥协,而是方法论核心。
  • 训练数据不一定要大,但要能激活目标能力:NLI 激活语义相似判断,Scale-1M 激活多语言/描述性表示,少量 visual document/interleaved 数据校准下游格式。
  • 如果目标任务是低资源 OCR 文档检索,先提升生成式 OCR/翻译/grounding 能力,再做 CL,比直接堆检索 triplet 更有潜力。
一句话评价:这篇论文的实验结果很强,但更值得记住的是它重新定义了 CL 在 MLLM embedding 中的角色:CL 不是主要知识来源,而是把生成模型已有的跨模态语义结构“投影成检索空间”的激活器。