arXiv:2601.19834 · Paper Reading Report

视觉生成,什么时候真的能提升推理?

Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models 的结构化深读: 从 world model 理论、VisWorld-Eval 任务设计、SFT/RLVR 对照实验,到我对“视觉 CoT 是否有实际价值”的判断。

一句话结论:这篇论文最重要的贡献不是“让模型画图”,而是把图像生成放到 中间 world model 的位置:当任务状态是空间/物理的、难以用语言紧凑表达、且视觉预训练先验更贴近下游任务时, interleaved verbal-visual CoT 会显著优于纯语言 CoT;但在 Maze 这类低维符号状态任务上,视觉生成反而可能只是额外负担。

论文类型理论框架 + benchmark + 受控训练评估
核心对象统一多模态模型中的视觉 world model
关键数据集VisWorld-Eval:7 个空间/物理推理任务
我的判断强证据,但不是通用视觉 CoT 万能论
01

论文在解决什么问题

作者要回答的问题不是“多模态模型会不会生成图片”,而是“图像生成作为推理过程中的中间状态,什么时候能比纯文字思维链更有效”。

现有 LLM/VLM 的推理主要依赖 verbal chain-of-thought。数学题、代码题、逻辑题通常适合这种表示,因为中间状态本身就是符号、变量、约束和自然语言。 但折纸、球反弹、空间方位、三维视角重建这类任务不一样:真正困难的是维护一个随动作变化的空间状态。

纯文字当然可以描述空间状态,例如用坐标、矩阵、对象列表、方向关系。但这种描述经常遇到三个问题: 第一,状态写起来很长;第二,局部关系容易漏;第三,模型的语言预训练分布里未必有足够多“折纸每一步如何展开”的详细文本。 视觉生成则可能更自然:一张中间图可以同时承载轮廓、位置、遮挡、方向、对称和运动轨迹。

关键转向:这篇论文把 visual generation 从“最终产出图像”转成“推理过程中的外化 world model”。 图像不是画给人看的装饰,而是模型下一步推理可以继续读取和使用的中间观察。
02

理论框架:world model 如何进入 CoT

论文用 multi-observable MDP 描述任务世界:真实状态隐藏在背后,模型只能通过不同模态、不同视角的 observation 来推理。

World reconstruction

从有限观察恢复当前世界结构,并生成未见过的新视角。例如从一个等轴视图和两个正交视图重建立方体堆叠,再想象背面视角能看到几个指定颜色的方块。

novel view synthesis mental rotation partial observation

World simulation

根据当前状态和动作预测未来观察。例如折纸一步步展开、球按镜面反射运动、物体场景经过多步操作后更新布局。

state transition physical dynamics planning

普通 CoT 可以写成一串文字步骤 r1, r2, ...。论文进一步把每一步写成 (r_i, o_i)r_i 是文字推理,o_i 是该步生成或维护的观察。观察可以是空的、文字的、符号矩阵的,也可以是图像。 这个抽象让“视觉生成”有了明确位置:它就是 o_i,即推理中的显式 visual observation。

论文中的 VisWorld-Eval 和 Table 1 页面截图

原论文页面截图:这一页展示了 VisWorld-Eval 的任务构成和强模型零样本表现。HTML 使用本地 PDF 截图,方便离线核对。

03

三种 CoT/world model 形式

论文的实验核心是控制变量:同一类任务、同一基座模型、不同中间状态表示方式。

输入 初始图片、问题、可选文字指令。例如折纸图、球运动图、立方体堆叠视角图。
中间状态 隐式状态、文字矩阵、坐标、符号表,或模型生成的中间图像。
推理更新 按动作或视角变化更新 world model:展开纸、反弹球、旋转方块、移动相机。
答案 输出短答案或选择项,用 answer accuracy 评估。
形式 中间 observation 优势 风险
Implicit WM o_i = empty,状态藏在 hidden states 中。 不引入显式生成错误;适合 Maze 这类低维坐标状态。 复杂状态难以稳定保存在内部表示里,学习难度高。
Verbal WM 文字、坐标、矩阵、对象列表、符号视图。 可读、可检查、对符号任务很自然。 表达空间几何、遮挡、轨迹和视角变化时会变长且易错。
Visual WM 文字步骤中插入生成图像,形成 interleaved verbal-visual CoT。 自然承载形状、位置、运动和遮挡;更接近视觉预训练先验。 图像生成本身可能 hallucinate,且计算成本更高。
不要误解:这篇论文不是说“图片越多越好”。它强调的是 trade-off: 显式 world model 会降低推理不确定性,但也会引入 world-modeling error。任务越简单,显式视觉状态越可能不划算。
04

VisWorld-Eval:到底测什么

VisWorld-Eval 是一个问答式评测套件,答案短且可验证,核心指标是 accuracy。它不测图像美观度,也不是开放聊天。

任务 能力 训练/测试样本 为什么需要 world model
Paper folding Simulation 2,357 / 480 需要模拟折纸展开、孔洞镜像和形状计数。
Multi-hop manipulation Simulation 2,000 / 480 多步添加、删除、换色、换形状后维护最终空间布局。
Ball tracking Simulation 2,254 / 1,024 需要预测理想反射轨迹和首个进入的洞。
Maze Simulation 8,448 / 480 状态只是 5x5 坐标和墙,低维符号表示已足够。
Sokoban Simulation 7,715 / 480 需要维护玩家、箱子、目标位置和动作序列。
Cube 3-view projection Reconstruction 2,500 / 480 从部分视角重建 3D 结构,再生成未见视角。
Real-world spatial reasoning Reconstruction 10,661 / 522 从真实图片的有限视角判断相机、物体、区域方位。

评估协议很关键:论文主要评 post-trained UMM,而不是只看 base model 零样本。 这样做是为了减少“模型不会输出 interleaved 图文格式”的混杂因素,更接近回答“如果我们训练它使用视觉 scratchpad,它是否真的有收益”。

05

训练与评估流程

主模型是 BAGEL。SFT 同时训练文字推理和视觉中间图;RLVR 阶段只直接优化文字生成,视觉生成通过 KL 约束保持稳定。

SFT 数据

规则模板、搜索算法、Seed/Gemini 改写与过滤,构造 implicit/verbal/visual 三种 CoT 格式。

SFT 损失

文字部分用 cross-entropy,视觉部分用 flow-matching/MSE 风格目标,CE:MSE loss weight 为 1:10

RLVR

用 GRPO 根据最终可验证答案优化;视觉生成不直接吃 reward,而是用相对 SFT reference 的 KL 正则。

这个训练设计让我比较信服的一点是:论文没有简单地把视觉中间图当成最终监督标签,而是把它放入推理轨迹中。 特别是 RLVR 结果显示,即便只直接优化文字生成,visual world modeling 的领先差距仍然存在,说明收益不只是“图片被单独训练得更像标签”。

06

主要实验结果

视觉 world model 在 paper folding、multi-hop manipulation、ball tracking、cube 3-view、MMSI 指定子任务上有明显优势。

任务 Implicit WM Verbal WM Visual WM 我的解读
Paper folding 21.1 27.4 39.2 矩阵能记录孔洞,但很难自然表达纸张轮廓和连续镜像。
Multi-hop manipulation 40.0 不适用 66.6 多步空间布局更新更像“可视化状态追踪”,语言描述容易丢对象关系。
Ball tracking 40.7 不适用 57.6 反射轨迹天然适合图像/轨迹表示,纯文字很难精确维护几何路径。
Cube 3-view projection 60.2 63.7 76.8 视觉预训练中有大量旋转和视角变化先验,字符矩阵没有这种自然先验。
MMSI Cam.-Obj. 46.5 不适用 60.9 真实场景的新视角想象很难完全用文字描述,视觉生成提供 grounding。
MMSI Cam.-Reg. 37.3 不适用 54.4 提升明显,但整体真实场景仍受生成质量和方位理解限制。
论文 Figure 4 主要结果页面截图

原论文页面截图:Figure 4 展示 SFT-trained UMM 在不同 world-model CoT 形式下的 accuracy。

样本效率

Paper folding 中,visual world modeling 用超过 4 倍更少的 SFT 样本达到与 verbal world modeling 相近的表现。 这支持“视觉模态先验更贴近折纸动态”的解释。

中间 world model fidelity

Cube 3-view 中,视觉中间视图的结构 fidelity 明显高于字符矩阵,且在 stack size 6 的 OOD 设置仍保持优势。 这说明最终答案提升与中间状态质量相关,不只是答案格式碰巧正确。

论文 Figure 6 和 Figure 7 分析实验页面截图

原论文页面截图:Figure 6 包含样本效率、cube world-model fidelity、maze 隐式状态 probing;Figure 7 对照 Qwen2.5-VL。

07

失败边界:什么时候视觉生成没用

Maze 和 Sokoban 是这篇论文里最重要的反例:它们证明 visual world model 不是万能增强器。

任务 Implicit WM Verbal WM Visual WM 原因
Maze 77.0 73.1 70.6 5x5 坐标状态很小,模型 hidden states 已能隐式维护;画图增加生成错误。
Sokoban 29.6 36.8 39.3 视觉略好但不大,说明低维网格任务中符号状态已很有效。

论文用 probing 支持 Maze 结论:把 CoT 中的显式坐标 mask 掉,然后取 masked token 的 hidden representation,训练两层 MLP 预测真实坐标。 随机初始化模型失败,预训练 BAGEL 已有一定状态可预测性,SFT 后接近完美。这说明模型内部确实能隐式维护小迷宫状态。

工程启发:当状态本来就是低维符号结构时,直接用坐标、表格、程序状态或搜索器通常更可靠。 不要为了“多模态”而强行生成中间图片。
08

我的 insight:这篇论文真正说明了什么

它最强的地方不是视觉生成本身,而是提出了“中间状态表示选择”这个问题。

A-
概念框架和受控实验很强;真实通用系统落地仍需要更可靠的中间状态校验。

未来的 CoT 不应只有一种形态。模型应根据任务选择 verbal、visual、symbolic、programmatic 或 simulator world model。

我认为成立的部分

论文的正反证据比较完整:视觉 world model 在复杂空间/物理任务上显著提升;在 Maze/Sokoban 上收益有限;样本效率、fidelity、VLM 对照和 RLVR 对照又从不同角度支持解释。 因此,“视觉生成在某些物理空间任务中作为 world model 有价值”这个结论是可信的。

我认为需要谨慎的部分

第一,实验主要是 task-specific post-training,不是证明现成通用模型零样本就自然会视觉思考。 第二,视觉 CoT 数据构造依赖规则模板、教师模型改写和过滤,成本不低。 第三,视觉中间图仍会 hallucinate;真实世界任务中还有模糊、颜色错误、方位误解和细节损坏。

最有价值的抽象

我会把这篇论文抽象为一句设计原则:推理系统的上限不只由模型大小和 reward 决定,也由中间状态的表示形式决定。 如果任务状态是几何的,就不要强行压成语言;如果任务状态是符号的,也不要强行画图。

论文 Figure 8 RLVR 页面截图

原论文页面截图:Figure 8 展示 RLVR 后不同 CoT 形式的学习曲线。RL 提升各类 CoT,但没有消除 visual world modeling 的领先差距。

09

如果要把它用于自己的研究/系统

这篇论文给出的不是一个单一 recipe,而是一套选择中间 world model 的判断准则。

用 verbal/symbolic

数学、代码、小网格、表格状态、坐标足够表达的任务。

用 visual

折叠、旋转、遮挡、轨迹、视角转换、真实空间方位任务。

用 tool/simulator

当任务有精确规则或安全要求时,程序化仿真通常比像素生成更可靠。

我建议后续研究往三个方向推进:第一,做一个 router,让模型判断当前任务需要哪种 world model; 第二,对视觉中间状态做可验证检查,例如 self-consistency、多视角一致性、结构解析; 第三,把 visual world model 从普通像素图扩展到 sketch、scene graph、3D latent 或可执行 simulator state。

本报告基于 arXiv PDF、官方 GitHub README、官方 VisWorld-Eval 数据说明和本地抽取文本整理。 本地参考文件位于 ../refs/2601.19834.pdf../refs/2601.19834.txt