这条线程的核心判断是:RLVR 已经在数学、工具使用和软件工程任务中证明价值,但迁移到 Computer-Use Agents 时,真正卡住的不是 GSPO、PPO 或其它 RL recipe,而是训练数据的可验证性。
这也是 CUA-Gym 和普通 GUI benchmark 的分水岭。benchmark 主要回答“模型现在能不能做”;CUA-Gym 更接近回答“我们如何大规模制造能用于 RL 的任务世界”。如果这个方向成立,后续 CUA 进展会更多依赖环境工程、reward 工程和数据过滤,而不是只依赖更大的视觉语言模型。
每个样本都需要 setup、state、reward 和执行依赖;它不是一行 instruction-response。
程序化 reward 能让 RLVR 成立,但也会带来 specification gap 和 reward hacking 风险。
更多轨迹和更多环境不是同一个维度;前者强化熟练度,后者训练跨 UI 抽象。