核心问题是传统 OPD 假设 teacher 和 student 共用 tokenizer。GOLD 用 sequence alignment 和 vocabulary alignment 把不同 tokenizer 的 token/logprob 对齐,使 Qwen teacher 到 Llama/Gemma student 这类跨模型族 OPD 变得可行。
成立的部分:OPD 正在从论文方法变成后训练基础设施。HF 有 trainer,Thinking Machines 给出清晰 recipe, MOPD 在多个 frontier report 中出现,TRL 的工程优化说明 teacher logprob serving 正在被产品化。 对模型压缩、专家能力合并、持续学习后的行为恢复、domain specialization 后的 anti-forgetting,OPD 的确很有吸引力。
还没成立的部分:OPSD 作为“没有外部老师也能获得 dense useful signal”的路线仍然非常早。 它最大的问题不是实现,而是 credit assignment:privileged context 让 teacher 更确定,但这种确定性到底来自任务因果信息, 还是来自答案泄漏、提示风格、轨迹后见之明?如果不能区分,dense signal 只是把错误偏差更快注入模型。
最实际的判断:短期内最可靠的不是纯 OPSD,而是混合路线: SFT 做 cold start,RLVR 在可验证任务上找策略,OPD/MOPD 做专家能力合并和遗忘恢复, OPSD/SDFT/SDPO 做低成本局部增强,但必须配 KL budget、clipping、teacher prompt 搜索或 outcome reward 校准。