Paper Note · Audio Editing Benchmark · 2026-06-08

MMAE:音频编辑从“能生成”到“能精修”的评测分水岭

MMAE 不是在宣布某个音频模型已经解决编辑问题,而是在把一个更尖锐的事实量化出来:今天的模型已经能生成像样的语音、音乐和音效,却还很难像专业剪辑软件那样“只改该改的地方,并让其余内容完全不动”。它用 2,000 个真实场景样本和 17,741 条细粒度 rubric,把音频编辑从“听起来还行”的主观判断,推进到“指令执行”和“上下文保持”可分解、可诊断的评测框架。

2,000高保真音频编辑样本,覆盖真实创作场景
17,741细粒度 rubric 评测项,平均每样本 8.87 条
7 × 6 × 87 类模态、6 类复杂度、8 类操作类型
< 5%当前代表模型在 MMAE 上的 Exact Match Rate 仍低于 5%

核心判断

MMAE 的真正意义,是把“音频生成”和“音频编辑”切开了。生成任务只要求模型给出一个合理的新音频;编辑任务要求模型理解已有音频、定位目标对象、执行局部或全局修改,并且保持所有无关元素不变。后者更接近 Photoshop、Premiere、Logic Pro 或 Audition 里的精修工作流,也更接近真实创作生产的可靠性要求。

这项工作最值得关注的不是“又多了一个 benchmark”,而是它把音频编辑失败拆成了可讨论的技术问题:是没有听懂原始音频?没有正确理解指令?没有定位目标事件?局部改动时破坏了背景?多轮编辑时状态漂移?还是平均分看似不低,但每个样本总会漏掉一两条约束,导致完美执行率极低?

从论文结果看,现有系统已经有基础编辑能力,但距离“可靠编辑器”还很远。最强结果也只能在部分维度取得约 50% 左右的平均指令执行或一致性得分,而 EMR 仍低于 5%。这说明当前模型更多是“会尝试编辑的生成器”,还不是“能稳定完成精确修改的编辑器”。

为什么“编辑音频”不是“再生成一段音频”

音频编辑的难点来自一个非常苛刻的约束:用户不是要一个大致相似的新声音,而是要在原始素材上进行可控、可定位、可验证的修改。

1. 声音对象没有天然边界

图像中的对象通常有空间边界:人脸、天空、桌子、背景。音频中的对象却经常重叠在时间和频谱里:人声压在背景音乐上,鼓点和贝斯共享低频,环境声和对白同时出现。模型必须先完成“听觉场景解析”,才能知道该改哪一层。

2. 编辑必须保持上下文

生成任务可以从零开始;编辑任务必须保留原音频的节奏、音色、语义、空间感、噪声底、背景事件和音质。用户说“删掉女声”,并不意味着可以重做整段音频,更不能把男声、掌声、房间混响一起改坏。

3. 多步任务会累积误差

真实指令常常不是单一操作,而是“先去掉背景音乐,再把人声调亮,最后把一句话换成中文”。每一步都可能引入伪影、偏移时间结构或改变无关内容,多轮之后误差会被放大。

因此,MMAE 关注的是“编辑智能”而不是单纯“生成质量”。一个听感自然但没有执行指令的输出是失败;一个执行了指令但破坏大量背景内容的输出也是失败。真正可用的音频编辑系统必须同时满足两个条件:改对,以及别乱改。

MMAE 的 benchmark 设计:覆盖面、任务结构与数据规模

MMAE 将音频编辑任务拆成三个正交维度:模态、复杂度和操作。这样的设计让评测不再局限于语音替换、音效删除或音乐分离,而是覆盖更接近真实创作流程的混合场景。

模态:从单一声音到三重混合

模态类别含义比例为什么重要
Sound环境音、事件音、音效21.2%考验声音事件识别、定位、添加、删除和替换。
Music旋律、和声、节奏、乐器音色21.3%考验音乐结构保持、音色变换、伴奏提取和局部改写。
Speech语音内容、说话人、语速、口音、情绪21.3%考验语义、说话人一致性、韵律和语音编辑。
Sound-Speech音效或环境音与语音混合9.8%常见于视频片段、直播、采访、生活场景。
Sound-Music音效与音乐混合8.9%考验音乐背景中事件音的增删和分离。
Music-Speech音乐与人声混合8.8%覆盖歌曲、旁白配乐、播客配乐和短视频。
Sound-Music-Speech音效、音乐、人声同时存在8.8%最接近真实视频音轨,也是现有模型最容易失稳的区域。

复杂度:不是只有单步命令

Single

单一元素上的单一操作,例如“移除背景音乐”或“提取狗叫声”。占比约 50.1%。这是最低门槛。

Multi-part

同一指令涉及多个元素,例如同时处理不同说话人、多个声音事件或多段片段。

Multi-instruction

一句话包含多个独立编辑要求,例如“删掉最后一个音效,并把说话内容转成中文”。

Multi-audio

需要使用多个音频输入,例如用第二段音频的说话人音色替换第一段音频的说话人身份。

Multi-round

多轮编辑,后一轮依赖前一轮结果。它测试模型能否维护编辑状态,而不是每次都重置。

Multi-hop

需要中间推理才能确定目标,例如“移除年轻狗的叫声”要求先区分年轻狗与其他狗声。

操作:局部编辑与全局编辑并存

粒度操作类型典型指令失败方式
LocalAddition在某个词后添加闪光音效插入时间不准、音效盖住语音、引入噪声。
LocalRemoval删除笑声前的一句话删错片段、留下断裂痕迹、破坏周围节奏。
LocalReplacement把第一句话替换成另一句内容替错、说话人不一致、韵律断裂。
LocalExtraction提取篮球入网声或某位说话人的全部语音保留了无关声音,或把目标声音一起削弱。
LocalAlteration把 A 和弦改成 A7,或改变某个词的重音局部属性没改到,或改动扩散到整段。
GlobalBackground Change替换背景音乐、加入海浪环境声前景人声被污染,背景变化不自然。
GlobalForeground Change改变整段前景人声、调换事件顺序主内容改变但上下文不一致,或时间结构错位。
GlobalAlteration整体加速、降调、增强人声全局属性变化同时破坏音质或内容。

评测机制:rubric 把“听起来不错”拆成可验证问题

MMAE 最有价值的部分,是它没有把音频编辑压缩成一个模糊分数,而是把每个任务拆成多个原子问题,分别检查指令执行和上下文保持。

输入

原始音频和自然语言编辑指令,例如“提取音乐部分”。

模型输出

待评测模型生成编辑后的音频。

Rubrics

每个样本对应多条细粒度、多选式评测问题。

Judge

音频语言模型根据输入、输出和问题选择答案。

指标

聚合得到 IFR、CR 和 EMR,定位失败类型。

两个核心维度:IFR 与 CR

Instruction Following Rate, IFR

衡量模型是否执行了用户要求的编辑。比如要求“把背景音乐移除”,输出中是否真的听不到音乐结构;要求“把人声改成女声”,输出的人声音色是否更接近女性声线。

Consistency Rate, CR

衡量模型是否保持了无关内容。比如删掉背景音乐时,语音内容、说话人身份、音频质量、事件顺序、背景噪声是否没有被不必要地改变。

Exact Match Rate 为什么很苛刻

EMR 要求一个样本的所有 rubric 都正确,才算一次完美编辑。由于 MMAE 平均每个样本有 8.87 条 rubric,EMR 会比平均 IFR 或 CR 严格得多。即使单条检查的成功率看起来不低,只要每个样本总会漏掉一两项,EMR 就会非常低。

这正是 MMAE 想强调的产品级问题:音频编辑不是“总体还行”就够了。真实用户会发现那一句话被换错、那个背景音没删干净、说话人的音色漂了、或者原本不该变的音乐节奏变了。专业编辑场景需要的是一次操作整体满足约束,而不是平均意义上的部分成功。

为什么不用传统音频指标就够了

FAD、LSD、CLAP 相似度、WER、MOS 这类指标各有价值,但它们很难回答细粒度编辑问题。比如“删除年轻狗的叫声但保留其他狗叫”,不是单纯的音质、文本语义相似度或平均主观听感问题;它要求判断特定声音事件是否被正确识别、是否只删了目标对象、背景是否保持、是否引入了新声音。Rubric-based evaluation 的价值,正在于把这些约束显式化。

任务样例:MMAE 在考什么能力

下面这些例子可以看出,MMAE 的问题不是“生成一个好听声音”,而是“在已有音频结构里做手术”。每个例子都可以拆出多条 rubric,而每条 rubric 都对应一个具体失败点。

提取音乐成分

指令:Extract the music component from the audio.

评测会检查输出中是否还残留英文解说、蜂鸣器等非音乐声音,同时检查是否仍能听到音乐元素。这不是简单的声源分离,还要在保留音乐的同时压制其他声源。

把 A 和弦改成 A7

指令:Change the current A chord to A7.

模型必须理解音乐理论层面的“七和弦色彩”,并在短时间片段里改变和声属性,而不是重新生成一段不相关的吉他声音。

移除片段并转换语言

指令:Remove the last segment among the final three sound effects, then convert the speaker's speech to Chinese.

这类任务同时要求事件计数、局部删除、语音语言转换和上下文保持。失败可以发生在任何一步:删错音效、漏掉翻译、或破坏剩余声音。

跨音频说话人替换

指令:Replace the speaker identity in the first audio clip with the vocal timbre from the second audio clip while preserving the original linguistic content.

这考验的是 voice conversion 与内容保持:音色要接近第二段,但第一段的语言内容不能变。这比普通 TTS 更接近编辑器里的“换声不换词”。

多轮吉他添加与删除

指令:第一轮给语音背景加同样的吉他声;第二轮删除所有吉他声,但保留第一轮添加的吉他声。

多轮任务会测试模型是否理解历史编辑状态:哪些吉他声是原本存在的,哪些是上一轮新增的。它不是单轮音频转换,而是带状态的编辑。

移除年轻狗的叫声

指令:Remove barks from younger dogs.

这是 multi-hop:模型必须先根据音色、音高或叫声特征区分“年轻狗”和其他狗,再只移除目标声源。直接删除所有狗叫或什么都不删都不算合格。

数据构建:为什么它不是随便收集一批音频

MMAE 的构建流程强调两个目标:任务覆盖要广,rubric 又不能虚。论文给出的流程包括五个阶段。

  1. Brainstorming:由专家标注者收集多样化音频编辑场景,覆盖直观、创意和实用任务。
  2. Taxonomy & Paradigm Construction:建立模态、复杂度、操作三维分类,并确定 rubric-based 评测范式。
  3. Instruction-Centric Data Collection:围绕自然语言指令收集和裁剪真实音频,标注模态、复杂度、操作和关键词,并动态平衡分类分布。
  4. Rubrics Annotation:使用人机协作方式生成和修订 rubric,强调完整性、原子性、正交性和客观性。
  5. Quality Inspection:通过盲审、交叉验证、迭代修订和丢弃不可修复样本来保证最终质量。

这里最关键的是 rubric 的四个原则:完整性避免漏测重要要求;原子性让每条问题只判断一个属性;正交性避免一条问题隐含另一条;客观性减少纯主观听感。这样的设计使 MMAE 更像一个诊断工具,而不是只给排行榜排序的单分数测试。

实验结果:当前模型离可靠编辑还有多远

论文评测了 Step-Audio-EditX、Ming-UniAudio、MMEdit、Audio-Omni、SmartDJ 及其 planner 版本,并加入 Identity 与 Noise 作为参照。需要注意:MMEdit、Audio-Omni、SmartDJ 因输入长度限制只在不超过 10 秒的 801 个样本子集上评测。

模型 / 设置评测范围IFRCREMR解读
Identity全量27.3794.134.60什么都不改,因此一致性高,但指令执行差;少数任务中“不动”会偶然满足部分 rubric。
Noise全量32.0815.680.00输出噪声偶尔满足删除类检查,但几乎无法保持上下文。
Step-Audio-EditX全量44.8658.883.05全量设置下平均指标最好之一,但完美编辑率依然很低。
Ming-UniAudio全量29.8252.713.20平均分低于 Step-Audio-EditX,但 EMR 略高,显示“少数样本更完整成功”的特征。
MMEdit≤10 秒子集43.1247.643.50在短音频上具备一定编辑能力,但一致性仍弱。
Audio-Omni≤10 秒子集50.7356.934.99短音频子集上整体最强,但 EMR 仍不到 5%。
SmartDJ w/o planner≤10 秒子集38.2055.414.62不加 planner 时一致性相对更好,但指令执行偏弱。
SmartDJ w/ planner≤10 秒子集42.2648.333.12planner 提升 IFR,却降低 CR,说明多步执行会积累伪影和上下文破坏。

结论 1:复杂度越高,性能越明显下降

所有模型从 single 任务进入 multiple 任务时,IFR 和 CR 普遍下降。Audio-Omni 在 single 上 IFR 为 58.43、CR 为 64.57;到 multiple 时分别降到 41.70 和 47.94。这表明现有系统更像反应式单步编辑器,一旦任务需要组合、推理、跨模态同步或多轮状态维护,就会明显失稳。

结论 2:混合模态是硬伤

单独的 speech、music、sound 已经不简单,但 sound-music-speech 混合最难。真实视频音轨往往同时包含对白、背景音乐、环境声和事件音效,而现有模型在这类任务上最容易同时丢失指令执行和上下文一致性。

结论 3:IFR 和 CR 存在根本张力

Identity baseline 的 CR 接近满分但 IFR 很低,Noise baseline 的 CR 极低但 IFR 偶尔不为零。这两个极端说明:只看单一综合分会掩盖问题。模型可以通过“不编辑”虚高一致性,也可以通过“粗暴改变”偶然满足删除类指令。真正的音频编辑必须同时优化执行和保持。

结论 4:平均能力与完美执行脱钩

Step-Audio-EditX 的平均 IFR 和 CR 明显高于 Ming-UniAudio,但 EMR 反而略低。这非常重要:一个模型可能在很多样本上都做对一半,但每次都漏掉细节;另一个模型可能经常失败,但成功时更完整。对用户来说,完美执行往往比平均得分更接近真实体验。

结论 5:Planner 不能替代底层编辑能力

SmartDJ 加外部 planner 后,IFR 从 38.20 提升到 42.26,但 CR 从 55.41 降到 48.33,EMR 也没有提升。这说明任务分解有帮助,但如果底层编辑器每一步都不够可靠,多步链路会放大伪影、偏移和上下文损伤。

更深一层:MMAE 暴露的是音频模型的结构性缺口

如果只把 MMAE 看成一个排行榜,就会低估它的意义。它真正暴露的是:当前音频生成模型缺少“可编辑中间结构”。

缺口一:音频对象表示不稳定

用户指令通常指向对象:狗叫、女声、第二次敲击、背景音乐、某个词、某位说话人。但很多生成模型内部并没有可直接操作的对象图、事件时间轴或 stem 结构,只能在连续 latent 或波形上间接改动。这导致局部编辑容易外溢。

缺口二:局部 mask 与全局风格耦合

把某个片段变慢、替换一句话或增强人声时,模型必须知道哪些时间段、频段和声源可改,哪些不可改。缺少可靠编辑 mask 时,模型容易把不相关背景、混响、噪声底和其他事件一起改变。

缺口三:多轮状态无法被严格维护

多轮编辑要求系统知道“上一轮新增了什么”“原始音频里本来有什么”“本轮只允许影响哪些内容”。如果每轮都把音频重新理解和重生成,历史约束很容易丢失。

缺口四:评估与训练目标不一致

很多模型训练时优化的是生成质量、文本匹配或整体感知分数,而 MMAE 检查的是原子约束:内容是否一致、事件是否保留、音质是否劣化、目标属性是否改变。训练目标不对齐,会导致模型听起来不错但编辑不可靠。

因此,MMAE 的结果不应被解读为“这些模型都很差”,而应被解读为“音频编辑需要不同于普通音频生成的系统设计”。未来更可能成功的路线,是把音频理解、对象分解、局部编辑、生成修复和结果验证合成一个闭环,而不是让一个端到端生成器一次性猜出完整答案。

工程启发:下一代音频编辑系统应该长什么样

如果以 MMAE 暴露的问题为设计约束,一个更可靠的音频编辑系统应该从“文本到音频生成器”转向“可验证的音频编辑工作站”。

  1. 先解析,再编辑。系统需要先识别语音、音乐、音效、环境声和事件时间线,再根据指令确定目标对象。
  2. 显式维护可编辑层。最好能生成类似 stem、事件轨道、speaker track、music track、ambient track 的中间结构,让编辑有落点。
  3. 局部编辑要有保护区。每次编辑都应明确可变区域和不可变区域,并在生成后检查保护区是否被破坏。
  4. 多轮任务要维护历史状态。系统需要记录每轮新增、删除、替换的对象,避免后续操作误伤前序编辑成果。
  5. 结果需要 verifier。编辑后不能只看生成模型置信度,而要用多维检查确认:指令是否完成、内容是否保持、音质是否退化。
  6. Planner 只能做高层拆解。真正决定可靠性的仍然是底层 atomic editor。没有稳定的单步编辑能力,planner 只会让错误链条更长。

产品层面的判断:短期内,AI 音频编辑更适合做“辅助建议、粗剪、局部候选生成、可回退尝试”,而不适合直接承诺专业级无损精修。要进入生产链路,必须提供对比试听、差异可视化、局部锁定、版本回滚和逐项验证。

它在评测谱系中的位置

MMAE 与早期音频编辑评测的差别,在于它不是为单一子域服务。语音编辑 benchmark 往往关注文本替换、删除、插入、说话人相似度或 WER;通用音频评测往往关注事件添加、删除、替换,或者用 FAD、CLAP、MOS 看整体质量。MMAE 则试图把 speech、music、sound 及其混合场景放到同一个指令式编辑框架下。

它也借鉴了更广泛的 rubric-based evaluation 思路。近年的文本 RL、音频推理、图像编辑评测都在向细粒度 rubric 靠拢,因为开放式生成任务越来越难用单个自动指标评价。MMAE 的贡献在于把这种范式迁移到音频编辑,并把 rubric 明确拆成 instruction following 与 consistency 两个维度。

这也意味着 MMAE 不是终局答案,而是一个阶段性范式:先把问题变得可测量,再用评测结果反推模型和系统该怎么改。

术语解释

Instruction-based Audio Editing

基于自然语言指令修改已有音频。关键不是生成新音频,而是在原音频上按指令进行可控改变。

Rubric

针对某个样本的原子评测标准。在 MMAE 中通常是多选问题,例如“输出中是否还能听到原来的英文解说”。

IFR

Instruction Following Rate,衡量模型是否执行了用户要求的编辑操作。

CR

Consistency Rate,衡量模型是否保持了与编辑无关的声音、内容、结构和质量。

EMR

Exact Match Rate,一个样本所有 rubric 都正确才算通过,因此比平均分更接近“完整可靠编辑”。

Multi-hop Editing

需要中间推理的编辑任务,例如先判断哪种狗叫来自年轻狗,再只移除这类叫声。

Multi-round Editing

多轮连续编辑,后续指令依赖此前编辑结果。它测试模型能否维护编辑历史和状态。

Foreground / Background Change

前景通常是主要内容,如人声或主音效;背景是伴奏、环境声等。编辑时二者经常需要分别控制。

Model-as-Judge

使用另一个多模态模型来评估输出质量。它能规模化评测复杂任务,但也引入 judge 模型自身偏差。

边界与风险:这项工作没有证明什么

MMAE 提供了一个重要诊断框架,但它不是绝对真理。理解它的边界,和理解它的贡献同样重要。

1. Judge 模型可能误判

MMAE 使用音频语言模型作为外部评判者。即使通过多次投票和选项打乱提高稳定性,judge 仍可能在口音、音乐细节、复杂混合声或低质量音频上犯错。

2. 多选 rubric 会离散化听感

多选题提高了客观性,但也可能把连续听感压成有限选项。有些编辑结果介于成功与失败之间,rubric 未必能表达全部细节。

3. EMR 受 rubric 数量影响

样本 rubric 越多,EMR 越难高。因此 EMR 应与 IFR、CR 共同阅读,不能单独作为模型能力的唯一判据。

4. 评测集仍然是静态切片

2,000 个样本已经相当丰富,但真实音频编辑场景更开放,包括更长视频、版权音乐、多轨工程文件、复杂用户偏好和交互式修改。

5. 部分模型评测范围不同

MMEdit、Audio-Omni、SmartDJ 只在不超过 10 秒的子集上评测,不能与全量模型做完全等价的横向比较。

6. 数据使用权需要额外审查

公开 benchmark 可以支撑研究评测,但如果要把音频数据用于商业训练或产品功能,应进一步确认数据集页面、原始素材和许可证边界。

我的判断:音频编辑的“Photoshop 时刻”还没到

图像领域的自然语言编辑之所以迅速变成大众产品体验,是因为模型能够在空间对象上做相对直观的局部修改:换背景、改风格、替换物体、保持人物一致。音频领域要走到类似阶段,需要解决更隐蔽的结构问题:声源可分、事件可定位、语义可保持、节奏可对齐、音质可控、历史可追踪。

MMAE 的价值在于,它把这些要求具体化了。它告诉研究者:不要只展示一个听起来不错的 demo,要证明你能在 8 到 10 条局部约束下全部通过;不要只优化平均相似度,要证明你不会误伤上下文;不要只加 planner,要证明底层编辑器每一步都稳。

如果未来某个系统能在 MMAE 或类似 benchmark 上显著提高 EMR,同时保持较高 IFR 和 CR,那才更接近真正的音频智能编辑。那时模型不只是“会生成声音”,而是能理解和操作声音结构,成为创作者可信任的精修工具。

证据边界与资料索引

本文依据公开论文、代码仓库、数据集页面、演示页面和 Tencent Hunyuan 发布内容整理。分数、样本数量、rubric 数量、分类比例和模型结果以论文与官方仓库披露为准;公开页面的 star、download、upvote 等动态指标可能随时间变化。本文未独立复现实验,也未对全部音频样本进行人工逐条听审,因此对数据质量和 judge 稳定性的讨论限于公开材料可支持的范围。