Adobe、加大推出音乐模型DITTO-2，可精准控制强度、旋律等

1,432 0 0

文章摘要

Adobe和加州大学的研究人员联合开发了一款名为DITTO-2的音乐模型，该模型基于扩散模型，显著提升了音乐生成的效率和控制能力，包括音乐修复、扩展、强度调整、旋律控制和音乐结构控制。与传统模型相比，DITTO-2将音乐生成效率提高了10至20倍，且训练成本极低，在A100 GPU上仅训练了30多小时。

DITTO-2的性能提升得益于模型蒸馏模块，包括一致性模型（CM）和一致性轨迹模型（CTM）。CM将基础扩散模型蒸馏成单步采样的新神经网络，通过最小化局部一致性损失来训练。CTM则扩展了CM的功能，能在扩散轨迹上任意两点间跳跃，建立了快速前进的“高速公路”，平衡了采样过程中的随机性和整体质量。

推理时间优化（ITO）在DITTO-2生成音乐过程中实时调整模型内部状态，以符合给定的控制条件或目标。ITO由可微分的特征提取函数、匹配损失函数和优化算法组成，通过特征提取、计算损失、梯度指示和模型状态调整来优化音乐生成。

DITTO-2的主要特色功能包括：用户可通过文本或拍手生成精准音乐；对音乐强度进行精准控制，如从低到高的线性斜坡；精准把控音乐结构，如A段4秒，B段2秒；根据用户上传的参考音乐进行旋律控制。