Adobe、加大推出音乐模型DITTO-2,可精准控制强度、旋律等

AIGC动态12小时前发布 AIGCOPEN
44 0 0
Adobe、加大推出音乐模型DITTO-2,可精准控制强度、旋律等

 

文章摘要


【关 键 词】 音乐模型效率提升模型蒸馏推理优化音乐控制

Adobe和加州大学的研究人员联合开发了一款名为DITTO-2的音乐模型,该模型基于扩散模型,显著提升了音乐生成的效率和控制能力,包括音乐修复、扩展、强度调整、旋律控制和音乐结构控制。与传统模型相比,DITTO-2将音乐生成效率提高了10至20倍,且训练成本极低,在A100 GPU上仅训练了30多小时。

DITTO-2的性能提升得益于模型蒸馏模块,包括一致性模型(CM)和一致性轨迹模型(CTM)。CM将基础扩散模型蒸馏成单步采样的新神经网络,通过最小化局部一致性损失来训练。CTM则扩展了CM的功能,能在扩散轨迹上任意两点间跳跃,建立了快速前进的“高速公路”,平衡了采样过程中的随机性和整体质量。

推理时间优化(ITO)在DITTO-2生成音乐过程中实时调整模型内部状态,以符合给定的控制条件或目标。ITO由可微分的特征提取函数、匹配损失函数和优化算法组成,通过特征提取、计算损失、梯度指示和模型状态调整来优化音乐生成。

DITTO-2的主要特色功能包括:用户可通过文本或拍手生成精准音乐;对音乐强度进行精准控制,如从低到高的线性斜坡;精准把控音乐结构,如A段4秒,B段2秒;根据用户上传的参考音乐进行旋律控制。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1241字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...