Meta 开源 MusicGen 模型：用 AI 将文本和旋律结合创造全新音乐作品

站长网2023-06-12 22:57:152阅

Meta 的 MusicGen 可以根据文本提示生成短小的新音乐片段，并可选择与现有旋律对齐。

与今天的大多数语言模型一样，MusicGen 基于 Transformer 模型。就像语言模型预测句子中的下一个字符一样，MusicGen 预测音乐作品中的下一个部分。

研究人员使用 Meta 的 EnCodec 音频标记器将音频数据分解为较小的组件。作为一个单阶段模型，它可以并行处理标记，因此 MusicGen 速度快且高效。

该团队使用了 20,000 小时的授权音乐进行训练。特别的是，他们依赖于一组内部的 10,000 首高质量音乐曲目的数据集，以及来自 Shutterstock 和 Pond5 的音乐数据。

MusicGen 可以处理文本和音乐提示

除了架构的效率和生成速度外，MusicGen 在能够处理文本和音乐提示方面也是独特的。文本设置了基本风格，然后与音频文件中的旋律匹配。

例如，如果将文本提示「一个轻快愉快的 EDM 音轨，带有交响鼓、轻柔垫音和强烈情感，速度：130 BPM」与巴赫著名作品《降 D 小调的触技曲与赋格曲（BWV 565）》的旋律结合起来，将生成以下音乐作品：

你无法精确控制与旋律的结合，例如在不同风格中听到旋律。它只作为生成的大致指南，并不完全反映在输出中。

MusicGen 领先于Google 的 MusicLM

研究的作者对其模型的三个不同大小进行了测试：3 亿（300M）、15 亿（1.5B）和 33 亿（3.3B）个参数。他们发现更大的模型生成的音频质量更高，但人们评价最好的是 15 亿参数模型。另一方面，33 亿参数模型更擅长准确匹配文本输入和音频输出。

与其他音乐模型（如 Riffusion、Mousai、MusicLM 和 Noise2Music）相比，MusicGen 在客观和主观指标上表现更好，这些指标测试音乐与歌词的匹配程度以及作曲的可信度。总体而言，这些模型略高于Google 的 MusicLM 水平。

Meta 已在 Github 上发布了代码和模型的开源版本，并允许商业使用。在 Huggingface 上提供了演示。

Github 代码和模型：https://github.com/facebookresearch/audiocraft

Huggingface演示：https://huggingface.co/spaces/facebook/MusicGen

0002

评论列表

共(0)条

Meta 开源 MusicGen 模型：用 AI 将文本和旋律结合 创造全新音乐作品