riffusion – 根据文本提示生成音乐在线工具(含教程)

riffusion(根据文本提示生成音乐在线工具)简介

riffusion是一个可以根据文本提示生成音乐在线工具,它可以根据我们给出的文本提示通过AI算法生成相关音乐。这是一个非常有趣和创新的项目,它利用了稳定扩散模型的能力,将图像和声音之间的关系进行编码和解码。让我们来看看它是如何工作的,以及它可以为音乐爱好者和创作者带来什么样的可能性。

什么是稳定扩散模型?

稳定扩散模型是一种生成模型,它可以从随机噪声开始,逐步去除噪声,直到生成与目标分布一致的图像。这种模型可以根据文本或图像等条件进行训练,从而实现从语言到视觉的转换。稳定扩散模型具有高效、灵活和鲁棒的特点,可以生成高质量和多样性的图像。

什么是声谱图?

声谱图是一种将声音的频率内容可视化的方法。它的横轴表示时间,纵轴表示频率,每个像素的颜色表示声音在该频率和时间上的振幅。声谱图可以通过短时傅里叶变换(STFT)从声音中计算出来,它将声音近似为不同振幅和相位的正弦波的组合。STFT是可逆的,所以可以从声谱图重建原始声音。然而,我们的模型生成的声谱图只包含正弦波的振幅而不包含相位,因为相位是混乱的,难以学习。因此,我们使用Griffin-Lim算法来近似相位,当重建声音片段时。我们使用的声谱图中的频率区间使用了Mel刻度,它是一种根据听众感知的音高距离来划分的刻度。

riffusion(根据文本提示生成音乐在线工具)官网及使用教程

  • 官网:https://www.riffusion.com/

1、点击上面的官网链接打开该在线工具;

riffusion - 根据文本提示生成音乐在线工具(含教程)

2、打开该在线工具后如上图所示,这个在线工具非常简单易用,只需要输入一个文本提示,就可以生成一个对应的声谱图,并转换为一个音频片段。你可以听到模型根据你输入的风格、乐器、节奏等信息来创作音乐。你还可以调整去噪强度参数来控制生成结果与文本提示之间的相似度。你也可以使用图像到图像功能来修改已有的声谱图,并添加新的元素或变化。例如,你可以将一个摇滚吉他独奏改成一个民谣小提琴独奏,或者在一个放克萨克斯管独奏中加入一个钢琴伴奏。你还可以使用插值功能来在两个不同的声谱图之间进行平滑过渡,创造出新颖和动态的效果。

相关文章