AudioCraft(MusicGen)一键启动整合包 Ai配音神器 生成视频BGM背景音效和音乐免费无版权

AudioCraft(MusicGen)一键启动整合包 Ai配音神器 生成视频BGM背景音效和音乐免费无版权-CG中心网
AudioCraft(MusicGen)一键启动整合包 Ai配音神器 生成视频BGM背景音效和音乐免费无版权
此内容为付费资源,请付费后查看
会员专属资源
您暂无购买权限,请先开通会员
开通会员
付费资源
几句话就能写歌,还能模拟各种音效,Meta发布开源AI工具
Meta发布了一款开源AI工具AudioCraft,该工具可以帮助用户根据文本提示创作音乐和音频。
Meta称,这款开源AI工具综合使用了AudioGen、EnCodec和MusicGen等大模型,不仅可以生成各种模拟音频效果,还能减少音损。用户使用该AI工具,可在输入文本内容后,生成高质量、逼真的音频和音乐。
目前来看,由于生成任何类型高保真度的音频都需要对不同尺度的复杂信号和模型进行建模,音乐在某种程度被看作是最具挑战性的音频类型。Meta通过自我监督音频表示学习的方式(self-supervised audio representation learning)以及许多分层或级联模型(hierarchical or cascaded models)来生成音乐,这样将原始音频输入到系统中,就可捕获信号中的远程结构(long-range structures),同时生成音频。
与此前的AI工具相比,AudioCraft背后的模型经过授权音乐库的训练,避免了版权风险;其次,由于接受公共音效训练,它可以生成包括狗叫、脚步声在内的各种模拟音效;最后它简化了音频生成模型的整体设计,同时开源的形式也有助于其他人开发自己音乐模型。
经2万小时授权音乐训练,压缩文件大小比MP3格式小10倍
从目前Meta的介绍来看,Audiocraft背后使用三种模型中,MusicGen接受过Meta拥有的和特别授权的音乐库进行训练,可以从文本提示生成音乐。
今年6 月初,这个名为MusicGen的开源AI模型由Meta推出。据悉,这是一种深度学习语言模型。它接受了2万小时的音乐训练,其中包括大约40万个录音、文本描述及元数据等。

 

Snipaste_2024-10-25_13-50-29

Snipaste_2024-10-25_13-47-36

Snipaste_2024-10-25_13-50-09

近来,Meta 发布并开源了多个 AI 模型,例如 Llama 系列模型、分割一切的 SAM 模型。这些模型推动了开源社区的研究进展。现在,Meta 又开源了一个能够生成各种音频的 PyTorch 库 ——AudioCraft,并公开了其技术细节。

AudioCraft 能够基于用户输入的文本生成高质量、高保真的音频。我们先来听一下生成效果。

AudioCraft 可以生成一些现实场景中的声音

范例文本 01:生成有旋律的音乐

Pop dance track with catchy melodies, tropical percussions, and upbeat rhythms, perfect for the beach

提示词—-流行舞曲,具有朗朗上口的旋律、热带打击乐和欢快的节奏,非常适合海滩

范例文本 02:选择具体的乐器,生成特定的音乐,

提示词—-Earthy tones, environmentally conscious, ukulele-infused, harmonic, breezy, easygoing, organic instrumentation, gentle grooves

朴实的曲调,环保理念,尤克里里,和声,轻松,随和,有机乐器,柔和的节奏

范例文本 03:风呼啸而过

提示词—-Whistling with wind blowing

AudioCraft 简介

相比于文本、图像,音频生成是更具挑战性的,因为生成高保真音频需要对复杂的信号和模式进行建模。

为了高质量地生成各类音频,AudioCraft 包含三个模型:MusicGen、AudioGen 和 EnCodec。其中,MusicGen 使用 Meta 具有版权的音乐数据进行训练,基于用户输入的文本生成音乐;AudioGen 使用公共音效数据进行训练,基于用户输入的文本生成音频;EnCodec 用于压缩音频并以高保真度重建原始信号,保证生成的音乐是高质量的。

 

从原始音频信号生成音频需要对极长的序列进行建模。例如,以 44.1 kHz 采样的几分钟音乐曲目由数百万个时间步(timestep)组成。相比之下,Llama 和 Llama 2 等基于文本的生成模型是将文本处理成子词,每个样本仅需要几千个时间步。

MusicGen 是专门为音乐生成量身定制的音频生成模型。音乐曲目比环境声音更复杂,在创建新的音乐作品时,在长程(long-term)结构上生成连贯的样本非常重要。MusicGen 在大约 400000 个录音以及文本描述和元数据上进行训练,总计 20000 小时的音乐。

AudioGen 模型可以生成环境声音及声效,例如狗叫声、汽车喇叭声或脚步声。

 

AudioGen 模型架构

EnCodec 神经音频编解码器从原始信号中学习离散音频 token,这相当于给音乐样本提供了新的固定「词汇」;然后研究团队又在这些离散的音频 token 上训练自回归语言模型,以在使用 EnCodec 的解码器将 token 转换回音频空间时生成新的 token、声音和音乐。

总的来说,AudioCraft 简化了音频生成模型的整体设计。MusicGen 和 AudioGen 均由单个自回归语言模型组成,并在压缩的离散音乐表征流(即 token)上运行。AudioCraft让用户可以使用不同类型的条件模型来控制生成,例如使用预训练的文本编码器完成文本到音频生成

 

GitHub上下载安装包是免费下载,但要部署环境很麻烦,总是报错无法使用,为了方便大家学习CG中心网收集整理了网上大佬的整合包,并把启动器做成了exe文件,可以发送快捷方式到桌面然后一键启动。

附:AudioCraft(MusicGen)在GitHub上的下载地址—–https://github.com/facebookresearch/audiocraft
能力强的同学也可以自行下载GitHub上的源文件后进行本地部署。
© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容