Meta推出生成式AI音频工具AudioCraft

导读 Meta 在人工智能领域一直在快速前进。这家马克·扎克伯格 (Mark Zuckerberg) 旗下的社交媒体巨头推出了自己的开源大型语言模型 LlaMa

Meta 在人工智能领域一直在快速前进。这家马克·扎克伯格 (Mark Zuckerberg) 旗下的社交媒体巨头推出了自己的“开源大型语言模型” LlaMa 2 ,与OpenAI、谷歌和微软等公司展开竞争,现在,它的地位进一步提升。除此之外,Meta 推出了自己的基于文本到语音的生成人工智能模型,称为 AudioCraft。继续阅读以了解有关 AudioCraft 的更多信息

Meta 的 AudioCraft 生成 AI 模型可以帮助您通过使用简单的基于文本的提示生成高质量的音乐和音频。AudioCraft 最大的 USP 是它训练原始音频信号以提供真实且真实的体验。这类似于谷歌的音频人工智能工具MusicLM。

AudioCraft 主要基于三种不同的 AI 模型:MusicGen、AudioGen 和 EnCodec。MusicGen 的目的是使用 Meta 拥有和许可的音乐样本生成“基于文本输入的音乐” 。另一方面,AudioGen通过使用公开的音效来生成“基于文本的输入的音频” 。EnCodec 解码器负责生成逼真的音频输出,正如 Meta 所说,“失真更少。“

这意味着您可以使用单独聚焦的元素轻松生成不同的场景,这些元素将在最终输出中同步显示。例如,如果您使用提示“ 80 年代的爵士音乐,背景中有狗叫”,AudioCraft 将使用其 MusicGen 来传送您的爵士部分,而 AudioGen 将在背景中无缝插入并混合狗的叫声。而这一切都将通过 EnCodec 的高级解码功能呈现给您。

虽然您可能认为 AudioCraft 最好的部分是它的生成式 AI 功能,但事实并非如此。AudioCraft也是开源的。这意味着研究人员可以查看 AudioCraft 模型的源代码,以进一步了解这项技术并创建自己的数据集来帮助完善它。您可以通过GitHub查看 AudioCraft 的源代码。

使用 AudioCraft,您可以轻松生成音乐和声音以及创建压缩和生成。这使得 AudioCraft 具有多种用途,因为用户可以在现有代码库上构建并创建更好的声音生成器和压缩算法。简而言之,您不必从头开始。您的基础将基于数据集的现有上限。

标签:

免责声明:本文由用户上传,如有侵权请联系删除!