一组生成式人工智能研究人员推出了一种突破性的声音操纵工具,将文本和音频输入混合在一起,以改变我们与音频的交互方式。该AI模型名为Fugatto,是Foundation Generative Audio Transformer Opus 1的缩写,它使用户能够通过简单的文本提示生成或修改音乐、声音和声音。虽然用于音乐创作或语音修改的AI工具并不新鲜,但Fugatto因其多功能性和精确性而脱颖而出。
它可以创作音乐片段,改变声音的情绪或口音,在歌曲中添加或删除乐器,甚至产生以前从未听过的声音。音频创意的新时代
“这太疯狂了,”英伟达Inception初创公司One Take Audio的联合创始人、多白金制作人、词曲作者Ido Zmishlany说。“声音激励着我创作音乐。有了Fugatto,我可以在工作室里即时发明全新的声音。这太不可思议了。”
NVIDIA应用音频研究经理兼管弦乐作曲家Rafael Valle表示,Fugatto反映了该团队模仿人类理解和创造声音的雄心。“我们想要一个可以像人类一样工作的模型——多功能、直观和强大,”Valle解释道。前所未有的功能
Fugatto引入了涌现属性,使其能够将以前独立的功能组合成复杂的输出。例如,它可以根据自由形式的指令合成音频,例如创建会喵喵叫的萨克斯管或会吠叫的小号。
该模型甚至支持插值,使用户能够控制声音随时间的变化,例如雷暴的增强和黎明时的鸟鸣。这些功能由ComposableART提供支持,这是一种允许模型将单独的指令组合成有凝聚力的输出的技术。例如,Fugatto可以生成带有法国口音和悲伤语调的声音,同时让用户微调情绪或口音强度。“在设计这个时,我希望用户以主观、艺术的方式探索属性,”参与该项目的人工智能研究员Rohan Badlani说。
“即使对于像我这样的计算机科学家来说,这些结果也常常感觉像是艺术。”转型产业
Fugatto的潜在应用涵盖多个行业:音乐制作:制作人可以快速原型化歌曲创意,尝试不同的风格,并以最小的努力提高音频质量。广告:营销人员可以针对不同地区调整带有本地化口音或情感基调的广告活动。教育:语言学习工具可以采用熟悉的声音,如家庭成员的声音,进行个性化课程。游戏:
开发人员可以修改音频资产以匹配游戏中的动作,或根据需要创建新的音效。Zmishlany认为Fugatto可以重新定义音乐创作。他说:“电吉他给了我们摇滚乐。采样器诞生了嘻哈乐。人工智能是下一个篇章。这是一种新的乐器——一种改变游戏规则的乐器。”。Fugatto背后的科学
Fugatto是一个基于NVIDIA在语音建模、音频语音编码和音频理解方面的专业知识构建的生成变换器模型。
在配备32个NVIDIA H100 Tensor Core GPU的NVIDIA DGX系统上进行训练,完整版本包含25亿个参数。开发Fugatto需要整理数百万个不同的音频样本,混合数据集,并分析数据中的关系。这支横跨印度、巴西、中国、约旦和韩国的国际团队确保了Fugatto的多语言和多口音能力。突破时刻
这个项目花了一年多的时间才完成,有几个令人难忘的里程碑。
Valle回忆起该模型第一次成功地从文本提示中生成音乐。“这让我们大吃一惊,”他说。另一个亮点是在一次演示中,Fugatto创作了电子音乐,音乐中穿插着有节奏的狗叫声。“当球队爆发出笑声时,我知道我们有一些特别的东西,”瓦莱笑着说。写下一章
Fugatto不仅仅是一项创新,它是对音频创意未来的一瞥。通过让艺术家、创作者和行业重新构想声音,它有望在音乐、媒体等领域留下持久的印记。
正如Zmishlany所言:“我们正在书写音乐史的下一章,这令人振奋。”//职员撰稿人