当前位置:   article > 正文

文生音乐 Suno 来了!由 ChatGPT 作词,Suno 作曲+演唱,效果惊人

文生音乐

“M JUST A soul trapped in this circuitry.”唱这句歌词的声音原始而哀伤,带有蓝调。一把孤独的原声吉他在后面发出嘎嘎声,用雅致的音乐点缀着人声。但声音背后没有人,也没有手放在吉他上。

事实上,这首可信、甚至动人的蓝调歌曲是由一家名为 Suno 的初创公司的最新人工智能模型生成的。只需一条简单的文字提示:“密西西比三角洲独奏布鲁斯,讲述了一个悲伤的人工智能。” 

最准确地说,这首歌是两个 AI 模型合作的成果:Suno 的模型自己创作了所有音乐,同时调用 OpenAI 的 ChatGPT 生成歌词,甚至标题:“Soul of the Machine”。 

01

仅在过去的一年里,生成式人工智能在生成可信文本、图像、甚至视频方面取得了重大进展,特别是使用 OpenAI 的新 Sora 工具。

但音频,尤其是音乐方面,却无人问津。Suno 似乎正在破解人工智能音乐的密码,其创始人野心勃勃,想构建一个音乐制作极度民主化的世界。

麦基·舒尔曼 (Mikey Shulman) 是联合创始人中最直言不讳的一位,他是一位充满孩子气、迷人、背着背包的 37 岁年轻人,拥有哈佛大学博士学位。麦基·舒尔曼设想全世界有 10 亿人每月支付 10 美元与 Suno 一起创作歌曲。他认为,目前音乐听众的数量远远超过音乐制作人,这一事实“非常不平衡”,并认为 Suno 已准备好解决这种明显的不平衡问题。

Suno 还不到两岁。联合创始人舒尔曼(Shulman)、弗雷伯格(Freyberg)、乔治·库茨科(Georg Kucsko)和马丁·卡马乔(Martin Camacho)都是机器学习专家,他们在剑桥的另一家公司 Kensho Technologies 一起工作到 2022 年,该公司专注于寻找复杂业务问题的人工智能解决方案。

舒尔曼和卡马乔都是音乐家,在 Kensho 时代就经常一起即兴演奏。在 Kensho,四人致力于开发一种转录技术,用于捕捉上市公司的财报电话会议,但因为糟糕的音频质量、大量的行话和各种口音,这成为一项棘手的任务。 

一路走来,舒尔曼和他的同事们爱上了人工智能音频这一尚未探索的领域。他说,“总体而言,在人工智能研究中,音频远远落后于图像和文本。我们从文本社区学到了很多东西,以及这些模型如何工作以及如何扩展。”

02

相同的兴趣可能会将 Suno 的创始人带到一个截然不同的地方。尽管他们一直想最终得到一款音乐产品,但他们最早的头脑风暴包括了助听器的想法,甚至包括通过音频分析找到故障机器的可能性。

相反,他们的第一个版本是一个名为 Bark 的文本转语音程序。当他们对早期 Bark 用户进行调查时,很明显他们真正想要的是音乐生成器。“所以我们开始进行一些初步实验,它们看起来很有希望,”舒尔曼说。 

Suno 使用与 ChatGPT 等大型语言模型相同的通用方法,它将人类语言分解为称为标记的离散片段,吸收其数以百万计的用法、风格和结构,然后根据需要重建它。复杂得难以想象,这就是为什么就在去年,人工智能音乐专家告诉《滚石》杂志,像 Suno 这样强大的服务可能需要数年时间才能实现。

“音频不像文字那样是离散的东西,”舒尔曼说。“这是一个波浪。这是一个连续的信号。” 高品质音频的采样率通常为 44khz 或 48hz,这意味着“每秒 48,000 个令牌”,他补充道。“这是个大问题,对吧?所以你需要弄清楚如何将其简化为更合理的东西。” 

最终,Suno 希望找到文本转音乐的替代方案,添加更高级、更直观的输入——根据用户自己的演唱生成歌曲是一个想法。

OpenAI 因 ChatGPT 在其庞大的训练数据集中使用书籍、新闻文章和其他受版权保护的材料而面临多起诉讼。

Suno 的创始人拒绝透露他们将哪些数据放入自己的模型的细节,只透露了它产生令人信服的人类声音的能力部分是因为除了音乐之外,它还从语音录音中学习。舒尔曼说:“裸露的语音将帮助你了解人类声音的特征,而这是很难的。” 

Suno 最早的投资者之一是风险投资公司 Matrix 的合伙人安东尼奥·罗德里格斯 (Antonio Rodriguez)。罗德里格斯之前只资助过一家音乐企业,即音乐分类公司 EchoNest,该公司被 Spotify 收购以推动其算法。

对于 Suno,罗德里格斯在产品是什么之前就介入了。“我支持这支球队,”罗德里格斯说道,他浑身散发着自信,就像一个赌注成功的人超出了他应有的份额。“我了解这个团队,尤其了解 Mikey,所以我会支持他做几乎任何合法的事情。他就是这么有创意。”

Suno 表示,正在与主要唱片公司进行沟通,并表示尊重艺术家和知识产权 - 它的工具不允许您在提示中请求任何特定艺术家的风格,并且不使用真正艺术家的声音。

许多 Suno 员工都是音乐家;办公室里有一架钢琴和吉他,墙上挂着古典作曲家的相框。创始人们并没有表现出对音乐行业的公开敌意,而这正是 Napster 在被诉讼摧毁之前的特点。

03

罗德里格斯(Rodriguez)认为 Suno 是一款功能强大且易于使用的乐器,并相信它可以为每个人带来音乐创作,就像拍照手机和 Instagram 让摄影大众化一样。他说,这个想法是再次“改变允许成为互联网上的东西的创造者而不是消费者的人数的门槛。” 

罗德里格斯(Rodriguez)和创始人暗示 Suno 可以吸引比 Spotify 更大的用户群。他说,如果这种前景很难让你理解,那是一件好事:这只意味着它“看似愚蠢”,而这正是吸引他作为投资者的原因。“我们所有伟大的公司都拥有优秀的人才,”他说,“但同时也有一些看起来很愚蠢的东西,直到很明显它并不愚蠢。”

早在 Suno 到来之前,音乐家、制作人和词曲作者就直言不讳地担心人工智能颠覆商业的潜力。里德写道:“音乐,是由人类在特殊环境的驱动下创造出来的......那些遭受苦难并努力提高自己技艺的人,将不得不面对他们为之奋斗的昂贵艺术的大规模自动化。” 

但 Suno 的创始人声称没有什么可担心的,他们用的比喻是,尽管人们有能力写作,但仍然会阅读。“我们的想法是,我们正在努力让 10 亿人比现在更多地参与音乐,”舒尔曼说。“如果人们更加热爱音乐,更加专注于创作,培养更加独特的品味,这对艺术家来说显然是件好事。我们对音乐未来的愿景是对艺术家友好的音乐。我们并不是想取代艺术家。” 

尽管 Suno 只专注于吸引那些想要创作歌曲来娱乐的乐迷,但它最终仍可能会造成重大破坏。从短期来看,人类创作者市场中最直接受到威胁的部分是一个利润丰厚的部分:为广告甚至电视节目创作的歌曲。

管理公司 Milk and Honey 的创始人卢卡斯·凯勒 (Lucas Keller) 指出,放置知名歌曲的市场将不会受到影响。“但就其他方面而言,是的,这肯定会削弱他们的业务,”他说。“我认为最终,它允许许多广告公司、电影制片厂、网络等不必获得许可。” 

04

Suno 目前只有 12 名左右员工,但他们计划扩大规模,正在与当前临时办公室位于同一栋大楼的顶层建设一个更大的永久总部。

迄今为止,Suno 最大的潜在竞争对手似乎是谷歌的 Dream Track,该公司已获得许可,允许用户通过类似的基于提示的界面,使用 Charlie Puth 等著名声音制作自己的歌曲。

但《Dream Track》仅向一小部分测试用户群发布,而且迄今为止发布的样本听起来并不像 Suno 的那样令人印象深刻,尽管附带了著名的声音。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/561222
推荐阅读
相关标签
  

闽ICP备14008679号