AI音乐大模型背后的技术突破、版权诉讼和资本蛋糕

虎嗅网 • 1年前扫码分享

音乐，对你来说，是什么？

音乐对于我们中的许多人来说，是生活中不可或缺的一部分。它不仅仅是娱乐，更是一种情感的表达和交流方式。音乐是一种语言，可以用来表达感受，描绘作曲家想要传达的某种情绪或感觉，同时每个人也会对原始乐谱进行自己的解读。

但在2024年，我听到了一个截然不同的答案。

Roger Chen （Meta音乐技术负责人）： 音乐的本质是我们称为 organized sound （有组织的声音）。它在微小的单元上看，它就是空气的震动，不同的频率、不同的幅度，它再这么排列组合，就组合出了一些美妙的音乐。

如果以“微小单元空气震动的排列组合”来定义音乐，这简直太符合这一轮生成式人工智能的能力覆盖范围了。

果不其然，在2024年，以Suno为首的众多AI音乐模型和产品爆火，这些用简单提示词、几十秒就能生成的AI作词、作曲、演唱曲目，效果好到让人大为震撼。

音乐AI模型是怎么发展起来的？中间的技术细节是如何实现的？AI音乐目前能否替代人类歌手或音乐家呢？以及AI浪潮将会如何影响整个音乐产业市场？

硅谷101采访了AI音乐模型从业者、打击乐教授、乐队和各种乐器的演奏者，和大家一起来共同探索AI音乐的颠覆与技术边界。

一、Suno AI的风靡与争议

2024年5月末，总部位于波士顿的AI音乐公司Suno在社交媒体X上宣布成功完成了1.25亿美元的 B轮融资，投后估值达到5亿美元，用户数量快速增长至超过1000万。微软等科技巨头更是将 Suno的AI音乐创作功能直接整合到了旗下的Copilot产品中。

像这轮AI浪潮中的众多明星项目一样，Suno的创立时间很短，2022年才成立，在B轮融资之前公司仅有12人。

在2024年3月，Suno突然爆火。Text to music，文生音乐的能力巨大提升，让大家惊呼：AI音乐的ChatGPT时刻，就这么到来了。

乍一听，真的觉得AI作曲已经非常好听了，不管是曲调，还是歌词，还是歌手唱腔，作为一个音乐小白和唱歌经常走调的人，我觉得这些歌已经非常好听，远超现在的一些十八线歌手的网络口水歌。而这会不会掀起音乐市场和唱片公司这些资本方的腥风血雨呢？

2024年6月底，根据美国唱片业协会（Recording Industry Association of America， RIAA）的官方通告，包括索尼、环球和华纳在内的三大唱片公司及旗下厂牌集体向Suno和另外一家AI音乐应用Udio发起诉讼。起诉状中提供了旋律雷同的例子和细节对比分析，而原告要求每一首侵权作品需赔偿15万美元。

这个官司打出结果可能还需要一段时间，不过我其实对这起诉讼也并不感到意外。首先，AI音乐的出现势必会动到传统音乐资本的市场蛋糕，肯定会引发抵触，这个市场蛋糕是具体哪一块我们稍后会分析。

其次，在Suno刚火起来的时候，有AI模型的业内人士就对我们表达过怀疑，他们认为，Suno的效果这么好，可能是因为用了有版权的音乐做训练。

我们在这里不作任何的结论，只是单纯的传达出业内人士的困惑：他们认为，AI音乐这个产品很多科技公司，如果说谷歌和Meta都在做，但效果都不如Suno AI，难点都不在模型本身，难点是在于可以用来训练的参数，也就是没有版权问题的歌曲。

比如说：一线歌手的流行音乐不能用，有版权；影视作品音乐不能用，有版权；就连已经算作public domain（公有领域）的交响乐，只有曲谱是没有版权问题的，而被各大乐团演奏出来的版本依然是有版权限制的，也是不能拿去做AI训练的。

也就是说，可能人类目前最顶尖的音乐作品，很大一部分都是无法摆脱版权问题而拿去给AI训练的。那么谷歌和Meta怎么解决这个问题呢？

作为科技巨头，他们花了天价，去雇一群音乐创作人，专门给他们自己创作不同类型的音乐，然后用这些没有版权顾虑的音乐去训练自己的AI音乐模型。这个成本，显然是Suno等小创业公司无法去负担的。

这场官司会如何发展，Suno到底有没有用有版权的音乐训练模型，我们也会继续关注事态的发展。

不过，我们来继续聊点好玩的，这期节目我们也邀请到了Meta的Music Tech Lead （AI音乐技术主管） Roger Chen，来跟我们一起详细聊一下AI音乐模型的细节。

二、AI音乐模型拆解

1. 第一层压缩及码本

Roger就告诉我们，用机器学习做音乐这件事情已经做了好几年了。在业界大家已经意识到，如果“音乐的定义”可以被理解成，声音在空气中的震动产生不同的频率和幅度，那我们可以把声音标记成电信号。

我们知道，在如今基于Transformer架构的大语言模型中，token代表模型可以理解和生成的最小意义单位，是模型的基础单位。

而在AI音乐中，各种音乐维度都可以表达成token序列，包括：节奏、速度、和声、调性、段落、旋律、歌词还有唱腔音色等等，一切皆可token化。

但是，这里的技术难题是：音频中的信息太丰富了。举个例子：音乐被录制下来之后，如果用离散的数字来表示，每秒钟通常是有44100个采样。如果大家仔细看之前买的CD，上面会标注44.1kHz的字样。

如果1秒有44100个采样，那么3分钟的一首歌，就有3×60×44100=7938000这么多个采样。如果把每个采样都对应一个token，那么对于模型训练来说是一个天文数字。

如何将音频token化，这成为了AI在音乐模型上发展的难题。直到几年前，Meta和谷歌在音频采样压缩技术上出现了技术突破，能实现将音频采样转化为更少量的token，其中的压缩幅度达到几十几百倍，因此，AI音乐的发展才开始提速。

Roger Chen：

Google那边叫做SoundStream，Meta这边叫做EnCodec，然后最近还有更好一点叫做Descripts。总之都是做类似的事情，就是他们都能够把音频转换成token， token又能够还原成音频，现在就是做到基本人耳听不出来有任何的失真了。

它可以把音频压缩很多很多倍。另外一项技术就是怎么样把各种各样被称为modelity （模态），比如说像这个文本，像这个音乐里面各种的维度，比如说像这个节拍是四四拍还是四三拍？它的速度 BPM 是120 还是90？或者说它的和弦进行这个 c major a minor 这样的进行调性。还有比如说它的这情感、流派、用的乐器，歌词音高，它的长度，还有歌手的风格都能够转成token。

Roger Chen： 刚才说的这些各种各样的模态，可能有十几种、二十几种，你都可以把它转成token 之后，然后用一个统一的大语言模型框架，让大语言模型学会某一些模态跟音频的 token的对应关系，那么这个框架就非常强大。

Google的SoundStream，以及Meta的EnCodec技术，能让3分钟音乐的7938000采样，被大幅度压缩到以几毫秒甚至几十毫秒的长度来计算的token序列。每一个token，都可以用一个数字对应表示。

Roger Chen： 20毫秒对于人来讲根本听不出来什么东西，就是Pia，Pia，Pia，可能全都是那样的声音，但是你把组合起来就是一个完整的音乐。每20毫秒我们都用一个数字来表示，像这20毫秒可能它是一个稍微安静一点的这种钢琴的声音，它的这个表示的数字就和一个比较吵的电吉拉声音会不一样，但是如果很相似的钢琴声音，它可能就用同一个数字表示。

用数字表现音频，这被称为codebook （码本）。在实际操作中，人们发现，当把音乐转换成一串数字的时候，它会有一定的程度的失真。也就是说，码本的大小会决定音频的质量。

Roger Chen： 假如说我们一共只用1000个数字来表示天底下所有的音频的话，那么它失真会非常严重，但是我们用100万个，那可能失真就不那么严重了。

然而，虽然从事AI音乐的研究员们意识到大语言模型理解和生成token的方式是一种新的生成音乐的方式，但难点是，音乐的序列很长。比如每个token代表5毫秒，3分钟的歌曲就有36000个token。

即使谷歌和Meta的压缩技术已经将三分钟音频的7938000个采样的信息量压缩到了36000个token，已经缩小了这么多倍，但依然，这样的token量对于大语言模型来说，还是太大了。

这就形成了一个悖论：码本小，失真严重，效果不好；码本大，效果好，但token量太大而没法拿去GPT生成。

Roger Chen： 那就是一个比较天真的想法，但是最早人们可能会常做这样的尝试，但发现像用这种GPT这样的模型去做生成的时候，它的上下文是不能无限长的。这对大语言模型的压力是非常巨大的，就是你需要去考虑到36000个过去发生的事件，来决定下个5毫秒生成一个什么样的token。这是一个非常有挑战的，而且如果你要训练这样的模型，你需要这个可能几个billion （几十亿）参数，就是很大的模型了，那么训练起来你肯定需要花那么几百万美金才能训练这样的模型，也不实用。

由于这么大的token量无法用GPT模型来完成，在AI音乐的前几年，效果一直没那么惊艳。

当时，AI生成音乐的普遍做法是把音频先转换成频谱frequency spectrum，就是这种图，然后再用图片的方式从扩散模型diffusion model去生成。

扩散模型的AI生成原理我们在之前讲Sora视频生成的时候详细讲过，感兴趣的小伙伴可以去往回翻去看看那期。

但是，用扩散模型生成出来的音频效果非常不好，因为模态转换期间，会有很多细节信息丢失，导致生成成品的失真。而如果要用GPT模型的话，必须要解决音乐序列长、token太多的问题。

这个时候，又一个重要的技术出现了突破：第二层音频压缩技术。

2. 第二层音频压缩技术

简单来说，在基本无损音频信息的情况下，人们发现，音频token还能被继续压缩。

首先，研究员们发现，音频的token可以进行分层压缩及解码，来减小大模型中Transformer架构的上下文压力。

我们刚才说3分钟的音乐有36000个token，如果将这些token序列三个分为一组，先将它们打包，在这一层做一个小小的压缩，36000个token就被压缩到12000个token了，然后放进Global Transformer大语言模型，等模型输出了12000个token之后，再把每个token通过Local Transformer展开成三个原来的token数量。

所以，这样将Token先压缩分层，再展开的方式让大模型的上下文压力减小，也能让生成的时间变得更快。

从最开始的三分钟音乐的7938000个采样，到如今的12000个token，这么多倍的压缩。才有了AI音乐大模型的风靡全球。而我们不排除以后有技术可以把音频token量压缩得更小，让音乐生成更快、更顺滑、有更多的细节和信息。

我们来总结一下：

先是将音乐token化的技术，加上近年音频压缩技术的出现和发展，伴随着GPT这样的大语言模型能力的增强，还有text to speech （文生语音）模型的进步，使得AI音乐的能力得到了飞速提升，无论在作曲、作词还是演唱上，都越来越逼真、越来越拟人。这也就造就了Suno AI的爆火。

从Roger跟我们的分析来看，只要AI学了足够多的参数和曲目，就可以生成任何风格的作品。

Roger Chen： 我们把这些token把它给串起来，然后告诉这个大语言模型，当你看到这样的token的时候，你需要输出这样子的音乐。只要这个大语言模型能够接收到这样子的四对一（歌词，时间同步，音高，音色）的对应关系，它就能够在听了足够多的音乐之后，它就能够去生成出你想要的这种歌手演唱的这种效果。

所以，如果你是一个音乐从业者的话，面对如今AI音乐的能力，你是否担心自己的工作不保呢？AI音乐会对我们的娱乐产业造成颠覆性的影响吗？音乐家和歌手们的饭碗还能保得住吗？我们跟一众音乐家们聊了聊，但好像，大家并没有太担心被取代这件事情。那么，AI取代的会是谁呢？

三、AI音乐带来的颠覆

1. AI能替代人类音乐家吗？

在做Suno和AI音乐这个选题的前后这么几个月的时间，我自己也在尝试不同的作曲，试试各种的prompt词和调里面的变量，还是挺好玩的，我也会去听听Suno或者其它AI音乐平台的榜单，听一下别人用AI创作的歌，真的很不错。我也建议大家都去玩玩看。

但是听久了我发现一个问题：AI创作出来的歌曲虽然乍一听还不错，但不会有那种让我一遍又一遍很上头的音乐，不会让我特别有感情上的共鸣，风格也慢慢变得很雷同。

可能是训练参数的匮乏，让AI音乐很难创造出人类顶级水平的歌曲，因此我很难想象，这些AI音乐会在五年或者十年之后，有任何一首能经得起时间的检验，还能在人们之中口口相传。

那么，Suno在专业音乐人眼中是如何的存在呢？能掀起什么风浪呢？我们采访了知名音乐博主“叨叨冯”，也是我自己很喜欢看的一个频道。叨叨原名是冯建鹏，是美国Hartford大学音乐学院打击乐讲师，也是纽约百老汇全职演奏家。他认为，AI目前可以达到音乐届的平均水平，但这样的平均水平，不足以在这个行业中出挑。

冯建鹏（叨叨冯）（美国Hartford大学音乐学院打击乐讲师）： 很多音乐或者说之所以经典的音乐它可以流传下来，其实更多的是因为它承载的人文和它体现的态度所带给的所有人的共鸣。那么我们觉得我们可以带入到这个歌的情绪里面，所以有一万首摇滚的歌，可能有那三首就成了传世的佳作。

但是目前 AI至少咱们测试出来的结果，它缺乏的是最终的那个，让我们能感觉到共鸣的那个态度，所以它可能能够写出来，但是很难在行业里面出类拔萃，因此在这个程度上来说，它还没有完全的能够代替人类作曲家的这种情感。

冯建鹏在自己的频道上也做了多期用AI作曲的视频，尝试了各种曲风，包括更细节严谨的prompt来控制乐器、节奏、音乐风格等等，结论是AI作曲还有非常多的缺陷，包括Suno无法理解钢琴的赋格，特定乐器的要求也没有达到，生成复杂一点的音乐形式，比如说交响曲，效果非常差。

他认为，之后AI模型的能力肯定会越来越强，但距离替代音乐人还早，但如今音乐从业者也不用抗拒AI，反倒是可以利用AI来作为更好的创作工具。

冯建鹏： 我自己整体的态度是谨慎乐观，我觉得第一我们没法抗拒这个洪流，就是历史发展就是必然，它的工业化的这种程度是一定能够解放人类的生产力的。我现在写一首曲子，我可能需要有一个很好的主意，然后我需要花很长的时间把它写成一首曲子出来，然后再花很长的时间去录出来，然后这个项目才能完成。

那么现在有了这个 AI以后，可能可以迅速的提高我的速度，那么作曲家能有更多的时间真的去想创作曲子，而不用担心那些细枝末节的东西，所以等等就包括一些低成本的这些音乐制作，我觉得它真的是可以的，非常好的，就是很有发展前景。

但是同时我对这个事也不是特别的恐慌，就是人类还是有一些自己独特的一些特性，目前AI至少说它的这个模型、这个算法可能暂时还做不到。很多的音乐其实它是有很严谨的明确的逻辑在里面的，如果我不能从这个方式去思考的话，那我只能是去模仿一个形似。但是人类的真正的这个思考的能力，以及我们2000年来攒下来的这些有迹可循的文化上的积淀，人类也是在这个程度上持续在发展的，那么还是有一定的优势的。

所以除非人工智能真的发展出了智能，他有自己的意识，他有创作的原因，他有情绪，有创作的动力，那么人类可能才会真正的受到威胁，作为一个整个行业，当然已经有人会受到威胁了，这个我认为是的。但是整个行业说取代人类的话，我觉得我不担心。所以我对他是保持谨慎的乐观，我觉得他是一定会对我们是有帮助的，我们没法抗拒，但是距离对我们有足够的威胁，完全取代我们那个路非常非常的长。

而冯建鹏屡次提到的音乐“态度”和“情绪”，也是我们在跟众多音乐演奏者们聊天的时候他们提到的最多的关键词。他们认为，这是人类在演奏乐器或演唱的时候，最重要的元素。就如同，同样的一个曲谱，不同演奏者会有不同的解读和表现方式，而就算是同一首曲子同一个演奏者，他的每一次表演都是不同的，都是独一无二的。而情感的共鸣，是对于接受音乐欣赏音乐的作为观众的我们来说，最珍贵的部分。

Kevin Yu （大提琴家）： 我曾看过AI演奏大提琴，也见过机器人演奏大提琴。我认为它们目前只能以某种方式演奏。然而每把大提琴都有些许不同，每场演出也各不相同，每位演奏者也不同。因此，我认为AI还没有能力做到古典音乐演奏中我们所需要的某些方面，比如即兴演奏及表达。

我可以演奏巴赫大提琴组曲的第一种方式是，我可以拉的很宽广，很慢，很深沉；或是带有更多动感的，更空灵的声音，那样就更有流畅感，更轻盈的声音。

我敢说我很长时间不会失业。

2. 版权音乐和口水歌将受冲击

我想了想，我会买高价票去看朗朗或者王羽佳的演奏会，但我估计不会买票去听机器人弹钢琴。那么问题来了，AI音乐，如果以现在的能力来看，它冲击的是什么市场呢？Meta Music and copyrights团队的技术负责人Huang Hao告诉我们，版权库音乐和口水歌市场将会是受到冲击的市场蛋糕。

Hao Huang （Meta音乐及版权负责人）： 我觉得会替代一个专门的市场叫Stock music 或者叫Production music，就是专门有这些公司提供Royalty-free的音乐，然后你跟他付订阅费，或者是付版权使用费，然后你可以用他们的歌做任何事情。

这个market 大概有个几个billion （几十亿美元）这个样子，就这部分的market我觉得完全可以被AI取代。它相对于AI音乐，既没有质量上的优势，又没有在发现新音乐上的优势，AI音乐能够让你很轻易的就是拿一个prompt，就输入几句话能够生成想要的歌，这个优势是完全没法去打败它的。

第二阶段我觉得做口水歌的这些网红歌手可能就没了。其实在国内抖音上面几乎被这种非常低质量的口水歌完全占据了，这些歌你拿来做视频是非常有意思，因为它的节奏一般都很欢快，然后它的旋律实际上是大众都已经熟知的那些和旋。我觉得这些网红歌、口水歌可能会很快的被替代掉。

那什么是没法或者说很难去替代呢？就是很强的音乐人，比如说周杰伦，Taylor Swift、Billie Eilish这种，Coplay这些我觉得都很难（被替代）。所以非常有创意的这些音乐，我觉得还是有它存在的价值，但是可以看得到其实对音乐人，对整个市场，我觉得还是有很大的挤压的。

因为音乐是一个非常头部的市场，可能就是顶级的音乐人，占了可能99%点几的份额，剩下的都是一大堆的这种long tail （长尾）的一些音乐人，那我觉得其实对这些长尾音乐人可能是一个很大的挑战。

对于音乐创作者和演奏者来说，音乐的功能性和商品性也许慢慢会被AI替代，但音乐的精神共鸣层面永远处于个人。

Ziki D （Party Sucks及Dminished 5th乐队主唱）： 音乐就相当于是更高级的一个交流语言，所以它没有办法像一个商品一样，或者是什么东西把它生成出来。它更多的是两方面，一方面是音乐人自己，他有一个表达的诉求，这部分是AI百分之百没有取代的可能性的。但另一方面如果你把它作为一个商品来讲的话，那我觉得AI做的已经相当好了，它已经在一个非常好的道路上，它在慢慢的向前走，我觉得是非常有可能取代很多商业音乐的。

陈茜： 那音乐人的诉求是什么？

Ziki D： 音乐人的诉求更多的是自己的一种发泄与表达，因为他是像我说的建立在可能语言之上的一种表达方式，你可以不止跟人类交流，可以跟你心里的各种各样的不一样的生灵和一些你心里创造的生物在交流的那种感觉，所以就是很抽象的很不一样的表达方式。

那我们现在清楚了在音乐创作上和市场冲击上，AI音乐技术的边界。而在立法上，大公司们以及政策制定者们也正在行动，而这将更加规范AI音乐的未来发展。

四、诉讼、立法、零样本训练与AI音乐的未来

在2024年7月12日，美国参议院的三位国会议员提出了一个针对AI版权的新法案COPIED Act，全称是The Content Origin Protection and Integrity from Edited and Deepfaked Media Act，直译过来是“内容来源保护和完整性防止编辑和深度伪造媒体法案”。

这个法案的目的，主要是制定完善的规则来标记、验证和检测生成式AI产品，包括文字、图片、音频和视频，提升生成内容的透明度防止被非法乱用以及保护公众的个人数据和隐私。同时保护记者、音乐人、演员和其他艺术、商业群体的利益，并保留对非法使用数据训练AI大模型的法律追究权益。

比如说，法案规定，任何商业生成式AI产品必须让用户知道这是AI生成的，比如说ChatGPT生成的广告文案或社交媒体帖子，一旦是商用范畴，就必须要明确标注是由AI生成，并且禁止任何人故意移除或篡改AI生成的标注信息。

另外这个法案重要的一点是给出了明确的赔偿机制，明确禁止AI厂商在未经明确、知情同意的情况下，使用具有受版权保护作品的数字内容来训练AI大模型和算法。如果侵犯便需要进行赔偿。

这个法案一出，是受到了各种工会、唱片协会、新闻联盟等等组织的大声叫好。

所以，我们在开头提到的Suno被三大唱片公司起诉的官司可能会根据这个最新的法案来宣判指导，我们也会为大家继续关注这方面的法律进展。

但毫无疑问的是，技术和法律的关系，有时候，总是很模糊，经常是上有政策下有对策。

比如说，我最近学习到，AI音频上还有一个技术被称为“零样本训练” （Zero-shot learning）。

在学术上的解释是：训练AI模型来识别和分类对象或概念，而无需事先见过这些类别或概念的任何示例。

简单一点来说，就是把“数据”和“大模型的学习方式”给解耦合，比如说你告诉大模型我要生成一个跟某位歌手很像的声音，或者是一段这个乐器音色很像的曲子，那么通过“零样本训练”，大模型虽然没有见过或者通过特定样本训练，但它也可以模仿进行输出。

“零样本训练”目前在音乐生成上还没有被广泛应用，但在语音合成上已经很成熟了，所以我们可以预见，以后如果用户拿着几秒钟的音频文件作为例子，大模型就可以迅速复制例子音色，这样的技术对产权保护更难监管。

突然想到，前段时间OpenAI在发布产品GPT-4o的时候，语音的音色被认为很像电影《Her》的配音演员斯嘉丽·约翰逊。而约翰逊爆料说，之前OpenAI CEO Sam Altman确实找过她希望用她的声音给4o配音，但她拒绝了。

但4o出来的语音模式，有一说一，确实很像寡姐在Her中的声音。

在GPT4o发布之后，约翰逊大为震惊和恼怒，虽然没有正式去OpenAI提起诉讼，但已经组织好了律师团队来准备下一步的法律动作。OpenAI这边是否认了使用约翰逊的声音作为训练样本，而是使用的另外一位配音演员。

我也不知道OpenAI是否使用了零样本训练的技术，但我相信，随着各种生成式AI技术和产品能力的提升，法律、商业以及社会都需要一些新的共识。

五、新的共识与不完美的人类

但我想，不变的，依然是人类对音乐的需要，无论是听众还是演奏者，无论是大师还是我这样主要为了自嗨的业余小白。

人类的创作是充满不确定性的，有激进，有感性，有随心所欲，有喷薄而出的情感，有为了追求完美的一万小时定律，也有为了追求与众不同的铤而走险。

人类是会犯错的，但正是因为有这些错误，才让完美更加难能可贵。而当完美唾手可得，那艺术也不再是众人的信仰了。

AI的能力会持续进步，但人类的音乐追求也会持续进步。顶级的创造力，将不会被替代。

本文来自微信公众号：硅谷101 ，作者：陈茜