AI音乐形成浪潮:技术科普、变革畅想和伦理应对

2024-06-03


科普技术:热闹的百模对决,焦虑的音频模型


1.1 AI进入大语言到多模态「日更」方式

2023年被称作「生成式AI元年」。2022年11月,OpenAI GPT-3.5 ChatGPT是模型的核心。ChatGPT出现了前后文学习、思维链等高度智能,被认为具有颠覆性的技术突破和跨领域的实用价值。AI Agent等衍生方向也被认为具有平台和入口级的意义。以此为节点,大规模参数,大算率,「暴力求解」大语言模型的风格(LLM)打开历时过程。短短几个月,大批AI创业公司和科技厂商纷纷进入市场,LLM领域进入百模对决。


不同的信息方式,如自然语言、图像、视频、音频等,在计算机领域被称为不同的信息。「模态」。在人工智能领域,多模态研究一直是一个不同的分支。大型语言模型爆发后,多模态大模型也成为技术热点。在计算机视觉领域,文生图模型在两年内迅速飞跃。Midjourney于2022年2月发布初版,同年11月V4版本的真实性和艺术性大幅提升;Stable开源模型 2022年8月,Diffusion首次出现,XL1.0版于2023年7月推出,体现了出色的写实和对提示词的理解。


视频生成一直被称为大型技术高地,Runway、Pika和其他公司在这里深耕了很长时间。2024年2月,OpenAI推出了Sora模型生成的高质量视频案例,可以生成包括丰富角色、动作和场景在内的1080P真实视频,并提供描述或静态图片。自此,文化视频领域进入了一个新的阶段。


1.2 音频模型:范式稳定发展,爆发来得有点晚。

在音乐领域,大模型技术的突破似乎比预期的要晚。直到2024年3月,Suno V3的发布,引起了业界和社会的广泛关注。TME天琴实验室音频技术负责人赵伟峰介绍,事实上,自2023年以来,音乐生成领域一直在不断深化,不断出现新的模式和范式。现在技术范式已经达成共识。具体表现为:从符号音乐到音频模型研究,大模型领域Diffusion和Transformer结构介绍,逐步处理人声唱词问题,文字/语音/音乐/音效综合等。


业界代表性的音频模型技术范式:


谷歌的MusicLM(以及202306,Meta的MusicLM)MusicGen)——选择MuLan/Clap跨模式和自回归Transformer模型。根据文字提示生成24kHz频率、近5分钟的音乐,可以指定音乐风格、乐器、情感等,以纯音乐为主,基本没有声音。


英国萨里大学和帝国理工学院的202302AudioLDM-选择Latententent Diffusion模型架构,显著降低了Diffusion模型对计算能力的要求。完成音乐、语音、音效等一体化。


202403,Suno V3(以及202404,Udio)——没有公开的技术细节。根据文本提示,生成近2分钟不同风格的音乐。包括人声歌词,客户也可以手动输入歌词。


202404,Stability AI的Stable Audio 使用类似的Stable2.0- Diffusion Diffusion3 Transformer(DiT)结构,长序列处理效果明显。可以生成44.1kHz频率,3分钟的歌曲。除文字提示外,还可以通过上传音乐或哼唱来生成。但是人声唱词还是有问题的。


*真正的里程碑是谁?


MusicLM & MusicGen:技术里程碑从噪音产生音乐。


一线技术从业者指出,MusicLM和MusicGen在2023年上半年已经解决了音乐生成中的大部分问题。Transformer在已经公开的技术架构中也有很好的效果(详细信息如何看待音乐效果的产生)。MusicLM和MusicGen在技术上更具里程碑意义。由于它将自然语言模式与音频模式联系起来,并从噪音中产生音乐。


Suno & Udio:处理人声唱词,成为好商品


另外一个问题是Suno和Udio:人声歌词。它使音乐的产生真正成为音乐的产生。从业者推断,它可能使用类似MusicLM的结构来产生音乐,或者使用现成的伴奏,然后用TTS技术唱出歌词(客户手动输入或调用大语言模型),从而产生对合效果。由于没有公布技术规范,很难判断其技术突破,但是它更好地融合了相关技术,成为一种良好的产品。


TIPS:评估AI生成音乐的主要指标(天琴实验室和合作团队经验总结)


1. 音乐性/乐理性:涉及旋律、和弦、编曲、节奏、乐器组合等,音乐的艺术性也是考虑因素。


2. 标签匹配度:顾客希望产生的音乐与最终产生的音乐是否匹配。


3. 歌词(语义):具有语义能力,包括多语言、语义的理解、语义的完整性。


4. 长序列的连接性和结构性:虽然属于音乐性,但长序列是目前技术瓶颈,所以要重点关注。短期音乐不一定是长序列的音乐。


5. 音质:音质能否达到用户可以欣赏的艺术作品水平。


6. 更多功能:如支持更多输入,可编辑能力等。


1.3 技术线路:音频产生热量,或与符号音乐结合

从上面可以看出,从2023年到2024年,音频模型取得了快速的突破,这在几年前是不可想象的。在早期阶段,AI音乐产生的技术热点是另一条技术路线:音乐符号的生成。


音乐符号路线:词曲编录混合均可控制,但整体性不足


技术原理:提取音频中的音乐知识(如歌词、和弦、乐器),类似于MIDI,将其分割成类似音乐功能谱的数据形式「词曲编录混」包括AI作曲、AI编曲、AI歌声生成等技术在内的各个环节。


长度版:最大的优点是每个环节都可以控制,可以更好的嵌入音乐人的工作流程,成为帮助创作的工具。但是由于各种技术的串联,很难达到良好的整体效果。音乐是词曲编录的有机融合。有时候词汇好,音乐好,但是组合不好。另一个问题是乐谱的训练数据比音频少得多。


音频模型路线:整体效果较好,但编辑/分轨难度大。


技术原理:完整的音乐直接从端到端生成。可以理解为,把一段音乐当成一个频谱图,把频谱图当成一张照片来训练AI,类似于图片的生成,找到自然语言和音频之间的关系。


长度版:产生的作品具有很强的整体性,但由于是端到端,很难进一步编辑调整(比如修改单句旋律),也很难获得分轨、MIDI等制作文件。另一个问题是,由于音频复杂性高(每秒至少有44100个数据点),提高音质需要很高的算率。


*路线之争?路线结合!


在两条技术路线的竞争中,随着MusicLM和Suno等模型产品的发布,技术热点的平衡转向了音频模型的一侧。不得不感叹,音乐领域也验证了大模型的暴力解决方案风格。但目前的音频模型仍然面临几个技术卡点:可编辑性不足、音乐性长、音质差。


其中,「可编辑能力」实用价值和行业需求都很高,也是音频路线的短板,是符号路线的长板。当端到端模型反向处理编辑问题时,需要更精细地标记音频训练数据——回到符号路线。因此,DeepMusic智能音频技术的创始人兼首席执行官刘晓光认为,未来的音频模型和符号模型必须合作。通过音频模型,我们可以使用不同维度的音乐符号来产生音乐。


应用改革:放下路线之争,各自投石问路


虽然音乐产生的技术结构、路线尚未完全公开和统一,但大方向已经得到验证,各方面的技术竞赛和应用探索也在加速。以Suno、以Udio为代表的端到端商品,热潮过后需要考虑其实用价值;作为符号路线的代表,DeepMusic正在更新个人能力;作为平台的技术引擎,TME天琴实验室更多地探索了AI音乐生成与音乐平台的深层联系。


2.1 Suno/Udio类产品:低级替代,创造灵感和更多?

除了技术突破之外,Suno产品引起的反响在很大程度上取决于其流行特征:普通人第一次感受到。「创作」尽管这几乎是一种美妙的音乐。「一键生成」与传统创作相比,这种体验的发生,使我们能够更加合理地演绎AI音乐的未来。


行业内有几种比较有代表性的认知:


音乐水平Suno:超过X%的音乐家作品。X的范围从50%到80%不等,反映了从业者的主观经验,而不是精确计算。一方面,AI音乐已经达到了一个不低的水平。另一方面,由于音乐人参差不齐,许多作品的质量不够高。


音乐内容过剩,AI音乐难以撼动当前的音乐消费模式。在AI音乐到来之前,音乐行业已经供大于求,只有少数作品能获得高人气。这些作品要么质量很高,要么归功于强大的宣传。因此,除非宣传环境发生变化,否则达到中等水平的AI音乐是不够的。


但是有些类别会被AI接管:低级配乐,公播音乐,短视频BGM等等。AI比人工输出更有效率,因为它相对标准化和模式化。此外,这些类别没有个人IP特征(观众一般不知道创作者是谁)。许多热门流行歌曲通常与创作者的个人IP联系在一起,相互祝福。


音乐家可以用Suno来启发灵感,「可编辑」成为必然趋势。虽然Suno音乐远离专业音乐人的工作流,但它仍然对音乐创作有启发性。毕竟创作是一种灵感的实践活动。但是如果你想实用,「可编辑能力」这是一种刚需,在视觉生成领域也得到了验证。


一个面向「中等音乐实践者」简化音乐工作流程可能会诞生。刘晓光认为,中度实践者是一个爱玩音乐的群体,但并不一定想知道复杂的乐理。所以,音频模型的发展将催生一种简化的音乐工作流程:1)大模型产生伴奏 歌词 AI歌星演唱中含有自己的音色 简单的交互实现随意的颗粒度修改 大模型制作专辑图,MV等发行材料。现在仍然受到编辑能力和音质的限制,但是在接下来的1-2年里,这种生产体验将会更加完善。


TIPS:DeepMusic的市场调查(DeepMusic)


根据音乐的参与和专业性,音乐群体可以分为三类:专业音乐人、音乐实践者和泛音乐爱好者。音乐实践是专业生产和纯消费之间的一种状态。


专业音乐人:1.专业音乐人规模100万级。参与的主要方式是创作和表演,大约有10万人具备制作能力。


音乐实践者:2.音乐实践者规模1亿。参与方式包括玩乐器、音乐APP。、音乐俱乐部等。可以分为深度和中度实践者。最大的区别在于,中度实践者不一定愿意创作,也不需要精心控制音乐内容。


泛音乐爱好者:规模10亿。大部分都是听歌,也包括唱K。、观看音乐表演等情况。


2.2 DeepMusic和弦派:从专业工具传播到不懂乐理的人

符号音乐的生成与Suno端到端产品相比,自然具有可编辑性,在服务专业音乐人方面更具优势。DeepMusic是一家深度培育符号路线的国内代表性AI音乐创业公司。对此,刘晓光分析道:音频模型就像「大力出奇迹」,不确定性高,国内培训成本是国外的10倍。赌一个音频模型不一定要花多少钱,成功需要多长时间,ROI很低;但是当符号模型效果不够好的时候,有中间产品让用户自己修改,更有阶段性价值。


伴随着音频模型的突破,DeepMusic将等到基本音频模型开源后再跟进;并且充分发挥自身积累的优势,利用精细注明的闭源数据来控制音频模型。可以看出,从端到端的产品突破可编辑能力,到符号路线公司的音频模型整合,两种技术路线正在结合回归,看谁能取得更好的效果。


旗舰产品DeepMusic「和弦派」这是一个协助创作的工具。2024年初进行了智能升级,融合了AI编曲、AI歌曲等功能,可以一站式生成高质量的演示,各个环节都可以控制。但是用户还是需要面对门槛高的音乐功能谱。目前用户构成也是系统化的:20%音乐人、30%音乐老师、25%懂音乐理论的中度实践者、25%不懂音乐理论的中度实践者。4月底「和弦派」刘晓光指出,2.0版上线,下一步,目标受众将泛化,面向不懂乐理和功能谱的人,正式进入中度实践者跑道。


2.3 TME天琴实验室:技术能力第一,寻找B/C端价值场景。

大模型技术爆发后,国内很多互联网和硬件厂商都加入了不同程度的竞争。TME作为一个音乐娱乐平台,面对语言、视觉和音频模型技术的演变,从未停止思考。


TME天琴实验室高级总监吴斌认为,大模型有一个重要的特点:核心模型数量很少。当结构充足且通用时,需要通过堆叠计算率来测试数据。同时,更好的开源模型不断涌现,使得很多公司的初始投资毫无意义。整个市场仍处于非常动荡的状态,盲目投资是不可取的。最重要的决定是「怎样跟进大模型趋势才是最合理的?」。该平台的核心能力是用户和场景,每个人都可以在开源模型的基础上,重新了解场景,提供更好的应用服务。


就算没选择「All IN大模型」,但是在技术快速更新的时期,天琴实验室仍然做了这三件事:


跟踪思维能力:吴斌强调,即使不去硬训模型,对其一线认知、训练能力还是要先具备。等条件成熟后,可立即发力。视觉模型已经成为天琴最初的大模型发力点。Muse音乐视觉技术自主研发于2022年7月,从图片推广到视频领域。MuseV虚拟人视频生成框架于2024年3月正式开源,在视频一致性、时长和口型生成方面领先行业,深受业界好评。


AI应用试点:基于技术实力,天琴还积极应用试点项目。比如直播间的礼物生成,可以让用户的文字生成有创意、有个性的定制礼物,丰富了直播玩法,带来了可观的商业效益。有时候看似微妙的场景会有意想不到的反应,进一步加深了平台对用户场景的认知。


大型模型加速:其高调用成本决定了大模型的技术特性。加速大模型,就是降低模型推理的成本。天琴开发了MUSELight大模型推理加速发动机,并发现Stable加速版Stable Diffusion的成本可以达到原版本的1/10甚至更低。对于一个为大量用户服务的C端平台,这是非常有意义的。2023年5月,天琴还将加速三个相关版本向全行业开源。


由于视觉、语言模型技术成熟较早,天琴早期音频模型的投入比例并不高。赵伟峰介绍:从2023年到2024年,天琴的音频模型投入不断增加,研发重点也从歌声生成模型开始。「琴韵」转向音乐生成模式「琴乐」。


「琴韵」歌声生成:从2023年开始,天琴。「琴韵」歌声生成模式逐渐成熟。同时,行业也出现了。「AI孙燕姿」事件反映了歌唱技术可能被滥用的风险。因此,天琴发现了两个合规应用场景:一是作为用户玩法,客户在k歌场景中上传自己的声音,生成随机演唱作品;第二,歌手授权合作,促成了「AI王力宏」演唱《Letting Go》等待热门音乐事件。


「琴乐」音乐生成:自去年以来,基于符号路线的AI作曲、编曲技术已经在QQ音乐上推出了多种应用。2024年,天琴使力音频生成模型「琴乐」。文生纯音乐1.0版于4月完成,已整合至1.0版。「启明星」音乐制作服务平台。「琴乐」同时也参加了上海民族乐团的音乐会创作,得到了很好的反响。能够翘首以待音乐生成等复杂能力。TME作为AI技术下的用户平台,选择了积极但理性的投资,努力在技术能力和用户价值之间建立最佳的桥梁。



AI安全:处理一道未知的防线。重要的应该是多方参与


AI技术和应用显示出巨大的产业变革和社会效应,现在这些变化近在咫尺。从科技伦理的角度反思技术的社会影响,尽可能干预技术走向,是我们应对不确定性的底线。在语言模型领域,价值观对齐已经成为产学和政策制定者关注的焦点。在AI音乐领域,关于音乐版权和创作者生存的问题也成为讨论的焦点。


3.1 音乐版权:返回「激励创作」的初衷

相关版权争议同时存在于英语、视觉、音频模型等领域。主要有两个关键问题:①模型化训练阶段,训练数据版权合规问题;②AI生成物在内容生成阶段的版权问题。


在实践阶段,AI模型需要使用大量数据进行预训练。如果训练数据包含受作权法保护的版权作品,则需要在作权法中满足「合理使用」规则,或者获得版权所有者的授权。


关于这个问题,ChatGPT、Stable Diffusion等产品及其背后的企业都面临着来自《纽约时报》等版权方或艺术家的诉讼,案件仍在进行中。一方面,内容行业长期发展的命脉是通过版权保护来鼓励创作;另一方面,新技术带来的潜在机遇和竞争对手的挑战正在迫使行业加速。这两种需求需要平衡共赢。这个问题在全球范围内还没有取得明确的进展。随著科技产品的成熟,AI公司和版权所有者也在积极寻求谈判,寻找许可证并分享利润,这是未来的一个重要方向。


AI产生的内容在生成阶段是否具有版权?谁属于版权??目前,在大多数国家,作权法并不认可人类以外的主体。然而,自生成式AI发展以来,各国的立法和司法都在积极探讨保护方法。一个重要原因是人类在AI生成中也发挥着非常重要的作用。以ChatGPT为例,人类在三个环节中反映了干涉或创造:①在模型训练中,“人工反馈强化学习”阶段,②顾客使用中的创造性问题,③内容生成后的调整优化。注意:参考2023植德人工智能年刊


2023年底,国内首个「AI文生图」在北京互联网法院审结作权案件后,进行了开创性的探索。了解这个案件的审理思路,有助于我们了解问题的本质和方向。


国内首个「AI文生图」作权案件:(参照人民法院报告)


案件回顾:原告李某使用Stable Diffusion,通过提示生成图片,发布在小红书平台;此后,被告李某在百家号的一篇文章图片中使用了这张图片,未经原告许可,并切断了签名水印。


审判要点及结果:在最初构思到最终选照的过程中,原告倾注了原告的审美选择和个性判断,通过设计人物展示形式、选择提示词、设置参数、多轮图片优化等活动。这些照片反映了原告的照片。「最初的智商投入」,因此,作品被认定,作权归原告所有,被告侵犯了信息网络传播权和签名权。


裁判员分析:利用AI产生的内容,是否构成作品,需要个案判断,不能一概而论。本案坚持作权法只保护“自然人创造”的观点,同时考虑两点:①全新的传统理论应用领域。在AI时代,人类创作工具发生了根本性的变化,但并不意味着人类不应该选择和规划画面元素;第二,法律判断以外的价值判断。认同「作品」属性和「创作者」身份有利于鼓励人们使用人工智能工具进行创造,促进人工智能生成内容的识别和监督,加强人们在人工智能发展中的主导地位,促进人工智能技术的创新发展和应用。


业内法律专家也指出,这一判决仅适用于案件本身,也不能作为类似案件的参考。AI生成内容「可版权性」仍有争议。一种较为常见的操作思路是:并非有人参与的就是创作,需要判断人的参与程度。并且在语言、视觉、音频等各个领域,参与程度有不同的认定方法。


这两个问题都非常复杂,仍然需要时间才能找到双赢的解决方案。但是我们可以看到背后一贯的价值逻辑:通过保护人类,作权法的立法目的是「最初的智商投入」,来「鼓励创作与传播」。AI技术具有解放生产力和促进内容产业发展的巨大潜力,但不能以牺牲人类创造力为代价。我们希望通过分析、约束和应用,它能够积极促进创造性繁荣。


3.2 人机关系:放下竞争,寻找合作

人类创作者会被AI取代吗?这是另一个讨论热点。不仅AI音乐,大模型技术,甚至每一轮技术革命,每个人都有类似的不安。但历史结果表明,新技术肯定会淘汰一些低级工作,但并不取代整体人类。而且随着低级工作的淘汰,我们被迫创造更能体现自己价值的工作。于是就有了这样的调侃:淘汰你的不是AI,而是会使用AI的人。


具体到AI音乐行业,以上对Suno的几个判断也大致说明了AI音乐所没有的,因为音乐内容供大于求,要想获得市场认可,通常需要达到极高的水平或者被强大的宣传驱动。高质量的作品包含了人类艺术家独特的个性、经验和情感,这是AI音乐所没有的。但是罐头音乐等低级工作应该逐渐被AI接管。


同时,快速的AI音乐可以激发音乐人的灵感,AI工具可以解决音乐人工作流程中的非创造性劳动。因此,更好的视角不是与之竞争,而是站在AI的肩膀上。著名音乐家、制作人陈珊妮曾明确表示:创作者应该关心的也许不是「是否会被取代?」,而是「我们还能做些什么」。回归人类的能动性。技术从业者对音乐人的发展也给出了一些友好的建议:


技术员对音乐员的友好建议:


吴斌:我觉得你不妨多听多玩。因为这种趋势是无法阻止的,即使你不拥抱,大多数音乐人也会拥抱,最后被迫,所以还是早点好。知道AI能轻松做什么,不能做什么。有些事情AI就是做不好。这时,音乐人可以充分发挥自己的优势。


刘晓光:简化的音乐流程将在一定程度上成为一种新的音乐生产方式。建议音乐人了解并与AI合作。请相信AI会越来越可控,让音乐人实现自己想要的创作。但是,非IP音乐应该慢慢做不到AI,音乐人需要越来越关注自己的IP特性,做出自己的专属表达。


3.3 多角度:再强调也不过分。

李飞飞(斯坦福大学首任红杉讲座教授、前谷歌云人工智能和机器学习首席科学家)指出,培养人工智能的昂贵成本正在排除学术界,成为商业公司的特权。斯坦福大学报告指出,2022年,科技产业贡献了32个关键的机器学习模式,而学术界只有3个。这就导致了一个问题:商业行为的技术发展迅速,公共价值和处理社会风险的技术明显落后。


虽然这个问题很难完全解决,但是当质疑的声音增加的时候,会带来更多的公共保障行动,可以激发更多的商业公司的自省和安全部署。


技术、工业、学术界、第三方等。,具有不同的价值取向和专业能力。这种多角度的参与更有可能使新技术朝着符合人类价值的方向发展。在音乐领域,艺术家、工业和技术之间也有多种视角。然而,由于技术门槛高、艺术门槛高,这两个群体之间存在很大的信息差异。


赵伟峰指出,在天琴实验室,R&D部门80%以上的人需要具备一定的音乐素养,尤其是符号路线需要更深入的音乐知识。在音频模型路线中,需要与专业音乐团队合作来判断AI生成的内容。这种互动可以让AI音乐更符合艺术家的标准。


职业评价只是最基本的参与方式,这种多角度的对话合作,也有助于解决更重要的问题。例如,陈珊妮曾经提出了一个尖锐的观点,认为特殊的音乐越来越少。到目前为止,数字音乐已经被分类,便于管理和更快的听力。但是如果有个人特征的东西不在电子和嘻哈,那是什么呢?它的流量会下降。AI音乐也差不多。它很容易使各种技术指标趋于平均,但美感不是这样。


再比如,吴斌从技术原理的角度判断了AI音乐的上限:大模型技术路线的本质是,从人类内容中学习,本质上没有超越人类内容的抓手;但是如果我们讨论AGI,它涉及到另一条技术路线:加强学习。它可以让AI在一个环境中探索自己的试错,理论上可以突破人类现有内容的瓶颈。


我们应该来自艺术家的审美经验、人文关怀和理性质疑,以及技术从业者从底层原则出发的可靠推理,以及产业、学术界和更多人。...利用理性精神和技术力量,从多个角度修复技术变革中的错误,引导人工智能领域的良性发展。


本文节选自2023年中国数字音乐年度白皮书


本文来自微信微信官方账号“腾讯研究院”(ID:cyberlawrc),作者:TME,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com