AI音乐战争升级!三路国内军队全面对抗Suno
允中 发自 凹非寺
量子位 | 公众号 QbitAI
在与Suno对抗的道路上,在AI音乐领域积累了很长时间的国内企业,已经在自身优势上推出了相应的模型和应用,与世界顶级商品展开了一场精彩的对抗。
有趣的音乐创作游戏,不断惊艳的客户模型效果和现象级的商品传播模式,音乐模型是今年垂直大模型跑道上非常稀缺的亮点。
三月份,当Suno V3问世后,很多人惊呼音乐行业要“一夜之间改变”。最近,Suno发布了V4版本,用户可以生成音质更高、听起来更好、时间更长的音乐(4分钟),这意味着AI可以创作出一首完整的歌曲,AI音乐的创作进入了一个全新的阶段。这在国内外引起了广泛的关注和讨论。
事实上,即使已经到了V4版本,Suno也更擅长英文曲目,中文曲目和中国客户并不是迭代产品需求的重点。在与Suno的对抗中,在AI音乐领域积累了很长时间的国内企业已经在自身优势上推出了相应的模型和应用,与世界顶级商品展开了一场精彩的对抗。
国产AI音乐应用三路攻击
在Suno V3发布后,国内大型玩家纷纷推出类似产品,防止错过音乐产业的“ChatGPT时刻”。
然而,随着时间的推移,从近一年的时间线观察来看,到目前为止,仍然坚持投资AI音乐大模型跑道的玩家主要有三类:
以字节跳动豆包海棉音乐为代表的大工厂派。
以天工SkyMusic为代表的昆仑万维旗下的新型大型模型制造商
以趣丸科技旗下天谱乐为代表的垂直跑道独角兽科技公司
海棉音乐作为字节跳动推出的免费AI音乐创作与共享平台,主要利用人工智能技术帮助用户创作个性化音乐作品。
在海绵音乐中,用户只需要输入一个灵感或上传一张图片,就可以生成自己的音乐作品。平台提供多种音乐风格和创作工具,帮助用户轻松创作出高质量的音乐。
与Suno相比,AI生产的海棉音乐中文歌曲提高了发音的清晰度和流畅性,音乐风格更符合中国人的喜好。
音乐大模型天工"SkyMusic“这是昆仑万维在中国推出的第一个音乐SOTA模型。基于昆仑万维的“天工3.0”超大模型,可以快速生成各种风格的音乐作品。
“天工SkyMusic”采用了Sora模型架构在音乐音频领域,Large-scale 负责作曲的Transformer来学习Music。 在完成音乐可控性的同时,Patches的前后文依赖关系,Diffusion 负责唱歌的Transformer,Music通过LDM让Music Patches被转换成高质量的音频,推动“天工SkyMusic”支持80秒44100Hz采样率双声道立体声歌曲的生成。
天谱音乐是趣丸科技今年7月发布的世界上第一款多模式配乐模型。上架时间比天工晚,但也比海棉音乐早一个月。产品一上线就全面接入了其应用唱鸭APP,向所有用户开放。
趣丸科技一直深入音乐和音频领域,其拳头产品包括TT语音。现在注册用户已经超过2亿,是中国最大的社交兴趣平台之一。
天谱音乐模型集成了照片理解算法、旋律生成算法、视频理解算法、配器识别算法等领先技术,多模态理解和生成能力堪比国际先进水平。
值得注意的是,天谱音乐的大模式不仅支持文学音乐和音频音乐,还创造了照片和视频生成音乐功能,比Suno早3个月,在一定程度上代表了其多模式输入能力超越Suno。这也是目前国内几种AI音乐中功能显著的产品。
基于自主研发的画面情感理解模型等领先技术,天谱音乐模型不仅可以根据视频画面的明暗、色彩、情感的细微变化逐帧识别和理解,还可以理解音乐的和弦、旋律、歌词、演唱风格等复杂特征,最终生成高匹配度的视频配乐。
简单来说,客户只需要在相册中上传一张图片或一段不超过60秒的视频,就可以生成一首完整的带有人声歌词的歌曲,与高度适应的图片相匹配,生成效果达到唱片发行水平。
生成人声音乐的天谱乐:
持续进化音乐大模型的关键
事实上,腾讯音乐和网易云音乐,国内音乐双巨头,为了追求当前生成式人工智能的浪潮,分别推出了X.Studio和启明星。
但也许巨头本身凭借强大的版权库,已经能够获得足够的市场份额和商业收入,所以外界感受到的是,这两家公司在AI音乐方面的投入和活跃度从来没有上面提到的代表玩家那么好。
在与全球科技巨头竞争AI大模型的竞争中,业内共识是,AIAPP是国内公司不可多得的优势之一,也是赶超海外大模型公司的机会之一。这意味着,探索和创造更多的产品,以及客户可以使用的商业场景,是国内大模型可持续进化的基石和未来。
这也符合趣丸科技副总裁贾朔对音乐模型的理解。他指出,“降低门槛,让普通客户体验音乐创作的快乐”是自主研发天谱音乐产品的价值主张。
原创音乐的专业性很高。但在AI的帮助下,用户只需输入一个句子、一张照片或一段视频,1-2分钟内就可以生成一首构造相对完整的词曲音乐。
△根据视频生成系统匹配音乐。
事实证明,这种策略确实获得了很多市场的积极反馈。目前已有4600万人注册使用唱鸭APP或天谱乐官网,共创作AI音乐近1000万首。
技术平等的意义在于,使更多的人能享受到科技创新带来的便利与益处,缩小不同群体之间的技术差距。
除了服务音乐爱好者等C端用户,应用于影视制作等相关从业者的工作流程,为AI音乐大模型的落地提供了更多的商业场景。
目前市场上的音乐模式一方面可以为专业音乐人服务,通过减少歌词和歌曲的创作和编曲,提高音乐创作的效率,使得快速创作和实验新的音乐思路成为可能。另一方面,在短视频浪潮下,音乐模型正在帮助短视频创作者创作符合视频内容的背景音乐,从而提高内容质量和观众感受。
据悉,天谱乐还将在近期发布新功能——MidiRender,与Control相比,功能是准确的,可控的。 Net,专业的创作者可以输入自己的音乐设想,让天谱音乐AI根据这一原创音乐片段添加歌词,完成编曲。
创作者输入原创音乐片段:
完成编曲的天谱乐添加歌词:
通过提供定制的音乐解决方案,可以带来更多的应用领域和商机,不断推动音乐产业的创新与发展。
AI音乐创作还有哪些难题需要解决?
尽管大型音乐模型在2024年以前以前所未有的速度狂奔,但它仍然给这一行业的交易者留下了一些难以解决的尴尬。
音乐版权问题首当其冲。高质量的音乐生成模式依赖于高质量的音乐音频数据。
今年6月,环球音乐集团、索尼音乐集团、华纳音乐集团等多家音乐公司向Suno和Udio提起诉讼,称他们非法使用版权音乐来训练自己的AI模型,并提供服务。随后,Suno反击指责他们利用版权诉讼来保护自己在人工智能音乐领域的市场主导地位。
目前双方的竞争还没有定论,但唯一毫无疑问的是,AI音乐公司在技术上取得了显著进展。如何在法律框架内经营和商业化,将是这些公司未来必须考虑的问题。
另外,没有明确的法律规定音乐大模型生成的音乐作品是否享有版权保护,如何界定其版权归属,给音乐大模型的应用带来了不确定性和风险。
针对版权问题,贾朔发现一些纠纷其实可以通过技术手段避免。比如在产品方面,当用户使用AI进行创作时,可以判断是否有主观意图模仿当前艺术家,并给出弹出窗口提示。
事实上,当人类进行艺术创作时,灵感可能不是凭空产生的。他们中的大多数人也从过去的历史和行业中学习和借鉴优秀的例子,不断打磨和迭代,在巨人的肩膀上创新和创造。训练AI模型是这样的,人类的学习成长和进步也是相似的。
另外一方面,是音乐创意和情感。
音乐创作很专业,但也是人类情感和情感的表达。虽然音乐模型可以生成具有特定风格和情感的音乐作品,但其创造力和独特性仍然有限。
如何提高音乐大模型的创意能力,使其能够创作出更具个性和创新性的音乐作品,是目前音乐大模型需要突破的方向之一。
在这个方向上,业内有一个想法,就是让AI制作的音乐声音更像“人”,更符合人类的情感表达诉求,让生成的歌曲引起更多人的同理心和共鸣。
例如,消除AI音乐的电子音乐问题。AI音乐过去被用户吐槽最多,也是很多音乐大模型在人声技术上突破的重点之一。据趣丸科技介绍,这一问题最近率先解决,得益于最新版本的天谱音乐2.2,实现了长序列音乐词意建模和高质量音频空间建模的进一步突破,高度还原了音乐音频在高维空间的连续信号表征,实现了音乐性和音质的飞跃。播客“Vibration 在公共场合,歪波音室的主理拾壹也提到,天谱音乐的人声歌词和真人音乐几乎无法区分。
但也需要注意的是,虽然AI可以模拟人类的创作方式,但它总是很难真正理解和表达人类复杂的情感。音乐中的情感通常是创作者内心深处的真实体验,AI产生的音乐在情感表达上可能会显得浅薄。在这个流量爆炸和注意力被狂轰滥炸的时代,我们没有理由承受更多的作品。
作为人类,我们还需要面对的是,AI音乐创作的发展会在一定程度上挤压一些人类音乐创作者的就业和创作空间。但无论如何,在现阶段,我们需要找到一个平衡来实现AI和人类创作者的真正共存。
*本论文授权发表量子位,观点仅为作者所有。
— 完 —
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




