LumaAI的视频生成模型如何多样化,不拼长度拼速率?
以2月份Sora发布为标志,视觉模型在2024年崛起。在此之前,大多数模型公司在视觉模型布局之前都要先拍照,或者一个模型可以完成图片和视频。但是有一家公司先做了3D生成模型,然后做了视频生成模型,技术上有所创新。
这个叫做Luma AI企业,第一款出圈的产品是由3D生成模型Genie支持的智能手机应用。它允许每个人只用智能手机镜头就能简单地生成各种3D图像,并获得数百万客户。
2024年,它推出了一款名为Dream的产品。 Machine的视频生成模型是基于高效的多模态Transformer结构,并且可以直接在视频中练习。与传统视频模型相比,在某些功能上具有一定的优势。
今年早些时候,它获得了A16z领投,Matrix、英伟达和许多个人投资者参与了4300万美元的B轮融资,这使得其累计融资达到7000万美元,并使其拥有更多的资源来提高计算能力、数据和团队,从而训练出更好的视觉模型。
120秒生成120帧,不卷长度卷速度视频生成模型
这一轮AI技术的崛起是由大语言模型和大视觉模型共同推动的。有些人认为语言是通往AGI的唯一途径,而更多的人认为视觉是关键。视觉模型可用于包括逼真视频生成、游戏、互动3D世界建设和机器人技术在内的各种生成人工智能应用。
从3D模型到视频模型,LumaAI显然是后者。他们跳过了语言模型和图片模型,增强了视觉模型的时间和空间元素,更接近现实世界。
LumaAI认为多模式是智能化的关键,它们将构建一个AI系统,最终与现实世界互动,实现变化。
LumaAI由Amit Jain(CEO)和Alex Yu(CTO)共同创立,Amit Jain曾经在苹果公司工作,负责Vision Pro的多媒体体验,在3D计算机视觉、相机技术、机器学习等方面都有丰富的实践经验。Alex Yu曾在Adobe公司工作,并与Angjooo在伯克利的人工智能研究实验室工作。 Kanazawa教授共同研究神经辐射场(NeRFs),在CVPR、ICCV等AI领域,他曾经发表过很多论文。
经过B轮融资,LumaAI的领导团队引进了NVIDIAJiamingg的几位顶尖人才, Song,担任首席科学家,领导基础模型研究小组,Jiaming 曾经领导过Song扩散模型(如DDIM)的研究工作;来自伯克利的Matthewew Tancik领导应用研究小组,他的参与造就了神经辐射场(Neural Radiance Fields),它是3D神经渲染领域最具影响力的新方法之一;Tuhin,苹果设计工作室 领导设计部门Kumar。
AnirneyA16z合伙人 “生成式AI的巨大机遇是让数十亿人能够创造出以前只有少数人敢于梦想的东西,”Midha说。凭借世界一流的多模态研究和产品设计能力,Luma正在推动这一浪潮。在计算机视觉、图形学和深度学习领域,Luma团队聚集了最优秀的科学家,他们推出了数百万人使用的产品。我很高兴能和Amit在一起。、Alex与他的团队合作。”
Genienie3D生成模型
2022年,Get3在3D领域取得了第一个重大进展,D、发表了PointE和DreamFusion等研究论文。这样就引发了这个领域的研究热潮,仅2023年9月就有20多篇相关论文提交给ICLR。研究人员最终克服了“两面问题”等生成过程中的一些主要挑战。(Janus problem)。
但是许多方法的速度很慢,可能需要一个小时才能产生内容。因此,在保证视觉质量的同时加快生成质量是非常有意义的。Luma AI构建了一个快速、高质量、可部署的3D生成基本模型Genie,它可以在10秒内通过自然语言提醒创建任何3D目标。基于大量3D形状、纹理和情景数据集的训练,Genie在网页端,Luma 在Discord社区提供iOS应用程序。现在已有数百万的客户。

Luma Amit联合创始人兼首席执行官 “Luma的核心理念是,所有的视觉生成模型都需要在3D环境中进行推理和工作,以创造一个看起来合理而实用的视频、情境和世界。”
在3D领域,Luma AI并非唯一的玩家,创业公司,如Hypothetic。、Auctoria AI和Kaedim都推出了类似的功能,Autodesk和英伟达也分别推出了ClipForge(3D模型可以根据文本描述生成)和Get3D(将2D图像转换为3D模型)等应用。
Alex创始人LumaAI Yu表示,LumaAI的3D模型具有保真度高的优点,因为一些3D图像生成模型是在二维图像上训练的,它们产生的内容往往是‘扭曲空间、身体和动作’,而LumaAI产生的内容是连贯可用的,具有很高的保真度。
Dream视频生成模型 Machine
Luma DreamAI视频生成模型 Machine采用了类似于3D模型Genie的技术和产品策略,卷速,卷可控,开放。
Dream Machine与AWS合作,利用它们的H100进行超级计算训练。不像一些基于照片训练的视频模型,Dream Machine使用Transformer直接基于视频数据进行训练,这使得它的模型更能“理解”人物、动物和物体与现实世界的互动方式,生成的视频内容能够忠实地呈现特定的物体、人物、动作和环境,讲述连贯的故事,并且始终保持流畅的动作。
此外,Dream 与某些模型不同,Machine长时间卷曲,15秒甚至1分钟,现阶段只生成5-10秒的视频短片,但它可以在120秒内生成120帧。对创作者而言,这加速了他们迭代创造力的速度。
Dream的初始版本 在Machine发布2个月后,Luma Dream发布了AI Machine 1.5.新模型的改进在于更逼真的效果,更好的动作跟踪能力,以及文字的优势。一方面,它的提醒和跟踪能力增强;另一方面,它支持多种语言(如阿拉伯语),可以生成更准确的含有文字的场景。这个方面的突破,有利于设计者设计动态标题动画标志和演示文稿的动态屏幕图形。
尽管OpenAISora今年开启了视觉模型潮,但它仍处于封闭测试阶段,OpenAI应将其作为闭源模型运行。Luma Dream已经将Dream 根据similarweb的统计,Machine的使用权一般都是开放的,这也使得它的用户数量迅速增加。(lumalabs.ai)今年6-7月流量增长33.4%,达到2250万次,而且有些竞争者的流量在同期只有1210万(veed.io)和240万次访问(synthesia.io)。与此同时,Google的Gemini流量环比下降了14.3%,Microsoft 独立版CoPilot环比下降13.4%,这反映了其受欢迎程度。
开放战略不仅能增加流量,还能使Luma AI收集了更多真实用户的反馈。相比之下,理想的机器现在已经向所有愿意尝试的用户开放。就产品策略而言,Luma AI不仅拥有现在面向ToC的网站和App,而且将在未来推出API和插件,集成Adobe等创意软件工具。
视觉模型创业公司有哪些差异化竞争策略?
创业公司如何在模型和视觉模型领域与大企业竞争?肯定需要一些差异化的策略,具体到Luma。 AI,它在三个方面完成了多样化。
从技术上讲,它采用Transformer架构直接使用视频数据进行练习,提高了视频生成内容的真实性和可控性。
就产品而言,它不追求视频生成的长度,而是追求视频生成的速度,帮助顾客提高工作效率。
在模型运营方面,采用开放策略,降低模型维护成本,扩大用户数量,积极拥抱大公司生态,趁机进入企业市场。
目前AI商品普遍存在赚钱难的问题,这一问题分离有两个方面。
首先是成本问题。无论是培训还是推理,目前的计算率成本还是很高的,这使得AI初创公司无法以较低的成本扩大规模。一方面需要等待芯片技术的发展,目前成本正在快速下降。
二是收入来源问题。仅仅通过API销售模型的能力在模型越来越卷的今天很难赚钱,因为很多大厂商都提供了免费的模型,或者把模型Token的价格压得很低。创业公司的出路在于应用。对于视觉模型公司来说,我们可以在电子商务、设计、影视、游戏等领域找到具体的突破方向。
强大的创业团队可以向AGI开发(无论选择哪条路线),但在实现AGI的道路上,要想让企业形成正循环,首先要看一些“肥水田”做出有价值的产品。
本文来自微信微信官方账号“阿尔法公社”(ID:alphastartups),作者:发现非凡企业家的,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




