AI 3D生成天花板再次拉升,清华团队炼成3D Scaling Law

2024-09-21

《黑神话悟空》的火爆,不仅仅是3D游戏本身,还有背后的暗流涌动。AI 3D生成技术。


长期以来,外界对3D大模型赛道的关注程度略低于语言模型和视频模型。然而,全球3D大模型玩家都在暗中竞争,默默努力,从a16z下注的Yellow,到李飞飞的World。 Labs,大型3D模型的迭代速度没有下降。


刚刚,国内3D大模型头部玩家VAST更新了Tripo的大型模型,这是一个基于数千万优质原生数据库训练的超级版本。


而且3D生成新工具的玩法也更进一步,文字、单图、多图都可以作为输入


除了官方公布的新产品,VAST还带来了另一个重要消息,那就是公司持续完成了数亿元的融资,这也是3D大型赛道的最大融资金额。


自然,融资方面的推动,也只是技术实力的呈现。因为VAST的技术和应用场景,确实足够了。


快速生成无瑕,效果惊人。


再一次拉高AI 3D天花板的模型叫做3D天花板Tripo 2.0


Tripo 先在几秒钟内生成2.0。形状几何浏览一下,然后在几秒钟内“贴上皮肤”,⽣成线条和PBR


现在的Tripo 2.0已正式上线,大量网友已开始实测。


Tripo 文生3D支持2.0、单图生3D;Tripo 1.4版本还支持多图生3D。


输入一个prompt,一次可以生成4个3D模型。


根据输入的不同,量子位的实测结果分为以下两部分,即:


  • 文生3D模型
  • 图生3D模型

Tripo 2.0文生3D模型实测

话不多说,直接先来看一波文生3D效果。


首先,产生几何结构「动画片少女的半身形象」。


就复杂结构的生成效果而言,细节仍然十分充分:



下一步,把它贴在皮肤上。


生成时间不超过20秒就能得到精细的线条和层次;一般来说,人工建模要达到这一细节,耗时估计要上千倍。



换个问题!使用Tripo 试试2.0生成卡通形象的全身形象。


先生,试试成为一个卡通矮人。~


效果,这是相当可爱的(宋丹丹的声音),belike:



另一方面,我们生成了一个小怪物,并将单个生成模型放大。


旋转360度,人眼没有发现bug和缺陷。你知道,怪物的背部硬刺细节密密麻麻,这是一个人工建模者的噩梦,通常会避免这种复杂的设计,但对于tripo来说却没有压力。



增加难度,再复杂一些3D模型生成任务也同样可以控制。


了解透视结构在过去,它一直是生成AI的卡点,以生成图形模型的手指问题为代表。3D模型的空间布局极其重要。我们可以看到Tripo强大的理解透视结构的能力,完美地生成了复杂的结构模型任务。



最后再放一个厉害的,下面这款购物车的难度不用多说:



Tripo 图生3D模型实测2.0

再次看一波图生3D的效果。


对于图片,单图生3D模型的算法是最重要的。空间数据理解和还原度,这次我们横向比较了一些市场上其它玩家的效果。


温暖提示,以下每张展示图中的每张展示图Tripoo是最后一个3D模型 2.0生成


来吧,最后一朵玫瑰的图生模型对比展示!


通过对比可以清楚地看到,只有它产生的几何形状360度无死角,花朵和枝叶的完整性最高:



贴图后,在恢复原图的颜色、纹理这一块,也是最有效的:



通过对植物生成效果的测试,我们又对无生命物体的图形进行了测试。


把俄罗斯复活节彩蛋的照片丢给模型作为输入,Tripo 2.0输出效果最具“浮雕感”,相比之下,纹路细节最为精致:



经过多次测试,不难看出Tripo 2.0在各个方面的生成表现都存在显著差异。


举例来说,生产的PBR材料有⾼保真度,保留原图表⾯属性及视觉效果:



例如,不管是侧面还是背面,每一面都可以捕捉到复杂的原图特性:



Tripo 2.0不但生成质量令人眼前一亮,而且更高。可控性同时也是一个主要特征。


在选择文生3D模式时,输入不仅支持多模式,还支持输入负prompt(即不允许生成模式中带有哪些元素)。



对导出模型姿态控制也非常独特。


可以定制3D模型的头部、腿部、手臂等比例。


还能“A-pose”“T-pose"2个姿势可以随意选择,每秒设置长腿:



良好的3D模型也能一键绑定骨骼,风格化。


拥有自己乐高的3D模型人!



更多游戏大家再慢慢探索,欢迎大家在评论区同创。~


Tripo 2.0效果如此哇塞,——


Tripo 如何炼成2.0?


上层解剖技术,Tripo 2.0在推进过程中打满了一个词:3D Scaling Law


首先,Tripo 2.0基于数以千万计的大量3D⾼质量数据库,采⽤概率性的⽣成式建模⽅法律,在学习中捕捉⼤在规模数据中⼏何和材料分布。


由此,Tripo 2.0更好地保证了输出质量,增强了模型的鲁棒性和泛化能量。⼒。


第二,它采用了DiT和U-复杂混合架构的Net模型


DiT擅⻓在3D结构中捕捉整体情况⽂和⻓距离依赖关系,而U-Net则善于保留细致的细节和局部特征,Tripo 2.0正是结合了这两种结构的优点。


其次,采⽤训练算法最先进,Tripo 2.0⼏何和材料⽣模型都是基于最先进的模型。⼤拥有规模流模型数⼗亿参数


同时采⽤guidance distillation和step distillation,通过蒸馏提⾼效率,在不牺牲质量的前提下⼤幅度提高了性能。


在各种技术的加持下,在3D生成形状、纹理质量、细节表现、输⼊遵循要求和导出多样性。⽅⾯,Tripo 2.0获得新的SOTA,成为新的“五边形”战士:



之前,Tripo 在2.0的背后,团队还与其他团队合作,推出了Siggraph的学术成果。、CVPR、ICLR、顶部会接受ECCV等。


例如Wonder3D,通过跨域扩散模型生成一致的多视图法线贴图和相应的数字图像,然后通过新颖的法线整合算法快速优质地重建3D几何。


根据现有成绩蒸馏取样。(SDS)与Wonder3D相比,Wonder3D显著提高了效率、一致性和细节,可在2-3分钟内完成重建。


再比如TGS:Triplane Meets Gaussian Splatting,CVPR也是如此 2024收录。


该技术利用Transformer网络与一种新颖的Triplane-Gaussian混合表示,从单张照片中重建3D模型变得更加高效和准确。


更多细节,有兴趣的童鞋可自行查看。


总之,Tripo 2.0不是一蹴而就的,背后有许多技术积累。


Scaling3D世界 Law


最后,让我们正式了解一下Tripo 2.0背后的公司。


VAST,是一家专注于3D大模型研发的AI公司,于去年3月成立。


企业的目标是“通过建设”⼤3D内容创作的大众级别。⼯具,建⽴UGC3D内容平台,将3D空间转化为客户体验、内容表达、提升新品质。⽣产⼒关键因素。”


公开资料显示,该公司CEO、CTO都是商汤出身:


宋亚宸创始人兼CEO,曾经在商汤落地过多个从零到一的AI项目,曾经参与了MiniMax的建立,这是六大模型之一;CTO梁鼎,曾任商汤通用模型负责人的清华本硕博,师从戴琼海教授。



自成立一年半以来,该公司经常采取行动。


第一个3D大模型首先在今年年初亮相。Tripo 1.0


Tripo 1.0参数数十亿,使用它,从单图/文字中生成3D网格模型只需8秒。




上线半年内,Tripo 全球用户产生的3D模型超过500万个。


什么是500万的概念?大约是世界前三大3D模型数据库的总和。



VAST将于今年3月初与Stable合作。 Stability背后的Diffusion AI,开源3D基础模型共同推出。TripoSR


因为它能在3D生成领域取得“0.5秒完成单图生成3D模型”的成就,所以开源在3D生成领域非常受欢迎。到目前为止,GitHub已经吸引了4.3星。k。



如今,Tripo 2.0又出来了,已经在线玩得很开心了。


得益于3D Scaling Tripo的这三次更新时间跨度仅为9个月,Law带来的效果提升。


而且有速度也有质量,效果在行业内外都得到认可。


拿一条新消息来证明:不久前,世界上最大的在线游戏开发平台Roblox正式宣布进入AI。 3D生成,但是到目前为止,Tripo已经成为Roblox玩家最流行的3D建模称手工具。



下一个VAST将带Tripo去哪里?


至少在技术方面,VAST将会回答量子位。Scaling不断追求3D生成式AI Law在寻找数据、表征和模型架构的可扩展范式的同时,研究模型规模、信息量和生成质量之间关系的基本原理。


不仅致力于推动3D生成AI的边界,而且不断探索更加整体的AI边界(Holistic)3D生成。


这还是挺令人期待的。


在语言模型和视频模型给世界带来了一点震撼之后,大家也希望3D生成跑道能够滋润自己的ChatGPT时刻。


毕竟与其他AI生成跑道相比,3DAI生成的情况比较特殊。不仅AI生成后人工二改技术难度大,而且如果模型效果不好,如果想通过增加抽卡频率来达到满意度,不妨尽快自己画(不是)。


幸好3D生成行业深孚众望,一路前行。——


回顾过去两年,特别是2023年底至2024年间,3D生成技术发展迅速。


不仅提高了效果、速度,而且实现了“效率高、成本低、创新性强、可定制性强”的特点。


在技术飞速发展的同时,整个行业的人才密度也在不断增加。


在中国,以VAST为代表,创业公司大多来自世界知名大学和科研机构;放眼海外,AI教母李飞飞首次创业成立了空间智能公司。World Labs,还专注于3D生成世界,宣布构建大世界模型的长期目标。(LWM)来感知,产生3D世界,并与之互动。


人心齐泰山移嘛。


现在的AI可以说是因为人才和技术,效果和场景的清晰和进步。 3D生成这条赛道,逐渐进入更多人的视野。


而3D Scaling Law或将带来的突破性进展,似乎预示着人工智能领域下一个焦点的方向。


本文来自微信微信官方账号“量子位”(ID:QbitAI),作者:衡宇 经授权发布的西风,36氪。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com