突破3D生成极限:一键打造精细至毛发的3D资产

08-04 07:18

量子位 | 公众号 QbitAI


在高质量3D生成需求不断攀升的当下,高效生成结构优良、几何精细的三维资产,成为了AIGC和数字内容创作领域的核心难题。


尽管近年来3D生成方法进步显著,精度日益提高,但现有框架在兼顾效率与质量方面仍存在瓶颈。特别是在高分辨率建模时,计算的高复杂度极大地限制了生成速度和应用落地。


为解决这一困境,南洋理工大学联合数美万物、西湖大学推出了全新的3D生成框架——Ultra3D。


Ultra3D采用coarse - to - fine的两阶段生成流程,高效实现高分辨率三维资产建模,提升了3D生成质量的上限。第一阶段,Ultra3D利用高效的VecSet表示快速生成coarse mesh,并导出稀疏体素;第二阶段,引入新的局部化Part Attention,对每个体素进行细粒度特征建模。


该机制仅在语义一致的局部区域内进行注意力计算,大幅减少全局注意力的冗余计算,有效提高生成效率。此方法支持1024分辨率输出,在保持高保真度的同时,实现高达6.7 ×的加速比,为三维资产的快速生成和下游应用提供了可行方案。


近年来,3D生成领域发展迅速,稀疏体素凭借强大的表面细节建模能力,成为众多SoTA方法常用的3D表征。


这种表征将3D物体编码为稀疏体素和对应的latent token,虽然表达能力强,但由于token数量巨大,在高分辨率下往往过万,导致计算效率低下。


因此,以往的工作大多局限于较低分辨率,难以实现更高质量。为解决这一问题,Ultra3D提出全新的兼顾效率和质量的二阶段生成pipeline,在不降低质量的情况下大幅加速训练和推理,将其拓展到更高分辨率和质量。


Ultra3D由二阶段Pipeline构成:第一阶段通过紧凑高效的VecSet表征快速生成coarse mesh,并据此体素化得到稀疏体素的结构布局;第二阶段基于该布局引入结构感知的Part Attention,对每个体素进行latent feature精细建模。


Part Attention通过几何对齐的语义分组,仅在局部区域内计算注意力,大幅减少计算冗余,同时保持几何连续性和细节质量。实验显示,Ultra3D可在不牺牲生成质量的前提下,实现3.3 ×的整体加速,并在多个指标上超越现有SoTA方法,兼具速度与保真。


Ultra3D的核心在于新提出的part attention机制。sparse voxel表征表达力强,但token数量大,导致attention计算开销巨大。


为解决这一问题,Ultra3D提出专为3D设计的part attention,将attention计算限制在同一个part group内,避免冗余的全局attention,在不降低质量的情况下大幅降低计算压力。


一个简单的替代方案是使用大语言模型领域常用的window attention,但实验表明,将其直接应用于3D会导致质量下降,因为其固定的分割模式与3D物体的语义不匹配。


与其他方法的对比实验和user study表明,Ultra3D在生成质量上远超之前的SoTA方法,能生成具有高精度细节的高分辨mesh。attention的ablation实验也表明part attention是更适用于3D生成的local attention机制。


Ultra3D提出了兼顾效率与保真度的创新性3D生成框架,突破了当前主流方法在分辨率和计算成本之间的权衡瓶颈。


通过coarse - to - fine的双阶段设计和结构感知的Part Attention机制,Ultra3D显著提高了稀疏体素建模的效率,在保持高质量输出的同时实现多倍加速,支持高达1024分辨率的三维资产生成。


该方法不仅在多个定量指标上大幅超越现有SoTA方法,在用户主观评价中也表现出色,能真实还原复杂几何结构和微小纹理细节,如毛发、衣褶等,展现出卓越的细节还原能力。


更重要的是,Ultra3D具有良好的扩展性和通用性,为数字内容创作、游戏建模、AR/VR、影视制作等多种下游应用提供了更快速、更高质的3D建模方案。


随着生成式AI向多模态和高保真内容生成不断发展,Ultra3D展现出的性能和潜力,标志着高分辨率3D生成进入新阶段。


未来,Ultra3D有望拓展到动画、可编辑3D内容生成以及3D - 4D一体化建模等更多复杂任务,成为推动AIGC向更高维空间发展的关键技术基石。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com